Яндекс - Поиск по архивам

Сообщений 1 страница 4 из 4

Поделиться12023-01-25 11:45:12

Автор: cider
Модератор
Зарегистрирован: 2020-12-06
Приглашений: 0
Сообщений: 260
Уважение: [+87/-0]
Позитив: [+4/-0]
Провел на форуме:
1 месяц 6 дней
Последний визит:
Вчера 14:44:38

С чего всё началось

Около двух лет я занимался поиском информации об истории своей семьи. За это время я не только смог найти данные о предках вплоть до второй половины XVII века, но и успел разочароваться в самом процессе «раскопок». Найти подходящий архив уже проблема. Для этого нужно или иметь профильное образование по архивному делу, или пообщаться с историками, которые подскажут направление.

Получить документы из архива тоже не всегда просто. Если у архива нет электронного доступа, то нужно записаться, приехать, получить какую-то небольшую порцию книг и отсмотреть их прямо на месте. У некоторых архивов есть электронный доступ, но их вычислительные ресурсы и ширина канала связи часто ограничены, что сказывается на скорости загрузки таких сканов.

Неудивительно, что в какой-то момент родилась мысль упростить это дело с помощью наших технологий. Пришёл в команду, которая отвечает за OCR в Яндексе. Коллеги поддержали идею. Ну а дальше мы собрали на коленке прототип, показали его руководителям, получили благословение и отправились делать.

Подключаем архивы

Мы договорились с несколькими архивами, что возьмём их материалы для обучения нейросетей. Нас интересовали документы, которые связаны с историей семьи, другими словами — те, в которых могла содержаться генеалогической информацией:

Метрические книги — документы для актовых записей о рождении, браке или смерти в период с начала XVIII века по 1918 год.

Ревизские сказки — результаты проведения подушных переписей населения Российской империи в начале XVIII — 2-й половине XIX веков.

Исповедные ведомости — ежегодный отчёт по каждому приходу православной церкви в Российской Империи в XVIII — начале XX веков.

Сейчас мы работаем с документами из архива города Москвы, архивами Оренбургской и Новгородской областей. Надеемся, что к ним скоро присоединятся архивы из других регионов.

https://habr.com/ru/company/yandex/blog/712510/

Поделиться22023-01-27 10:29:14

Автор: wat
Участник
Откуда: Москва
Зарегистрирован: 2021-04-06
Приглашений: 0
Сообщений: 23
Уважение: [+7/-0]
Позитив: [+0/-0]
Пол: Мужской
Провел на форуме:
3 дня 8 часов
Последний визит:
Вчера 19:16:14

Первое впечатление - слабовато распознает. Много ошибок. Неправильно выделяет блоки текста.
Непонятно: распознаватель будет совершенствоваться и каждый раз будет производиться распознавание все документов и новая индексация?

Поделиться32023-01-27 13:02:19

Автор: cider
Модератор
Зарегистрирован: 2020-12-06
Приглашений: 0
Сообщений: 260
Уважение: [+87/-0]
Позитив: [+4/-0]
Провел на форуме:
1 месяц 6 дней
Последний визит:
Вчера 14:44:38

Думаю, со временем улучшится качество распознавания и число архивов. Пока еще нейросеть натренируют. Нужно подождать, проект только стартовал.
Надеюсь, такой гигант, как яндекс, справится.

Как пишет разработчик в комментариях (https://habr.com/ru/company/yandex/blog/712510/):

anazarta 26.01.2023 в 12:21
Перед тем, как думать в сторону платного API мы хотим научиться еще лучше распознавать документы. Это первоочередная задача для нас.

anazarta 26.01.2023 в 12:19
Мы работаем над увеличением числа архивов. Надеюсь в ближайшее время сможем обрадовать всех хорошими новостями.

anazarta 26.01.2023 в 12:17
Мы уже работаем над улучшение качества распознавания. Как можно заменить, текст в старых документах структурировали, часто писали иначе, чем сейчас в плане орфографии (переноса строк). Это все создает дополнительные сложности. Я думаю в обозримом будущем качество моделей, которые применяются в сервисе будет расти.

Поделиться42023-01-27 13:03:30

Автор: cider
Модератор
Зарегистрирован: 2020-12-06
Приглашений: 0
Сообщений: 260
Уважение: [+87/-0]
Позитив: [+4/-0]
Провел на форуме:
1 месяц 6 дней
Последний визит:
Вчера 14:44:38

На VGD тоже обсуждают в ветке:
https://forum.vgd.ru/169/140482/

Терские казаки

Меню навигации

Пользовательские ссылки