Терские казаки

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.



Яндекс - Поиск по архивам

Сообщений 1 страница 4 из 4

1

https://ya.ru/archive

С чего всё началось

Около двух лет я занимался поиском информации об истории своей семьи. За это время я не только смог найти данные о предках вплоть до второй половины XVII века, но и успел разочароваться в самом процессе «раскопок». Найти подходящий архив уже проблема. Для этого нужно или иметь профильное образование по архивному делу, или пообщаться с историками, которые подскажут направление.

Получить документы из архива тоже не всегда просто. Если у архива нет электронного доступа, то нужно записаться, приехать, получить какую-то небольшую порцию книг и отсмотреть их прямо на месте. У некоторых архивов есть электронный доступ, но их вычислительные ресурсы и ширина канала связи часто ограничены, что сказывается на скорости загрузки таких сканов.

Неудивительно, что в какой-то момент родилась мысль упростить это дело с помощью наших технологий. Пришёл в команду, которая отвечает за OCR в Яндексе. Коллеги поддержали идею. Ну а дальше мы собрали на коленке прототип, показали его руководителям, получили благословение и отправились делать. 

Подключаем архивы

Мы договорились с несколькими архивами, что возьмём их материалы для обучения нейросетей. Нас интересовали документы, которые связаны с историей семьи, другими словами — те, в которых могла содержаться генеалогической информацией:

    Метрические книги — документы для актовых записей о рождении, браке или смерти в период с начала XVIII века по 1918 год.

    Ревизские сказки — результаты проведения подушных переписей населения Российской империи в начале XVIII — 2-й половине XIX веков.

    Исповедные ведомости — ежегодный отчёт по каждому приходу православной церкви в Российской Империи в XVIII — начале XX веков.

Сейчас мы работаем с документами из архива города Москвы, архивами Оренбургской и Новгородской областей. Надеемся, что к ним скоро присоединятся архивы из других регионов.

https://habr.com/ru/company/yandex/blog/712510/

+1

2

Первое впечатление - слабовато распознает. Много ошибок. Неправильно выделяет блоки текста.
Непонятно: распознаватель будет совершенствоваться и каждый раз будет производиться распознавание все документов и новая индексация?

0

3

Думаю, со временем улучшится качество распознавания и число архивов. Пока еще нейросеть натренируют. Нужно подождать, проект только стартовал.
Надеюсь, такой гигант, как яндекс, справится.

Как пишет разработчик в комментариях (https://habr.com/ru/company/yandex/blog/712510/):

anazarta 26.01.2023 в 12:21
Перед тем, как думать в сторону платного API мы хотим научиться еще лучше распознавать документы. Это первоочередная задача для нас.

anazarta 26.01.2023 в 12:19
Мы работаем над увеличением числа архивов. Надеюсь в ближайшее время сможем обрадовать всех хорошими новостями.

anazarta 26.01.2023 в 12:17
Мы уже работаем над улучшение качества распознавания. Как можно заменить, текст в старых документах структурировали, часто писали иначе, чем сейчас в плане орфографии (переноса строк). Это все создает дополнительные сложности. Я думаю в обозримом будущем качество моделей, которые применяются в сервисе будет расти.

0

4

На VGD тоже обсуждают в ветке:
https://forum.vgd.ru/169/140482/

0



Рейтинг форумов | Создать форум бесплатно