Нейросети «Яндекса» научились расшифровывать архивные записи с дореволюционной орфографией
Искать данные по старым метрическим книгам теперь быстро и удобно.
Компания «Яндекс» научила нейросети расшифровывать архивные записи со сложной дореволюционной орфографией. Все заинтересованные могут опробовать технологию в действии прямо сейчас в сервисе «Поиск по архивам», который открывает доступ к более чем 2,5 миллиона страниц исторических документов с текстовой расшифровкой.
В официальном сообщении по этому поводу указывается, что новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы, а также понимает особую структуру архивных документов.
Разработчики рассказали, что им удалось обучить нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов 18–19 веков, а ещё из десятков миллионов сгенерированных примеров. Экспертам была поручена разметка и расшифровка материалов для обучения, а также контроль за качеством распознавания. Всё дело в том, что рукописи неподготовленному человеку сложно разобрать, а новая технология «Яндекса» почти сразу превращает всё в печатный текст. Именно поэтому в базе сервиса можно быстро найти документы с упоминанием фамилии, населённого пункта или любых других поисковых запросов.
«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах Яндекса», — заявила руководитель поиска «Яндекса».
Предполагается, что «Поиск по архивам» повысит эффективность работы историков, социологов, демографов, генеалогов, а ещё должен помочь тем, кто ищет сведения о своей семье. Разработчики признались, что первым представленным в сервисе фондом стал Главархив Москвы — именно на его материалах разработчики обучали нейросеть. После чего база пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных оцифрованных документов будет только увеличиваться.
Ещё здесь можно искать можно по материалам 18-го — начала 19-го веков, которые больше всего пользуются популярностью у пользователей. Речь идёт о метрических книгах, исповедных ведомостях и документах с результатами переписи населения. Нужные документы можно найти по каталогу или через строку поиска. Предусмотрены фильтры по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями Яндекса. Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.