Нейросеть «Яндекса» расшифровала рукописные архивы Московской области

Сервис «Поиск по архивам» от «Яндекс» пополнился новыми данными, над расшифровкой которых потрудилась нейросеть. На этот раз были взяты материалы из Центрального государственного архива Московской области.

Яндекс

Всего было расшифровано 300 000 страниц метрических книг, охватывающих временной отрезок с XVIII по начало XX века. В оцифрованных файлах содержится, в том числе множество записей о людях, живших в окрестностях Рязани, Тулы и Владимира. Кроме того, в базу данных сервиса вошли ещё 700 000 страниц документов из Главархива Москвы и впервые опубликованные в открытом доступе описи из архива Республики Мордовия (ЦГАРМ).

Отмечается, что в основе работы нейросети лежит система оптического распознавания символов, которая конвертирует рукописный текст в печатный. Благодаря этому в базе «Поиска по архивам» уже содержится больше количество документов с упоминанием фамилий, населённых пунктов и любых других слов. Сервис доступен как для историков и генеалогов, так и для обычных людей.

Впервые компания «Яндекс» запустила «Поиск по архивам» в январе 2023 года, и за два месяца количество расшифрованных нейросетями компании страниц увеличилось вдвое: с 2,5 до 5 миллионов. Пользователи сервиса просмотрели уже более двух миллионов сканов с построчной расшифровкой.

Источник:  4pda.to


©  4PDA