Нейросети «Яндекса» теперь могут искать информацию в архивах «Советского спорта» за 100 лет

74c9e3909544dbc158a8829c3dd35356.jpg

Искусственный интеллект «Яндекса» распознал 24 тысячи выпусков газеты «Советский спорт» за сто лет, с 1922 по 2022 годы. Теперь они доступны в сервисе «Поиск по архивам»: пользователи смогут не только посмотреть сканы газетных страниц, но и искать информацию по разным номерам и статьям. 

Как рассказывают в «Яндексе», нейросеть адаптировали для работы с газетными страницами и их особой вёрсткой: разворотами формата А2 с колонками, врезками, рекламой с мелкими буквами на специфической бумаге низкой плотности, с которой сложнее считывать информацию. Специалисты компании вручную обработали тысячи страниц, выделив на каждой десятки и сотни текстовых блоков от заголовков и колонок до шахматных нотаций и надписей на форме спортсменов. В будущем обновлённая технология распознавания поможет лучше ориентироваться в других типах сложной вёрстки, например, при работе с рукописными архивами.

Что касается архивов «Советского спорта», то в них можно найти, например, интервью легенды советского футбола Игоря Нетто, статью о необычном подходе к трансферам в середине прошлого века в Бразилии и заметку о том, что австрийская футбольная ассоциация больше не намерена терпеть в составах команд игроков с причёской в «стиле битлз». «Яндекс» также сделал небольшую подборку забавных статей:

• Команду не допустили к участию в регате из-за водителя, кочегара и матроса (1922 год);

• На соревнованиях один из дисков на штанге оказался тяжелее другого (1951 год);

• Атлет не выходил из дома по совету астрологов и сломал бедро в ванной (1963 год);

• Сборник фальшивых партий чемпионата СССР по шашкам (1977 год).

Проект реализован в рамках партнёрства «Яндекса» с «Советским спортом» и Национальной электронной библиотекой (НЭБ), которая собирает документы из фондов российских библиотек и предоставляет их пользователям в цифровом виде.

«Поиск по архивам» компания запустила в начале 2023 года. Сервис помогает быстро находить упоминания людей, населённых пунктов и событий в расшифрованных нейросетями рукописных документах XVIII–XX веков.

В марте «Яндекс» сообщил, что его нейросети расшифровали 300 тысяч страниц метрических книг из Центрального государственного архива Московской области. Теперь помимо выпусков «Советского спорта» в базе сервиса представлено более 7 миллионов страниц исторических документов из архивов Москвы, Московской, Иркутской, Оренбургской и Новгородской областей, а также нескольких муниципальных архивов.

© Habrahabr.ru