Итоги ICDAR-2024: Как и зачем нужно делать распознавание объяснимым
Почему ICDAR?
Море, солнце, пляж технологии. В греческой столице недавно завершилась Международная конференция по анализу и распознаванию документов, она же ICDAR. Кажется, лучше места для обмена опытом в одной из ключевых научных областей в эпоху цифровых преобразований было не найти. Колыбель науки как-никак!
ICDAR проводится с 1991 года и уже давно закрепила за собой статус центрального мероприятия в области обработки документов, распознавания текстов и анализа изображений. Здесь ежегодно собираются все сливки научного и профессионального сообщества: ведущие исследователи, разработчики, представители деловых кругов и власти приезжают на конференцию, чтобы поговорить о положении дел в сфере компьютерного зрения, сформулировать направления будущих исследований и предложить решения актуальных проблем. Команда Smart Engines регулярно выступает в рамках ICDAR, рассказывая про свои новые разработки. В этом году наши ученые выступили на конференции с двумя докладами.
Нынешняя встреча — 18-я по счету и была традиционно посвящена последним достижениям в области автоматического распознавания текстов, анализа документов, оцифровки архивов и других смежных технологий. На конференциях ICDAR неуклонно следят за современным состоянием OCR и отмечают все новинки.
Пример результатов распознавания разных типов документов с индикацией степени уверенности
Другой важный момент — защита наших нейросетевых моделей — обеспечивается тем, что мы самостоятельно синтезируем обучающие данные. Такие данные не содержат чувствительной личной информации и притом нисколько не уступают реальным данным по своим естественности и разнообразию. Как мы это делаем? Читайте вот тут:
Как правильно генерировать обучающие данные для OCR?
Мы в Smart Engines много пишем про распознавание документов. И, конечно, для распознавания документо…
habr.comКак следует из докладов того же ICDARа, общий тренд в сторону приватности никто не отменял. И наша OCR ему в полной мере соответствует — как в научном плане, так и на практике. В общем, держим марку.
Помимо объяснимости
Решения Smart ID Engine, Smart Document Engine и Smart Code Engine созданы на базе собственного OCR-движка, способного с высокой скоростью обрабатывать большие объемы документации, корректно считывать данные из таблиц, печати, штампы рукописного заполнения и другие особенности самых разнообразных типов бумаг. И все это — со скоростью 15 документов в секунду на сервере.
Наша OCR извлекает информацию из любых источников: со сканов, фотографий или видео, в приложении или браузерном окне и т.д. Причем читать и распознавать с посимвольной точностью удается любые, даже откровенно неудачные «вводные»: с искажениями пропорций, заломами, корешками, гербовыми линиями, защитными элементами вроде голографических деталей или гильоширного фона и тому подобного (в первую очередь речь про распознавание паспорта). И все это — быстро и надежно, не доверяя содержание документов третьим лицам.
Smart ID Engine обеспечивает мгновенное распознавание и ввод данных удостоверяющих документов более 235 юрисдикций мира. Решение работает в реальных условиях с фото, видео и сканами и дополняется технологией небиометрической сверки лиц для обеспечения аутентификации. Все операции по распознаванию полностью автоматизированы и исключают человеческий фактор. ПО поставляется в виде SDK с API для смартфонов, десктопов и серверов.
Smart Document Engine позволяет с высокой скоростью распознать печатные и рукописные документы на 102 языках мира. За счет использования уникальных моделей синтеза обучающих данных и геометрически осведомленного ИИ решение способно полностью автономно обрабатывать большие объемы документов и извлекать информацию из них. Обработка данных происходит в контуре компании (on-premise) без административных и уголовных рисков.
Smart Code Engine дает возможность автоматизировать процесс распознавания двумерных и линейных штрихкодов, платежных реквизитов, банковских карт, рукописных и напечатанных номеров телефона. С помощью программного продукта можно проводить сканирование документов, содержащих машиночитаемые зоны (MRZ). Решение может быть интегрировано в веб-приложения (PWA) и веб-страницы.
Мы в Smart Engines точно знаем, каким высоким требованиям должна отвечать качественная система распознавания.