Владимир Арлазаров, Smart Engines: Как создать конкурента Abbyy и Kofax

25 Апреля 2022 12:2825 Апр 2022 12:28 |
Поделиться

За последние пару месяцев российский рынок распознавания документов столкнулся с уходом ряда крупных зарубежных игроков. Отечественные компании в этой области никуда уходить не собираются, а наоборот, стараются предложить клиентам новейшие решения. Чтобы получше разобраться в актуальных технологиях, CNews побеседовал с главой Smart Engines Владимиром Арлазаровым, не забыв расспросить его о пользе научного подхода в бизнесе, осознанном отказе от сервисной или классической продуктовой модели и возможностях ИИ в области борьбы с фальсификациями.

CNews: С чего началась история Smart Engines, и как вы на тот момент представляли себе будущее развитие компании?

Владимир Арлазаров: С самого начала в 2015 году мы поставили себе амбициозные цели: захватить лидерство в области распознавания документов, используя научный подход. Можно сказать, что Smart Engines не команда разработчиков, а команда ученых, разрабатывающих программные продукты. Из этого родилась вся внутренняя культура компании, ее иерархия и главное правило: каждая новая версия продукта должна быть лучше предыдущей, и нам не должно быть за нее стыдно.

Наш научный руководитель — член-корреспондент РАН Владимир Львович Арлазаров, мой дед. В штате есть несколько докторов наук, они воспитывают кандидатов наук, кандидаты — аспирантов и магистров. Специалисты Smart Engines публикуются в ведущих научных журналах по своей тематике, выступают на международных научных конференциях, входят в редколлегии, рецензируют. Мы интегрированы в российское и мировое научное сообщество. В среднем, за год на материале наших продуктов защищаются две-три кандидатские диссертации. Мы не скрываем, что такая-то наша технология описана в такой-то статье.

CNews: А как же защита технологических секретов?

Владимир Арлазаров: Наука не терпит суеты. Процесс рецензирования и доведения статьи до максимально возможного качества занимает месяцы, порой год. На момент любой публикации наша разработка уже успела серьезно уйти вперед. И, конечно, порог входа на рынок распознавания с качественным продуктом очень высокий. Под качеством мы понимаем высокую точность автоматического распознавания и время распознавания, измеряемое секундами, а лучше миллисекундами. Поэтому даже в мире сильных продуктовых команд не очень много.

CNews: Какие этапы в истории своей компании вы считаете ключевыми?

Владимир Арлазаров: Момент выпуска на рынок первого продукта — распознавания паспорта на мобильном телефоне без каких-либо серверов. Потом появление первого клиента в лице «Почта Банка». Затем попадание в экосистему «Тинькофф», до сих пор одного из мировых лидеров цифровизации банковского сектора. Ну, а дальше — переход от распознавания российских документов к распознаванию мировых, и появление первых зарубежных заказчиков. На данный момент Smart Engines продолжает развивается на российском и международных рынках, а сама технология поддерживает больше 2500 шаблонов документов со всего мира.

«Компьютерная томография это настоящий искусственный интеллект»

CNews: Расскажите о текущей продуктовой линейке.

Владимир Арлазаров: В текущей линейке четыре основных продукта.

Smart Code Engineориентирован на выполнение платежей или распознавание кодифицированных объектов. Речь идет как о различных баркодах — QR, DataMatrix, AZTEC, так и о банковских картах и машиночитаемой зоне в паспорте. Все же они тоже, в первую очередь, предназначены для чтения машиной: если помните, когда-то не было ни мобильных телефонов, ни терминалов оплаты, ни Wi-Fi, и карты просто прокатывали. Сейчас мы для удобства переводов по СБП к распознаванию QR-кодов и банковских карт добавили распознавание номеров телефонов, напечатанных или написанных от руки.

Второй наш флагманский продукт Smart ID Engine — распознавание ID-документов на более чем ста языках, в том числе, китайском, корейском, японском, арабском и вьетнамском. Smart ID Engine ориентирован, в первую очередь, на идентификацию человека и широко применяется в банках, а также для работы с клиентами в отделениях и системах дистанционного обслуживания. Бывают и уникальные внедрения, например, распознавание паспортов в пункте приема черного и цветного лома, или что-то вроде удостоверения личности для работниц немецкой секс-индустрии. Одним словом, везде, где требуется подтверждение личности. Еще одной важной частью Smart ID Engine является система выделения компрометирующих признаков, проще говоря — поиск подделок документов. Когда за дело берется машина, для коррупции не остается места. С ней нельзя договориться: есть алгоритм, он считает.

Сюда же относится и наша собственная технология сверки лиц способом без использования биометрических дескрипторов. Мы специально создали алгоритм, способный сверить два лица, не выделяя для себя никаких признаков. Аналогично тому, как сравнивает лица обычный человек. Более того, мы следим, чтобы алгоритм оставался непригодным для построения глобальной системы распознавания лиц.

Наш третий продукт — распознавание бизнес-документов Smart Document Engine. Мы научились считывать акты, накладные, 2-НДФЛ, счета-фактуры и другие типы деловых документов и форм. Наш продукт позволяет распознавать такие документы как на скан-копиях, так и на фотографиях. Сложность в том, что в отличие от ID документов, подобные бумаги, как правило, значительно больше по размеру. А так как мы изначально ориентировались на мобильные телефоны, ключевыми параметрами для работы технологии остаются разрешение камеры и расстояние до объекта. И тут есть интересный момент. Несмотря на то, что современные телефоны движутся в сторону повышения DPI, на деле качество картинок, с которыми работают наши продукты скорее падает.

CNews: А в чем секрет такого парадокса?

Владимир Арлазаров: Никакого парадокса нет: у топовых моделей отличные камеры и матрицы. Однако цифровизация развивается, уровень проникновения технологий в массы увеличивается, поэтому в процессы того-же дистанционного обслуживания включается все больше людей, которые присылают фотографии со своих телефонов. А это обычно, модели среднего ценового сегмента с достаточно скромными характеристиками.

Наконец, наш четвертый продукт — система графической реконструкции Smart Tomo Engine. Она создана для научных исследований, где необходимо быстро произвести реконструкцию результатов томографической съемки широкого класса объектов. Мало кто задумывается об этом, но ведь компьютерная томография — это и есть настоящий искусственный интеллект. Она полностью придумана человеком, в природе подобного не существует. Этот рынок бурно развивается, в нем полно места для потенциально прорывных продуктов и свершений, начиная с медицины и заканчивая промышленностью и нефтедобычей.

»Мы ничего не обрабатываем и не храним, только создаем алгоритмы»

CNews: Почему Smart Engines не пошла по классической продуктовой или сервисной модели, а выбрала SDK?

Владимир Арлазаров: Двадцать лет назад мало у кого была собственная разработка, все покупали коробочные решения. Сейчас огромная часть компаний меняет свой бизнес, выделяя ИТ в качестве локомотива трансформации остальных процессов. Им нужен не продукт, а кирпичик, который можно встроить в свою систему, каждый строит свой индивидуальный продукт для себя. Возьмем для примера финансовый сектор: у каждого банка своя система, свое мобильное приложение. Они берут наш кирпич, встраивают его в свою ИТ-инфраструктуру, не меняя привычных интерфейсов, и вся система получает новое качество.

Еще один момент — доверие, которое мы не хотим предавать ни при каких обстоятельствах. Как работает любой сервис? Он получает из разных источников какие-то картинки, затем их как-то обрабатывает. Неважно, с помощью ИИ или руками, как условный Mechanical Turk от Amazon. В любом случае, там задействованы люди, а значит — возможны утечки. И вот подобного риска мы не хотим категорически. Такое пятно со своей репутации потом не смыть. Компания специально создавала продукт в виде автономного SDK, чтобы иметь возможность передать его заказчикам целиком. Обычно речь идет о банках или страховых компаниях, а такой бизнес умеет обеспечивать информационную безопасность. Мы, в свою очередь, ничего не обрабатываем и не храним, только создаем алгоритмы.

CNews: В чем ключевые преимущества технологий Smart Engines?

Владимир Арлазаров: Если двадцать лет назад скорость и качество распознавания требовали построения целой технологической цепочки, начиная от сканирования и заканчивая верификацией, — не говоря уже об оборудовании, — то сейчас на первый план вышли смартфоны. Когда-то у многих дома стоял планшетный сканер, сейчас же это раритет. Раньше для обработки потока требовались сервера, но Smart Engines существенно оптимизировали программу. Теперь берете обычный компьютер, без выделенного GPU, и запускаете на нем наши продукты. Паспорт РФ распознается за 0,15 секунды, банковская карта — за 0,035 секунды. Это мгновенно!

Элемент сканирования уходит с появлением телефонов, сервера и центры обработки данных — с оптимизацией алгоритмов ИИ, а верификация уходит с качеством. Снижение количества ошибок избавляет от необходимости содержать штат живых операторов. Разумеется, список еще нерешенных задач огромен, а качества и скорости никогда не бывает достаточно. Но мы достигли того этапа, когда клиенты встраивают нашу технологию в свои системы, не выделяя для нее отдельных мощностей или процессов. О необходимости использовать возможности графических процессоров GPU для распознавания, как в некоторых сервисах, и речи не идет. Сейчас время распознавания паспорта РФ на смартфон также составляет порядка 0.15 секунды.

«В плане когнитивных способностей человек до сих пор превосходит машину»

CNews: Может ли ваш ИИ работать без человека?

Владимир Арлазаров: В плане когнитивных способностей, там, где требуется домысливать и додумывать, человек до сих пор во многом превосходит машину. Хотя в распознавания паспорта мы человека уже превзошли. Когда нужно вводить данные максимально точно, люди начинают уставать и совершают ошибки. По наблюдениям наших клиентов, после ввода автоматического сервиса, точность данных начинает расти. Соответственно, кто-то неизбежно решает, что живые сотрудники больше подобными задачами не занимаются.

CNews: То есть, в каком-то смысле вы уже изменили мир?

Владимир Арлазаров: Человечество, к счастью, этого не заметило. Но определенная часть привычного мира действительно изменилась, и мы гордимся этим.

CNews: Насколько ваши технологии готовы работать на отечественных процессорах?

Владимир Арлазаров: Компания начинала с мобильных устройств, то есть с ARM и x86. Но мы хорошо знакомы с «ИНЭУМ им. И.С. Брука», выпускающим «Эльбрус» и с «НИИСИ РАН», выпускающей KOMDIV. Наша обработка изображений искусственным интеллектом развивалась сразу под все платформы. Помимо прочего, это помогло уменьшить число ошибок и серьезно выиграть в скорости за счет оптимизации частей кода, медленно работавших на отдельных архитектурах. Если завтра скажут запуститься на RISC-V, через несколько дней мы выкатим первую версию, а через месяц — отлаженный продукт. Серьезно.

Компания отдавала себе отчет, что раз в России существуют производители собственных платформ, рано или поздно некоторые бизнес-процессы неизбежно будут на них переведены. Это вопрос государственной безопасности. К тому же, работая сообща с коллегами, мы получили целый ряд очень интересных научных результатов по развитию ИИ и обработке изображений. Все они опубликованы.

CNews: Как компания планирует развиваться дальше с научной и технологической точек зрения?

Владимир Арлазаров: Мы будем развивать распознавание документов в условиях, скажем так, реального мира: в сумерках, при слишком ярком освещении, на мятой бумаге и так далее. Если будет бизнес-задача, мы готовы выполнить любую технологическую часть, но результат всегда будет зависеть от качества входного материала.

CNews: То есть, с рукописными рецептами пока без шансов?

Владимир Арлазаров: Медицинский почерк не могут распознавать даже врачи, наши коллеги проводили соответствующее исследования. Сначала прогнали изображения через нейросеть, а затем эти же картинки дали реальным людям. Так вот, медицинские документы оказались плохо распознаваемы в обоих случаях.

«Мы ответили на кризис повышением темпа работы»

CNews: Кого бы вы назвали ключевыми игроками на российском рынке помимо распознавания Smart Engines?

Владимир Арлазаров: Еще в начале года я бы назвал Abbyy, Kofax, но сейчас создалась ситуация, когда мы в России, похоже, остались одни. Я сейчас говорю именно про компании, выпускающие продукт, а не сервис.

CNews: А последние события как-то изменили вашу стратегию на международных рынках?

Владимир Арлазаров: Компания ищет партнеров по всему миру, и не зациклена на каком-то отдельном регионе. Политика, безусловно, внесла коррективы в стратегические планы, но существуют еще Индия, Китай, Южная Америка. Кроме того, у нас отличное распознавания арабского языка. И конечно, Россия — наш домашний рынок, здесь мы просто обязаны чувствовать себя уверенно. В любом случае, мы ответили на кризис повышением темпа работы. Международные риски существенно выросли, но на огромном домашнем рынке мы остались практически в одиночестве. Сложно заместить за год то что, Abbyy создавала здесь 30 лет. Продолжающийся переход на отечественные аппаратные комплексы — задача не менее масштабная.

CNews: Насколько растущая легкость обращения с личными данными ставит под удар нашу безопасность?

Владимир Арлазаров: Пока мошенники этим пользуются, пока украденные данные позволяют взять кредиты от имени ничего не подозревающих людей, проблема никуда не уйдет. Мы с этим как раз и боремся своей системой поиска фальсификаций. Банкам проще не выдать кредит, чем выдать на фальшивый документ. Сейчас эта своеобразная гонка вооружений только ускоряется, но наступит точка, когда придется пересматривать весь процесс. И кстати, вопрос централизации тут никак не поможет, скорее наоборот. Если украдут общую государственную базу, то в опасности окажутся все. И речь не конкретно о России, а о мире в целом. К персональным данным пока относятся легкомысленно, и в США, и в Индии, и везде.

Важно отметить, что вопрос обеспечения безопасности — это не только вопрос самих граждан, но и компаний, которые эти данные на законных основаниях получают от граждан и обрабатывают в рамках оказания различных услуг и по идее несут за них ответственность. И если в случае, когда человек сам поставил себя под угрозу попавшись на уловку мошенника или проявив беспечность, то тут можно сказать он сам виноват. В случае же, когда по какой-то причине данные или изображения документов клиентов попали в общий доступ от компании — это совсем другая история. А если речь будет идти о попадании в общий доступ документов с конфиденциальной информацией (например, даже обычных условий договора, если в них прописана конфиденциальность), то тут варианты развития событий могут быть принципиально другие с точки зрения последствий. В том числе поэтому, чтобы снизить риски утечки мы рекомендуем компаниям все документы с персональными и любыми чувствительными данными распознавать и обрабатывать всегда в контуре своей организации.

Павел Прядкин

Полный текст статьи читайте на CNews