Владимир Арлазаров, Smart Engines: С персональными данными надо обращаться, как с государственной тайной
Российские айтишники в 2022 г. оказались в центре внимания. На фоне релокации программистов в другие страны государство ввело беспрецедентные меры поддержки отрасли информационных технологий и пообещало отечественным компаниям контракты на ₽200 млрд. О том, отразились ли эти процессы на разработке ПО и как изменились в 2022 г. потребности заказчиков, в интервью CNews рассказал генеральный директор Smart Engines, кандидат технических наук Владимир Арлазаров.
CNews: На каком уровне находятся российские разработки и разработчики в области компьютерного зрения, если сравнивать с мировыми лидерами?
Владимир Арлазаров: Год назад я бы сказал, что российские разработчики в области компьютерного зрения и искусственного интеллекта находятся на достаточно высоком мировом уровне. В России было много компаний — лидеров рынка в области распознавания текстов, биометрии и других аспектов прикладного применения. Сейчас с этим сложнее: ушли компании, работавшие в сфере распознавания текстов, которые казались российскими. Перестали быть российскими часть компаний из области биометрии, которые получали гранты. А оставшиеся оказались в интересной ситуации: если компания находится в европейской юрисдикции, то она российская? Вопрос неоднозначный.
При этом остались российские коллективы, которые работают в этой области и активно применяют компьютерное зрение. А заказ на прикладные разработки в России растет. Например, Москва — крупный потребитель компьютерного зрения, активно заказывает российские разработки и использует их.
Множество задач, которые призвано решать компьютерное зрение, вошли в наш быт. И в этом Россия занимает первое место в мире. С другой стороны, если присмотреться к этим технологиям, то можно задать вопрос:, а что в них фундаментально российского? Что касается научной части, Россия сильно отстает. Простой критерий: посмотрим, сколько публикаций российских ученых на ведущих конференциях типа CVPR (Computer Vision and Pattern Recognition Conference — прим. CNews). Если китайских там сотни, то российских — десятки. И это речь про прошлый год. Сколько будет в следующем?
Таким образом, большинство достижений на российском рынке прикладные. Когда берут что-то фундаментальное, созданное кем-то еще, и правильно внедряют. Это наши разработчики научились делать великолепно. А с фундаментальной точки зрения все более печально.
CNews: Что, по вашему мнению, нужно сделать, чтобы изменить ситуацию?
Владимир Арлазаров: Заняться наукой фундаментально. Для этого нужны: первое — деньги, второе — четко обозначенные стратегические системные цели. И необходимо — это мое личное мнение как ученого — перейти от копирования к исследованию. От попытки догнать к тому, чем всегда занимались в Советском Союзе: делать то же самое, но своими методами и лучше. Пока есть люди, которые выросли в Советском Союзе, занимались этим и могут сейчас взять на себя эту работу. Что будет после них — вопрос.
CNews: А новое поколение воспитывается?
Владимир Арлазаров: Да, но надо понимать вот что. Ученые — народ свободолюбивый, это раз. Второе — ученые идут туда, где есть задачи и где интересно. А не только туда, где платят много. Это одна из ошибок: все думают, что ученые идут туда, где платят. Деньги, конечно, нужны, но ученым прежде всего должно быть интересно.
CNews: Государство уделяет достаточно внимания сфере ИИ сейчас? Чего не хватает ученым и бизнесу?
Владимир Арлазаров: На словах государство бизнесу, который использует ИИ, помогает неплохо. С точки зрения развития ИИ, как я говорил, большинство компаний занимается упаковкой готовых решений в те или иные прикладные области. Для компаний это нормально, они действуют понятно и разумно. Но с точки зрения государства, наверное, надо более фундаментально подходить к этой задаче. Сейчас большинство компаний использует чужие идеи, подходы, инструменты. А со стратегической точки зрения, если мы говорим о поддержке государства, надо создавать собственные платформы, которые будут контролироваться Россией. Хотя бы для безопасности.
И второе — развивать научную школу, которая будет давать результаты не сегодня и не завтра, но зато послезавтра и еще лет пятьдесят.
CNews: Но для этого ученым нужны интерес и свобода?
Владимир Арлазаров: Свобода творчества, интересные задачи и вызовы. В СССР такие задачи ставились постоянно: продлить человеку жизнь, побороть рак. Задача должна быть масштабной, и под это должны выделяться деньги. Будет понятно, к чему мы идем, будет цель. И будет развиваться наука. А как превратить то, что будет создано и придумано, в деньги, — это уже задача бизнеса. Но таких амбициозных задач не хватает.
CNews: Каким стал для вас 2022 год?
Владимир Арлазаров: Непростым, но успешным. Мы еще шесть лет назад планировали быть независимыми. У нас все продукты строятся на собственной программной платформе. То есть если, предположим, нам завтра объявят полный бойкот и скажут: вам ничего использовать больше нельзя, мы ответим: окей. Те примитивы, которые обычно используются айтишниками, в частности, OpenCV, Tesseract, мы сделали свои собственные под себя сами. Чтобы обучать нейронные сети, написали собственный движок, который работает на современных видеокартах. Но два года назад мы его полностью адаптировали под «Эльбрус» — и да, если у нас отберут видеокарты, то процесс несколько замедлится.
CNews: Но не остановится.
Владимир Арлазаров: Да, мы не остановимся. У нас изначально идеология компании была: не копировать западные или восточные разработки, а делать все свое, с нуля. Не копировать чужие ошибки, а совершать собственные. Когда вы используете чьи-то разработки, то невольно становитесь заложниками чужих идей. Иногда это хорошо, потому что позволяет быстро достичь некоторых целей. Но когда вы хотите сделать что-то фундаментальное, то в какой-то момент начинаются проблемы, потому что нет пространства для развития. И мы, понимая это, сразу сделали ставку на свое.
CNews: То есть вы пока не сильно ощутили на себе последствия санкций?
Владимир Арлазаров: Цены на железо возросли, и это чувствуется. Но на процессы разработки санкции не влияют. С другой стороны, резко вырос спрос на наши продукты.
CNews: Из-за импортозамещения?
Владимир Арлазаров: Не совсем. Сейчас все основные банки под санкциями. Раньше они могли закупать софт там, где хотели. А сейчас вынуждены переходить на российские решения. И это вопрос выживания, а не импортозамещения. Банки очень быстро эволюционируют в сторону развития совершенно новых технологий и в сфере клиентского обслуживания. В области распознавания банки сформировали спрос на новый класс решений, крайне передовых с технической точки зрения. Но мы смогли закрыть этот спрос исключительно благодаря тому, что все написали сами.
CNews: Если говорить об итогах года: что вы сделали, какие были ключевые проекты?
Владимир Арлазаров: С точки зрения развития бизнеса и продуктов мы сделали много: у нас появились новые клиенты, многие наши клиенты расширили внутреннее присутствие, мы не потеряли большую часть зарубежных заказчиков. Бизнес как был международным, так и остался.
CNews: Вам удалось сохранить связи с зарубежными клиентами, несмотря на сложную ситуацию?
Владимир Арлазаров: Потери всегда есть. Но вопрос в том, что ты предлагаешь. Если цену, тебе быстро найдут замену. Но если качество, то замену будут искать не так охотно. И не так быстро найдут. Мы предлагаем качество. И наши клиенты это понимают. Это, с одной стороны. С другой, наше решение полностью автономно, то есть мы не предлагаем сервис, а предлагаем системы, которые наши клиенты используют внутри своего контура. В этом случае процесс распознавания полностью безопасен и нет риска утечки, так как ни нам, ни на другие внешние ресурсы, изображения с данными не передаются ни в каком виде. Соответственно, у наших клиентов нет и проблемы трансграничной передачи данных — с точки зрения самого продукта им не важна наша юрисдикция. Поэтому зачем им что-то менять?
Технологически мы год тоже завершим очень успешно. Выпустим новую версию нашей продуктовой линейки. Выйдем на те рынки, где клиенты были фактически брошены компаниями, ушедшими из России.
Первым важным апгрейдом станет полнотекстовое распознавание для B2B. Это совершенно новый для нас рынок, на который мы до 2022 года не планировали выходить. Эту нишу занимала ABBYY, а теперь планируем занять мы.
CNews: Вы предлагаете замену продуктам ABBYY?
Владимир Арлазаров: Мы предлагаем продукты, которые решают те же задачи, что и ABBYY. Но это нельзя назвать заменой или аналогом. У нас собственные решения, которые работают на иных принципах, построены по-другому, решают задачи на других качественных уровнях. Более того, то, что мы предлагаем, уникально. Мы смогли перенести всю обработку документов, в том числе удостоверяющих личность (паспорт), на мобильные телефоны. Да, наши решения, естественно, работают на серверах и десктопах. Но в первую очередь наша идеология — это то, что мы идем от мобильного решения к более широкому применению. И идеологически мы хотим сделать так, чтобы сканеры исчезли вообще. Наша цель — чтобы все забыли, что такое сканер и, тем более, что такое сервис (онлайн-сервис по обработке документов с помощью операторов — прим. CNews). Чтобы сканеры как класс устройств и весь процесс сканирования остались в исторических книгах. Они решали многие проблемы, но сейчас это не нужно. Технологически мы это сделали. Поэтому мы аналогов и не имеем. Продукт, который мы сейчас выпускаем для полнотекстового распознавания, в первую очередь будет направлен не на работу со сканами. В первую очередь наше решение нацелено на то, чтобы хорошо обрабатывать фотографии со всеми их сложностями: перепадами теней, света, изгибами сложенных листов.
CNews: То есть технология с мобильного устройства корректно прочитает согнутый и затем развернутый лист?
Владимир Арлазаров: Не только прочитает, но «расправит» и распознает. Мы сделали это сначала для документов, а теперь для полнотекстовых документов. Плюс в 2022 году мы повысили качество распознавания в два раза. Если многие компании сейчас заняты функциональностью, то для нас качество распознавания является основополагающим фактором работы нашей компании. Оно должно быть очень и очень высоким, мы в этом лучшие.
CNews: Что касается ситуации с ABBYY. Основанная в РФ американская группа ABBYY в начале года провела реорганизацию российского бизнеса. Компания удалила русскоязычную версию корпоративного сайта, оставив украинскую версию. Многие продукты ABBYY были исключены из реестра отечественного ПО, а юридические права на оставшиеся в реестре решения ABBYY были переданы новой компании Content AI. Минувшим летом Content AI перешла под контроль компании из Турции, но продукты ABBYY, принадлежащие ей, так и остались в реестре отечественного софта. Как вы прокомментировали бы эту историю?
Владимир Арлазаров: Как мы понимаем, в феврале компания ABBYY ушла с российского рынка и даже удалила российскую локализацию на сайте. После чего была создана компания Content AI. Она принадлежала россиянам, и компания эта заявила, что ей переданы некие права. После чего летом эта компания стала принадлежать турецкой. Насколько она теперь российская — не могу сказать, я не юрист, но выглядит это странно. Есть компания — наследник ABBYY, которая почему-то принадлежит туркам. И эта компания говорит, что она: а) российская и б) наследница ABBYY. Насколько это правда — я не знаю.
CNews: Что вы об этом думаете?
Владимир Арлазаров: Если это российская компания, то почему она принадлежит турецкой? Если она принадлежит российским гражданам, то чего они стесняются? Если вы проверите ЕГРЮЛ, то увидите собственников компании Smart Engines, и там не будет иностранных граждан и компаний. Это вопрос требований к открытости бизнеса. Тем более, если компания работает с государством. Подводя итоги, это странная ситуация — но, возможно, мы чего-то не знаем, а компания все объяснила властям. Но все равно возникают вопросы: получается, правила игры одинаковы не для всех?
CNews: А как вы смотрите на то, что в реестре отечественного ПО есть компании, которые используют решения ABBYY?
Владимир Арлазаров: Это проблема реестра и тех органов власти, которые их используют. Если органы государственной власти, работая с закрытой информацией, готовы сотрудничать с компанией, которая официально ушла из России и удалила русскую локализацию, это их выбор.
CNews: Все ваши главные разработки — Smart ID Engine, Smart Document Engine, Smart Code Engine — включены в реестр российского ПО. Недавно вы подали заявку на включение в реестр нового продукта — Smart Tomo Engine, который выполняет трехмерную томографическую реконструкцию объектов разной природы по набору рентгеновских проекций. Можете о нем рассказать?
Владимир Арлазаров: Это наше новое направление, достаточно неожиданное для компании, которая занимается распознаванием документов. Четыре года назад мы начали думать о том, что будет «после» документов. В ближайшее время бумажные документы никуда не денутся, но надо развиваться и смотреть на интересные задачи, которые останутся актуальными не сегодня или завтра, а послезавтра. И мы увидели, что в области компьютерной, рентгеновской томографии есть часть, которая может выполняться искусственным интеллектом. Природных аналогов у томографии нет. Это одно из величайших достижений искусственного интеллекта, потому что зрительная система была придумана человеком на основе математики и физики. В этой области все еще господствуют физика и математика. И в ней очень мало сделано с точки зрения обработки изображений.
Мы нашли коллектив, который занимался томографией, и применили там все то, что умеем в документах. Сейчас выходит уже вторая версия продукта, и так сложилось, что это направление стало важной частью импортозамещения, потому что КТ не может жить без реконструктора. Без него нельзя создать томограф, он будет бесполезен. И в этой сфере мы применяем наши методы, средства и оборудование, чтобы сделать полноценную российскую систему реконструкции и анализа двухмерных и трехмерных изображений для промышленности и медицины. До второго пока далеко: чтобы софт стал медицинским, он должен пройти огромный путь сертификаций. Но сейчас развивается промышленная томография, которая стала особенно актуальной после появления промышленных 3D-принтеров и становится все более и более важной, поскольку используется в микроэлектронике. Можно получить трехмерную картинку высокого разрешения, посмотреть, что получилось, не уничтожив объект измерения, заглянуть внутрь сверхпрочной детали, которая не должна содержать трещин. Изучить, насколько она соответствует чертежу. Промышленная томография — инструмент, который будет незаменим в будущем. Есть еще исследовательская томография, в некоторых больших исследованиях в области медицины, материаловедения без нее невозможно. Но наша цель — именно промышленная томография.
CNews: Расскажите о ваших планах на 2023 год.
Владимир Арлазаров: В 2023 году с технологической точки зрения мы собираемся расти по трем направлениям. Кроме томографии, которую мы в 2023 году намерены обозначить как бизнес-направление, мы планируем расширить область распознавания во всех обычных отраслях. Сделать так, чтобы для бизнес-сообщества именно обработка фотографий документов на мобильных телефонах и серверах стала стандартом. По распознаванию удостоверяющих документов основное направление нашей работы — борьба с мошенничеством. Там мы продолжим бороться за качество, чтобы еще больше повышать безопасность. Точность ввода должна быть такой, чтобы человек был уже не нужен. Иногда его участие даже лишнее: машина ошибается реже. Пока для того, чтобы проверять подлинность документов и ловить мошенников, точности не хватает. Она должна быть на порядок выше, чтобы заменить эксперта. Он может, взглянув на изображение, сказать, что оно неверное. Но таких специалистов на всю страну — два-три десятка, а нужно, чтобы «эксперт» был в каждом телефоне. Утечки идут непрерывно, а мошенники используют эти утечки в сочетании с современными технологиями генеративных изображений, чтобы рисовать паспорта. Поэтому, когда по телевизору показывают очередную нейросеть, которая рисует красивые картинки, то все радуются и восторгаются, а безопасники хватаются за голову.
CNews: Недавно президент России Владимир Путин поддержал введение уголовной ответственности и оборотных штрафов за утечки персональных данных. Как вы относитесь к этой идее?
Владимир Арлазаров: Очень просто: давно пора. Морфинг, дипфейки и другие технологии позволяют мошенникам вас обворовывать, но эти технологии создаются исключительно с помощью утечек персональных данных. Предположим, у крупного банка утекло миллион записей. Утекало и больше. Что делать: всем миллионам менять биометрию? Нет, поэтому наказание должно быть достаточным, чтобы организации задумались, какие данные им собирать и что с ними делать.
CNews: Вы упоминали про онлайн-сервисы по обработке документов. Какие у них бизнес-перспективы в контексте ужесточения ответственности за утечки персональных данных?
Владимир Арлазаров: Если ответственность за утечки при обработке персональных данных будет уголовной, то некоторые модели бизнеса, конечно, будут фактически свернуты. Потому что сейчас некоторые умельцы передают персональные данные сторонним сервисам. До февраля 2022 года они передавали персональные данные из России иностранным сервисам. Сейчас — уже в основном российским сервисам, я надеюсь.
Если ваши персональные данные попадут в «Толоку», как вы думаете, сколько времени пройдет прежде, чем они попадут на «черный рынок» в даркнете?
CNews: Немного.
Владимир Арлазаров: Вы правы. Некоторые модели бизнеса, которые кажутся безопасным, интересными и веселыми, вообще-то говоря, оказываются очень опасными, интересными для мошенников и очень «веселыми» для обманутых людей.
Отрасль новая, законодательное регулирование здесь необходимо.
CNews: Реально ли остановить утечки в принципе?
Владимир Арлазаров: Так, чтобы нигде ничего не утекало, сделать невозможно. Надо сделать так, чтобы это не было массовым и не превращалось в большую проблему. Чтобы стало скорее исключением из правил.
Самое простое — не собирать эти данные. Зачем, например, в каком-нибудь магазине ваша фотография? Большинству организаций она не нужна. И тем более не нужны персональные данные.
CNews: Первый вариант — не собирать, а еще?
Владимир Арлазаров: Соблюдать комплекс мер безопасности — физической и кибербезопасности. Вопросы разграничения доступа. Если посмотреть, то государственные секреты воруют нечасто. Это скорее исключение. С персональными данными надо обращаться так же, как с государственной тайной. Персональные данные должны оставаться тем золотом, которое лежит в сейфе и никуда оттуда не исчезает.
CNews: Недавно появились оценки, что экономика в лучшем состоянии, нежели прогнозировалось весной. Как настроены ваши клиенты в России?
Владимир Арлазаров: Как обычно, когда случается кризис. Сначала все паникуют и думают, что все пропало. Потом становится понятно, что нет, что жизнь продолжается, надо жить и работать. А затем выясняется, что появились новые возможности, новые потребности, и люди адаптируются. Клиенты наши работают и нас заставляют.
CNews: Какие у вас ожидания от 2023 года?
Владимир Арлазаров: У нас есть план. Насколько он реалистичен, посмотрим в декабре следующего года, но мы планируем и в России, и за рубежом рост выручки не меньше чем на двузначное число в процентах. Сейчас сложно планировать, особенно в России. Падения не ожидаем точно, а при определенных условиях выручка может вырасти в 2–3 раза. Старые игроки уходят с рынка, а системы распознавания экономике нужны по-прежнему. В этом году спрос уже начал расти, а в 2023 этот рост приобретет лавинообразный характер. После ухода ABBYY, Kofax и других вендоров рынок опустел, и тут скорее вопрос, справимся мы или нет. Но мы сделаем все, чтобы справиться.
Более того, мы собираемся выходить на новые рынки. Мы научились распознавать арабский язык и в арабских странах получаем новых клиентов. Арабский язык — это драйвер, который уже в нынешнем году принес серьезные результаты. И в следующем тоже должен. Это достаточно сложная письменность, но на этом мы не планируем останавливаться. Есть еще Индия. В Индии проживает 1,5 млрд человек, там 20 языков. Если в России 147 млн население, то у одного банка — максимум 147 млн клиентов. А для Индии это маленький банк. И там, где у нас миллионы распознаваний, у них десятки миллионов.
CNews: Если говорить о российском ИТ-рынке, какие у вас прогнозы и ожидания на ближайшее будущее?
Владимир Арлазаров: В ближайшей перспективе ничего плохого не произойдет. Рынок ждут потрясения, будет перестройка, появятся новые игроки, но я считаю, что это замечательно. Как ученый могу сказать: когда что-то происходит, ломается старое, то это дает дорогу новому. И это наш шанс сделать лучше. Если мы посмотрим на западный рынок, там есть гиганты, которые годами сидят ровно, никуда не двигаются, и они тормозят прогресс. Стартапы пытаются их растормошить с помощью огромных денег. А нам выпал уникальный шанс. Сидеть и ждать нельзя, надо двигаться.
Доступ к технологиям хотя и обрезается, но находятся другие пути. В ИТ вливаются серьезные деньги. Правительство позаботилось о том, чтобы ИТ-компании, разработчики таких решений обладали достаточными налоговыми льготами, поэтому заказ на такие решения только растет.
С точки зрения кадров все не так благополучно. Но налоговый маневр правительства очень помог нашей отрасли пережить первую часть кризиса.
CNews: Вы считаете, у российского ИТ есть потенциал?
Владимир Арлазаров: Да, и потенциал огромный. В России и бизнес, и государство — осознанные потребители ИТ-услуг. Наши компании и государство информатизировались, информатизируются и будут информатизироваться, поскольку это стратегическая цель. Возьмем в пример те же госуслуги. Чтобы над ними работать, требуется огромное количество ИТ-компаний, которые создают соответствующие продукты и услуги. Сейчас отказаться от госуслуг в нашей стране просто невозможно. И таких вещей, к которым мы привыкли, очень много.
CNews: В вашей компании 18 сотрудников имеют степени кандидатов и докторов наук. Что изменилось в научной сфере за последний год? Как движется ваше международное сотрудничество и как идет работа над международными публикациями?
Владимир Арлазаров: Мы ждем защиты новых диссертаций, поскольку научная работа измеряется количеством статей и диссертаций. К чести мирового научного сообщества надо сказать, что отношение к нам кардинально не изменилось. Но работать стало сложнее. Многие проекты поставлены на паузу. Но ученые относятся к этому по-другому. Наука не спешит никуда. Мы сохранили научное сотрудничество с теми научными группами, с которыми работали, даже развиваем его.
CNews: В каких странах?
Владимир Арлазаров: Франция, Германия, Италия. Продолжаем работать с Кубой. С Америкой мы никогда всерьез не работали, поэтому перемен не ощущаем. А вот с европейскими учеными наращиваем темпы публикаций. На научные конференции ездить стало логистически тяжело. Но русофобии мы не заметили. Напротив, вышли на новые журналы, новые конференции, несмотря на то, что все статьи мы подписываем «Москва. Россия». Мы работаем в России, российских институтах и российской компании — подписываем как есть. Работа продолжается, несмотря на финансовые и логистические проблемы. Но здесь нам повезло, поскольку искусственный интеллект не так сильно зависит от приборов и материалов. Что нужно математику? Листок бумаги и карандаш.
CNews: Сегодня в отрасли ИТ прослеживается тренд на создание благоприятного экологического следа и на увеличение социальной ответственности бизнеса. Как ваша компания поддерживает эти тенденции?
Владимир Арлазаров: Это важный вопрос, который мало кто поднимает. Мы радуемся и восторгаемся достижениями ИИ. Но цена этих достижений никогда не озвучивается: что центры месяцами обучают одну сеть, сколько нужно экспериментов. Является ли это экологически эффективным, что мы обучили сеть, которая строит картинки, потратив на это столько же энергии, сколько Москва за год? Разумно ли это?
С научной точки зрения такого вопроса не стоит: любое достижение продвигает вперед. Но с точки зрения экологии последствия неприятные. Экологический ущерб от бездумной разработки и применения ИИ будет нарастать. Он сейчас уже не маленький. Все говорят о том, что криптовалюта наносит вред окружающей среде, но вред от ИИ не меньше. И здесь возникает вопрос разумного потребления. Наша компания минимизировала ущерб от нашей деятельности. Первое — на уровне алгоритмов мы уменьшаем вычислительную сложность и, соответственно, энергопотребление. Таким образом мы сумели уменьшить выбросы до 1 кг CO2 за год. С другой стороны, мы действуем просто — сажаем деревья. В национальном парке «Угра» в Калужской области мы посадили четыре тысячи дубов. Мы подсчитали: одно распознавание требует энергии, эквивалентной 0,0001 г CO2, так что четырех тысяч деревьев хватит на компенсацию от вреда нашей компании навсегда. Но это только первый проект. В следующем году планируем посадить деревья в другом регионе. ■ Токен: Pb3XmBtzt5i5rCd7ocGpvB8XTQPh22GsPxJXVk4Рекламодатель: ООО «СМАРТ ЭНДЖИНС СЕРВИС»ИНН/ОГРН: 7728328449/1167746085297Сайт: https://smartengines.ru/
Полный текст статьи читайте на CNews