Работа с МВД Мексики, зарубежными банками и ФК «Зенит»: История Центра речевых техногий

Обозреватель vc.ru изучила историю и деятельность петербургского Центра речевых технологий — компании, которая занимается разработками в сфере распознавания и анализа голоса. Среди проектов ЦРТ — решения для футбольного клуба «Зенит», государственных структур Эквадора и Мексики, инструменты для анализа работы телефонных операторов и другие технологии.

История ЦРТ началась в 1990 году. После развала СССР собственный бизнес предоставлял людям иные перспективы по сравнению с режимным НПО, чем и воспользовались основатели компании Сергей Коваль, Михаил Хитров, Михаил Булыгин и их знакомые. За несколько месяцев собралась команда разработчиков и специалистов в области электроники, некоторые из которых раньше работали в отделе спецакустики НПО «Дальняя связь» в Санкт-Петербурге.

Выбор профиля для бизнеса казался основателям рискованным. В условиях становления новой рыночной экономики было сложно предположить, что на речевых технологиях можно будет зарабатывать деньги. В команде утвердили неформальный устав, согласно которому компания предпочитала работу в области высоких технологий выгодным, но неинтересным проектам.

08ca2d18932c88.jpg

Первым офисом новой компании стала комната, предоставленная знакомым Михаила Хитрова по секции альпинизма. Сначала денег не хватало. Сотрудники новой компании брали подработки или «бомбили» по ночам. На московские технологические выставки оборудование возили на собственных машинах.

В начале 90-х задержки зарплаты на три месяца были нормой: «Компания была небольшой, все понимали, куда шли». Бывшие учёные совмещали роли экономистов, разработчиков директоров и логистов.

«Мы совершили все возможные коммерческие ошибки. Например, чтобы первыми значиться в справочниках, фирму следовало назвать на букву А, мы же назвались на Ц», — вспоминает один из основателей.

Первые заказы

Первым продуктом ЦРТ стала клавиатура для слепых, заказанная ВОС (Всероссийским обществом слепых). Один из восьми основателей, встретившись со знакомым из ВОС, услышал от друга мысль о том, что люди с ограничениями по зрению почти не могут воспользоваться компьютером. Идея помочь людям управлять компьютером реализовалась в виде голосовой клавиатуры. Устройство озвучивало клавиши, которые нажимали пользователи.

Второй заказ также поступил от ВОС: требовалось усовершенствовать «говорящую газету». Газета представляла собой записанные на магнитофонную пленку новости, кому-то из «читателей» хотелось слушать их в более быстром темпе, кому-то — в медленном. Но если крутить запись медленно, голос превращался в бас, а если быстро — в писк. Компания ЦРТ разработала приставку к магнитофону, которая решала эту проблему.

87afc9d48a1d9b.jpgГенеральный директор ЦРТ Дмитрий Дырмовский и президент России Владимир Путин на Форуме стратегических инициатив, 2016 год

Первый крупный заказ (60 тысяч рублей, или свыше $30 тысяч по курсу на 1990 год) поступил от экспертов по фоноскопии из МВД. Госструктура состояла из современных молодых ребят, её щедро финансировали «сверху». Сотрудники МВД знали членов команды ЦРТ по работе в НИИ «Дальняя связь».

Сотрудникам МВД требовалась программа, которая помогла бы очистить записи от постороннего шума для точного анализа речевой информации. Ученые из ЦРТ разработали такую систему, однако созданное программное обеспечение требовало устройства для ввода и вывода звуковой информации в компьютер. Также нужно было решить проблему преобразования звука из аналогового в цифровой формат.

Найти необходимое устройство не удалось, так что ученым пришлось разработать и прибор.

Созданный программно-аппаратный комплекс получил имя «Икар». После контракта на поставку 25 «Икаров» для МВД компания стала финансово стабильной. Основатели, по их словам, поняли, что работа с госструктурами — перспективный рынок.

Госструктуры не самый простой партнёр — долго проходят согласования, не всегда понятно, кто за что несет ответственность, —, но мы научились с ними работать.

— Михаил Булыгин

Выход на западные рынки

Нестабильная экономическая ситуация в России вынудила компанию задуматься об экспансии на Запад. Первую попытку ЦРТ предприняла в 1996 году, начав переговоры в США, но договориться о сотрудничестве не получилось — назначенная ЦРТ цена за разработку оказалась слишком высокой и не заинтересовала заказчиков.

В 1997 году команда ЦРТ отправилась на расшифровку данных бортового самописца самолета, потерпевшего крушение на острове Шпицберген, Норвегия. В следующем году компанию пригласили для схожей экспертизы в рамках расследования авиакатастрофы кубинского самолета в Гондурасе.

В этом же году компания вывела на рынок систему конвейерной шумоочистки речи Sound Cleaner. Именно Sound Cleaner используют герои американского сериала «Шпионка». Программа предлагала большое число алгоритмов обработки речи, гибкую настройку и работу в режиме реального времени.

Отсутствие экономический знаний у руководителей компании долгое время приносило проблемы. С 1990 года у компании было восемь владельцев с равными долями, и это провоцировала массу конфликтов. Разногласия касались, например, продвижения на Запад: одни партнеры считали эту затею губительной для компании, другие понимали необходимость завоевания новых рынков. «Это были люди другой эпохи, им было трудно приспособиться к жестким реалиям бизнеса. Новых условий, отличных от знакомых российских, они, конечно, боялись», — вспоминает один из основателей.

Ряд партнеров, считавших продвижение на запад ошибкой, ушли. Михаил Хитров выкупил их доли и занял должность генерального директора компании, Сергей Коваль получил должность технического директора, а Михаил Булыгин — директора по продажам.

Первых инвесторов компания нашла в 2002 году — по словам основателей, благодаря случайному стечению обстоятельств. Партнер фонда Quadriga Capital Рейнхард Кольайк пил кофе с основателем мюнхенской компании Voice Trust и обсуждал интересные проекты в области речевых технологий. «Мы тут нашли одну интересную фирму в Санкт-Петербурге, Центр речевых технологий, у них много интересных разработок, но вот бизнес не выстроен, и из-за этого они медленно растут», — рассказал приятель Рейнхарду. Кольайка заинтересовала брошенная вскользь фраза, и он позвонил в ЦРТ с предложением встретиться, вспоминают основатели ЦРТ.

6178ec1be69a93.jpg

При встрече Кольайк пообещал помочь увеличить оборот компании ($1,5 млн в год) в десять раз. Руководство компании согласилось на сделку и продало Quadriga Capital 35% акций. Quadriga Capital заработала на инвестициях и наладила для ЦРТ работу с таможенниками так, что теперь товары пересекают границу без особых проблем — за неделю вместо месяца.

По совету инвесторов в 2003 году в ЦРТ впервые составили план работы компании. «Представители инвестора ходили и нудели:, а где план, а почему он не выполняется. В общем, приучили нас к порядку», — рассказывают представители компании.

С помощью связей Quadriga Capital ЦРТ нашла заказчиков в органах безопасности Бельгии, Германии, Италии, США, Франции и ещё в семи десятках стран и открыла представительство в Нью-Йорке.

c111f790db4785.jpg

В 2010 году компания приняла государственный заказ от правительства Мексики. Смысл проекта состоял в создании национальной голосовой базы Мексики на основе биометрических технологий. Фонотека продукта, открытая к постоянному пополнению, сформирована из образцов речи, которые содержат уникальные для каждого человека биометрические данные. При этом система хранит и сравнивает образцы. Личность владельца голоса идентифицируется по фрагментам речи, которые получены из разных источников (диктофонной записи или фонограммы телефонных переговоров).

По словам создателей, система способна к неограниченному масштабированию: на момент создания она хранила и единовременно обрабатывала 600 тысяч голосов. Объём голосовой базы данных способен увеличиваться без потери производительности. За сутки система делает 600 миллионов сравнений.

В 2011 году в App Store появилось приложение Radio RSS, читающее новости синтезированным голосом ЦРТ.

Осенью 2011 года Quadriga Capital продала долю в ЦРТ «Газпромбанку», получив 1000% доходности. Выручка ЦРТ на тот момент составляла $20 млн в год, чистая прибыль — $3 млн.

Сложности выхода на зарубежные рынки

Сегодня на зарубежном рынке наиболее востребованы экспертные и биометрические решения компании, основанные на языконезависимых технологиях, говорят представители ЦРТ.

Основная проблема при выходе на международный рынок — это, конечно, «трудности перевода». Естественно, я не имею в виду языковой барьер. Изучения текущей маркетинговой ситуации и конкурентной среды недостаточно. Нельзя недооценивать национальный менталитет и то, как он может проявляться именно в вашей отрасли.

Например, в Латинской Америке все расслабленные, никто никуда не спешит. Проекты там затяжные, продвигаются медленно. Рассчитывать на обязательность партнеров и заказчиков не стоит. Из всех латиноамериканцев наиболее организованными нам показались мексиканцы. Вести с ними бизнес получается так же, как с русскими или европейцами.

Еще один момент — в Латинской Америке высокий уровень преступности. Наши инженеры, работавшие в Мексике, почувствовали это на себе: однажды попали под обстрел и лежали под столами.

При реализации проекта в Эквадоре тоже не обошлось без криминала. Представителя компании, который отправился к заказчику, таксист увёз за город и ограбил.

В плане взаимодействия с зарубежными заказчиками можем посоветовать брать на работу «представителей двух культур». Не экспатов в классическом понимании, а иностранцев, владеющих русским языком. Такие сотрудники хорошо знают местный менталитет и специфику ведения бизнеса, не имеют языкового барьера и в то же время способны эффективно взаимодействовать с российским офисом.

Еще одно универсальное правило — делайте качественные продукты, рассчитанные на требовательных пользователей. Если вы собираетесь делать поставки в Западные страны, требования будут особенно высоки.

Например, воспринимать нас всерьёз в США нас начали, когда наша технология верификации диктора заняла первое место в конкурсе, который организует американский Национальный институт стандартов и технологий NIST.

— Дмитрий Дырмовский, генеральный директор Центра речевых технологий

В портфеле компании — внедрение в мобильный банк системы биометрической аутентификации для мобильных приложений OnePass банком Wells Fargo со штаб-квартирой в США. ЦРТ создала биометрические системы национального масштаба — в Мексике и Эквадоре. Такие системы используются местными службами для поимки преступников.

Другие проблемы

При работе на внутреннем рынке ЦРТ сталкивается со сложностями в конкуренции с западными производителями. Компании приходится доказывать свою имиджевую и технологическую состоятельность, но главная трудность, по словам руководства, в том, что западные производители, приходя на российский рынок, приводят с собой своих технологических партнеров. В данных условиях российские вендоры остаются за вне игры из-за установки западными компаниями высоких заградительных цен.

908cb027a08d51.jpg

Отсутствие поддержки государства сказывается и на экспорте. Например, ЦРТ сложно конкурировать с китайскими поставщиками, которые обеспечены государственной поддержкой. Правительство Китая предоставляет иностранным заказчикам кредиты на выгодных условиях, чтобы те покупали китайские продукты. В свою очередь в России экспортные контракты зачастую длительные и не хватает других существенных льгот. Деньги, которые вкладываются в проект, возвращаются через год или два, если вообще возвращаются.

В 2010 году ЦРТ работала над созданием системы биометрического учета в Мексике. Проект был номинирован в национальной валюте, а российские банки с песо не работают. В качестве решения ЦРТ предлагала перевести деньги через банк-посредник в США. Министерство, выступавшее заказчиком по данному контракту, ссылалось на местное законодательство, в котором указано, что если банк не прописан в контракте, то перевод денег через этот банк запрещен, а в контракте значился российский банк. Вопрос рассматривался в судебном порядке, и по решению суда оплату работы компании позволили провести через американский банк.

Работа с футбольным клубом «Зенит»

В 2014 году ФК «Зенит» регулярно нес финансовые потери из-за поведения фанатов. По решению КДК РФС сборная провела два матча без зрителей и три матча с закрытыми фанатскими секторами, а также была оштрафована на 1 млн рублей из-за инцидента с Владимиром Гранатом. Прямые убытки клуба за каждый проведенный матч без фанатов составили 20 млн рублей.

Оценив финансовые потери, руководство «ФК Зенит» решило установить на стадионе «Петровский» биометрическую систему контроля доступа. От системы требовалось не пропускать на стадион болельщиков, которым запрещено посещение спортивных мероприятий, и оперативно реагировать на попытки пройти на стадион по чужим абонементам.

Во время опытной эксплуатации на два турникета поставили систему ЦРТ «Визирь. Арена», а на другие — систему компании-конкурента. Разработка ЦРТ правильно распознала 97% лиц и показала 0,01% ложных срабатываний. Зрители не создавали очередей, проходили проверку за 2 секунды. Комплекс проходил тестовую эксплуатацию на восьми матчах, успев проверить 30 тысяч человек и отсеяв 10 болельщиков, имеющих судебный запрет на посещение спортивных мероприятий. Футбольный клуб за один сезон окупил затраты на установку и внедрение комплекса за счет экономии на штрафах.

Cистема биометрического контроля доступа для массовых спортивных объектов «Визирь.Арена»

Другие разработки ЦРТ

По словам Дмитрия Дырмовского, главная трудность при внедрении любого проекта — согласование ТЗ. Необходимо каждый раз убеждаться, что заказчик и исполнитель видят результат одинаково. Кроме того, компания объясняет заказчикам условия и принципы правильного использования продукта для получения выгоды.

Например, одно из решений ЦРТ — инструмент речевой аналитики Smart Logger II. Программное обеспечение отображает непрофильную нагрузку, количество повторных обращений, операторов, не соблюдающих скрипты, возможные точки роста.

Ещё один продукт компании, не получивший распространения — комплекс для создания субтитров. ЦРТ разработала его для создания субтитров в прямом эфире по заказу Минкомсвязи. До реализации этого проекта субтитрирование было доступно только в отложенном времени. Субтитры на телевидении создаются путем ручного набора сотрудниками. Но некоторые передачи (например, спортивные трансляции) смотреть в записи неинтересно, а значит, необходимы мгновенные субтитры. Задача выглядит несложной, отмечают представители компании: использовать распознаватель речи в трансляции, и проблема решена.

Сотрудники ЦРТ перечислили основные сложности, с которым столкнулась команда разработки.

  1. Во-первых, согласно исследованию, опубликованному на сайте Journal of Machine Learning, человек понимает 95–98% сказанного. Сложно представить технологию, которая справится с пониманием на 100%.
  2. Во-вторых, комментаторы часто описывают происходящее в эмоционально-экспрессивном ключе. Некоторые фразы и обороты, которые уместно звучат при прослушивании, не всегда пригодны для вывода в печатном виде.
  3. В-третьих, комментаторы славятся высокой скоростью речи, тогда как у программ-создателей субтитров есть ограничения. Субтитры выводятся блоками, которые не превышают определенного числа символов. Длина каждого блока рассчитывается так, чтобы зрители успели прочитать то, что выводится на экран. Речь комментаторов часто не укладывается в такие блоки.

Для решения этих проблем ЦРТ создала комбинированную систему, где респикер пересказывает речь комментатора в сжатом виде так, чтобы информация поместилась в блоки. Вместе с респикером работает редактор, который способен быстро обрабатывать готовый текст для вывода на экран. В 2014 году ЦРТ провела пробные трансляции на сайте Russia Sport на Паралимпийских играх в Сочи. Субтитры использовались для трансляций хоккея, биатлона, лыжных гонок и церемонии закрытия.

Перспективы речевых технологий

«По оценкам компании и аналитических агентств, с которыми мы работаем, в число главных трендов речевых технологий входят: продолжение развития многоканальности коммуникаций, развитие речевой аналитики, достижения в области голосовой биометрии, внедрение облачных технологий, развитие искусственного интеллекта. Вектор развития сместится от бизнес-применения к личному», — говорит Дырмовский.

Главным драйвером роста речевых технологий в ближайшие годы станет усложнение как промышленных механизмов, так и устройств для масс-маркета, полагает он. По словам Дмитрия Дырмовского, речевые технологии уже сделали рывок в корпоративном и государственном секторе.

В истребителях пятого поколения присутствует меню, которое управляется голосом. В современных контакт-центрах речевое управление используется давно. Телекоммуникационные компании уделяют внимание упрощению систем взаимодействия с клиентом: от многоуровневых меню до задания одного вопроса и последующего анализа ответа (по оценкам ЦРТ, 24,2% контакт- центров телекоммуникационных компаний уже используют голосовые интерфейсы и 16,5% внедрят в течение года).

«Конечно, если посмотреть на Siri или аналогичного помощника Google, может показаться, что всё ещё на довольно детском уровне. Но B2C всегда отстает от B2B и B2G. Пользователь получает начальный уровень развития технологии, в то время как она в реальности сделала уже несколько шагов вперед», — говорит Дырмовский.

Будущее речевых технологий, считает директор по развитию ЦРТ, за переходом от распознавания к пониманию речи, за оценкой слов в контексте сказанного. Главная задача состоит в синтаксическом и семантическом анализе предложений и слов. Системы научатся выделять главную мысль и дальше выстраивать речь вокруг неё.

Другое направление развития речевых технологий — голосовая биометрия. Согласно исследованию Finance Biometrics, голосовая и фотобиометрия наиболее востребованные способы проверки личности. Для аутентификации по голосу и лицу не нужно никаких специальных устройств, только встроенные микрофон и камера телефона или ноутбука.

Согласно отчету компании Acuity Market Intelligence, к 2020 году 65% транзакций, которые совершаются через мобильные устройства, будут осуществляться с помощью биометрической верификации.

Статьи по теме

©  vc.ru