Deep sign — универсальная технология распознавания жестов
Переводит звук в жестовый язык и наоборот.
Запуск
Как ни странно прозвучит, но такой глобальный подход к распознаванию движений родился из одной маленькой, на первый взгляд, задачи.
Участвуя в одном из минских стартап-мероприятий, ребята из нашей команды познакомились с интересными соперниками, которые зацепили не только своими идеями и достижениями, но и тем, что осуществляли общение и защиту проекта вопреки серьёзным ограничениям по слуху. Поражало то, как буквально на пальцах и с помощью переписки в мессенджерах им приходилось доносить информацию до окружающих.
«Как в эпоху цифровой революции и технического прогресса нет такого очевидного решения, как автоматизированный сурдопереводчик?» — спросили мы себя и приступили к работе.
Так начался путь от частной человеческой проблемы к обширному проекту на стыке медицины, образования и социальной сферы.
Затем следовало долгое погружение в предметную область: консультации с узкими специалистами, определение актуальности продукта в рамках тематических заседаний с представителями ЮНИСЕФ и Института инклюзивного образования, воркшопы по изучению жестового языка, осознание его семантики и специфики, обзор рынка.
Команда
Одновременно формировалась команда. Для нас было важно объединить эмоционально вовлечённых людей, способных совершенствовать свои навыки, не боящихся сложностей и (пусть это выглядит банально) верящих в победу. Судя по всему, нам это удалось. За время существования проекта мы не узнали, что такое текучка кадров, а результатов было достигнуто гораздо больше, чем планировалось.
Сегодня — это сплочённый коллектив мотивированных профессионалов, разработчиков и архитекторов программного обеспечения, специалистов по компьютерному зрению, машинному обучению, глубокому изучению, 2D- и 3D-дизайнеров и аниматоров, бизнес- и узкоспециальных консультантов, создающих собственные технологические решения в сегменте «дополненная и виртуальная реальности для мобильных платформ».
Продукт
Перечень задач расширялся по мере углубления в отрасль. Очевидной оказалась потребность в распознавании жестов рук (hand gestures), движений тела и позы (body movements & pose), движений пальцев (finger gestures), контекстном анализе. Разработка велась параллельно в двух направлениях: голос — текст — жест — текст — голос, что обеспечивало полноценный двунаправленный перевод от глухого человека к слышащему и обратно и качественно отличало наш продукт от предлагаемых решений на современном рынке.
В виду высокой сложности интерпретации жестов в свободном общении апробацию и запуск продукта было решено вести по принципу наращивания семантических полей в узких тематических рамках («Приём у врача», «Консультация в банке», «Консультация в страховой компании» и так далее). Это позволило нам на начальном этапе контролировать дерево диалогов и предупреждать контекстные ошибки перевода.
Пилотная версия «На приёме у терапевта» была разработана в течение девяти месяцев. За это время был собран DataSet жестов, согласован с медиками скрипт диалогов, разработаны дизайн интерфейсов, модель переводчика, анимация жестов и алгоритмы их распознавания.
На презентации в ходе стартап-конференции Emerge в Минске (победа в блоке Data и AI) и при первичном тестировании на носителях жестового языка прототип получил высокую оценку. Это стало настоящей наградой, вдохновляющей на дальнейшие свершения.
Но ещё большую энергию мы получили от осознания того, что в итоге был создан не только уникальный продукт, способный адаптироваться под любой рынок (на алгоритм ложится жестовый язык любой лингвистической группы) и имеющий высокую социальную значимость, но и технология решающая, по нашему убеждению, самую сложную из возможных задач по распознаванию движений.
Дополнительные возможности
Если кратко, то в процессе создания продукта был выведен ряд технологических решений и алгоритмов, базирующихся на наиболее эффективных современных подходах и моделях компьютерного зрения и глубокого обучения, сконцентрированных вокруг камеры мобильного устройства (или любой веб-камеры) как основного «перцептивного центра».
Инфраструктура устройств видеосъёмки и их программная экосистема, по нашему мнению, достигли того уровня развития, при котором они готовы принять на борт достаточно ресурсоёмкие с позиции вычислительной сложности и наукоёмкие решения, такие как Deep Sign.
Если же говорить о самой технологии, то Deep Sign — это нейросетевое решение, которое построено на собственной архитектуре, включающее себя три основных блока: feature extractor, action detector и action recogniser. Также было использована методология one-shot learning (обучение по минимальному датасету), что позволило быстро получить результаты.
Конечные метрики технологии в обычной RGB-камере:
-
87% точность распознавания;
-
30 кадров в секунду (fps);
-
1500 объём датасета;
-
13 распознаваемых жеста.
Ещё мы использовали transfer learning, что на выходе позволяет использовать технологию в разные предметные области, только меняя датасет.
Продвижение
Значимые каналы продвижения как продукта, так и технологии мы видим в международных выставках, конференциях, семинарах (в подтверждение этих слов — призовое место уже на первой в нашей практике конференции EMERGE 2018 — мы стали победителями в направлении Data и Ai и получили интересные предложения от инвесторов и бизнес-ангелов).
Кроме того, прямые контакты с частными и государственными клиниками, международными обществами глухих открывают для нас варианты прямых продаж и заказов под конкретный круг задач и дальнейшее сервисное обслуживание. Не исключена возможность участия в грантовых программах.
Монетизация
Таким образом, варианты развития укладываются в несколько моделей: b2b, b2g, SaaS.
К моменту развития продукта до состояния свободного стихийного переводчика мы хотим упаковать его в бесплатное приложение для конечного пользователя.
Планы
Ещё в начале пути было очевидно, что детекция и распознавание движений востребованы во многих сферах, но особенно актуальны они в медицине, образовании, безопасности. Сегодня мы смотрим в этих направлениях и ведём R&D, но это уже совсем другая история, о которой, возможно, будет наша следующая статья.
P.S. Статья подготовлена Антониной Судиловской, Product Manager ARRM.io.
#стартапы
© vc.ru