Распознавание жестов Русского жестового языка

Intro

Привет!  

Меня зовут Максим Новопольцев, я техлид RnD команды Центра развития технологий AI во благо общества, Sber AI. Мы занимаемся проектами, направленными на решение важных социальных и экологических задач — ИИ для сохранения биоразнообразия, для инклюзии и климатические модели.

По данным ВОЗ, более 5% населения мира, или 430 миллионов человек, страдают от или имеют проблему со слухом (432 миллиона взрослых и 34 миллиона детей). А к 2050 г. проблемы со слухом будет иметь каждый десятый, или более 700 миллионов человек.

Между собой неслышащие или неговорящие люди общаются на жестовых языках. Жестовый язык в каждой стране свой. Выучить его один раз и использовать в любой стране мира не получится. Более того, даже в России существует множество диалектов Русского жестового языка.

Как же общаться тем, кто говорит на жестовом языке и тем, кто использует звучащую речь? Самый очевидный способ — текстом. Но этот способ не всегда удобен. Он достаточно медленный, но самое главное, что Русский жестовый язык сильно отличается по грамматике от Русского языка, привычного всем нам. Чтобы наглядно увидеть разницу, можно попробовать дословно перевести любой английский текст на русский и посмотреть, что получится.

Неслышащие или неговорящие люди — это достаточно большая группа, которая посещает государственные учреждения, ходит в магазины, банки и пр. Специалисты Сбера ежедневно взаимодействуют со слабослышащими клиентами, которые хотят получать услуги и разбираться с нюансами предоставляемых сервисов и продуктов наравне со всеми. Для того, чтобы слабослышащие клиенты банка могли комфортно взаимодействовать с сотрудниками, им предоставляется возможность подключить переводчика русского жестового языка (РЖЯ) через услугу «Видеозвонок».

В России не хватает специалистов-переводчиков РЖЯ. Дефицит обусловлен объективными причинами. Чаще всего, переводчики РЖЯ — это слышащие дети или близкие родственники неслышащих родителей. Круг таких людей очень узок, а подготовка специалистов со стороны, дорогостоящая и непростая задача. По данным Всероссийского общества глухих, нехватка таких специалистов в России составляет порядка 4 тыс. 

Идея призвать на помощь искусственный интеллект зародилась, когда стало очевидно, что необходимо делать следующий шаг в направлении формирования доступной среды. При этом, мы решили не ограничиваться банком, а разработать модель, которую можно будет встроить в любой сервис, запускающийся на ПК или ноутбуке, даже не оснащенный видеокартой. Это сделает технологию доступной для всех, кому она необходима как в общении с окружающими, так и в изучении русского жестового языка.

Русский жестовый язык — это русский язык… или не совсем?

Согласно Википедии:

Русский жестовый язык (РЖЯ) — национальная лингвистическая система, обладающая собственной лексикой и грамматикой, используемая для общения глухих и слабослышащих, живущих в России, а также на территории Белоруссии, Казахстана и Украины.

РЖЯ — это не только жесты руками. При общении на РЖЯ люди используют пальцы, руки, наклоны туловища, мимику, артикулируют губами. При этом РЖЯ это не просто визуальная интерпретация русского. Он имеет свою грамматику, синтаксис, порядок слов. РЖЯ, как и любой язык, очень динамичный. Жесты изменяются, выходят из употребления, появляются новые. Взрослые люди показывают жесты одним способом, подростки — похожим образом, но немного по-другому. Всё это добавляет сложности задаче создания AI-переводчика. 

C:\work\_Sign Language Translation\Релиз s3d\frames_new\image_Kirill_2.jpg

C:\work\_Sign Language Translation\Релиз s3d\frames_new\image_Kirill_2.jpg

«Рад с вами познакомиться»

C:\work\_Sign Language Translation\Релиз s3d\frames_new\image_Liza_2.jpg

C:\work\_Sign Language Translation\Релиз s3d\frames_new\image_Liza_2.jpg

«Мне здесь очень нравится»

AI-translation

В качестве эксперимента, мы попробовали сразу решить задачу перевода из непрерывной речи в текст. Для тестов взяли датасет RWTH-PHOENIX-Weather, но получили довольно низкие результаты. Возможно, дело в банальной нехватке данных — ведь модель должна научиться понимать и визуальные признаки, и грамматику жестового языка, а датасетов по жестовым языкам очень мало. Например, в широко используемом датасете RWTH-PHOENIX-Weather всего 1980 предложений.

© Habrahabr.ru