2022-й: а что в итоге? ТОП – 3 проекта, над которыми мы работали в этом году09.12.2022 10:17

Соблюдаем традицию подводить итоги уходящего года. Несмотря на то, что у нас десятки проектов развиваются одновременно, мы решили рассказать о трех, но самых интересных. За каждым из них — большая команда, сотни рабочих часов, десятки гипотез и тестов.

ТОП — 3: Помогли создать самый большой датасет распознавания жестов

В этом году SberDevices представил в открытом доступе огромный датасет для распознавания жестов — HaGRID (Hand Gesture Recognition Image Dataset). Он может быть полезен при создании виртуальных помощников для тех людей, которые используют язык жестов.

В этом проекте мы как собирали, так и размечали данные на нашей платформе Elementary. Задача состояла в том, чтобы подготовить согласно инструкции достаточное количество качественных изображений, т.е. «данных», для дальнейшего обучений нейросетей.

Созданный SberDevices датасет состоит из 552992 элементов, разделённых на 18 классов. В каждом из них примерно по 30 тысяч фото. Изображения — RGB-картинки, преимущественно FullHD (~91% датасета). На них представлены реальные люди, показывающие жесты на камеру. Количество уникальных пользователей в датасете — не менее 34700, при этом набор данных содержит как минимум столько же разнообразных сцен с людьми (различное освещение, расстояние до камеры и положение кистей относительно человека). Датасет в равных пропорциях распределён по полу (число женщин лишь немногим больше мужчин), а возраст исполнителей — от 18 до 60 лет.

ТОП-2: Усовершенствовали процессы разработки скриптов

В течение года мы занимались разработкой различных сервисов, которые могли бы освободить человеческие ресурсы от рутинных процессов. Один из таких проектов решал нашу внутреннюю задачу по разработке скриптов. Об этом проекте мы недавно рассказали в этой статье. Автоматический генератор скриптов помогает нам значительно экономить время.

ТОП-1: Добавили больше эмпатии голосовому роботу

В этом году мы продолжили совершенствовать робота. Теперь он может точнее распознавать эмоции в диалоге, быстрее реагировать в нестандартных ситуациях, произносить фразы с «живой» интонацией и т.д. Наша модель определяет эмоцию по голосу абонента без опоры на распознавание речи.

Еще мы собрали команду аналитиков и методологов, которые используя наш собственный сервис речевой аналитики создавали, анализировали и меняли логику диалогов до тех пор, пока не получали наилучший эффект от звонков робота. Так, в одном из NPS–опросов с участием 250 тысяч респондентов, каждый второй абонент, до которого мы дозвонились, прошел анкету до конца.

Всего же в этом году мы создали более 130 новых скриптов, а количество минут разговоров нашего робота увеличилось на 40%.

Чтобы голос робота звучал естественно, несколько месяцев наши дикторы занимались с педагогом по сценической речи и актерскому мастерству.

Подводя итоги, скажем честно: как обычно, год был не простым, но продуктивным. Загадываем в следующем году всем еще больше интересных проектов, профессиональных побед и красивого кода.

С наступающим!