Российская компания победила на международном конкурсе распознавания речи CHiME-6
Технология сегментирования аудиопотока (диаризации) и распознавания речи, созданная российскими разработчиками из группы ЦРТ (Центр речевых технологий), признана лучшей в одном из заданий на международном конкурсе CHiME Speech Separation and Recognition Challenge (CHiME-6).
9-слойная свёрточная нейросеть с остаточными соединениями, в связке с 8-слойной нейросетью с задерживанием времени (TDNN-F) от российских исследователей победила в самой сложной задаче конкурса на распознавание английской речи с нескольких микрофонов в условиях естественной обстановки, то есть в условиях частичного наложения речи и шума (cocktail party problem или dinner party).
В таблице результатов ниже представлена команда STC-innovations Ltd. (дочерняя компания группы ЦРТ) и университета ИТМО. Научная статья с описанием технологии опубликована здесь.
Задачи на конкурсе CHiME с каждым годом усложняются. Так, в прошлом году на CHiME-5 конкурсантам предложили задачу cocktail party, которая требует работы с сегментированной (уже выделенной) речью. В этом же году впервые в истории конкурсантам было предложено решить аналогичную проблему, но работая с несегментированной речью, при этом — с перекрытием речи до 20%, сказано в пресс-релизе.
Вот результаты по второму треку с ограниченной (Ranking A) и неограниченной языковой моделью (Ranking B).
Ranking A
Ranking B
Записи для конкурса были сделаны на 20 ужинах в реальных домах на вечеринках, где люди готовили, ели, мыли посуду, свободно и эмоционально общались, шутили и смеялись. Распознавание речи здесь осложняет одновременная речь 2–4 человек, реверберация и интенсивный шум: звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех. Цель участников — создать систему распознавания, которая «прослушает» записи и выдаст полную расшифровку с наименьшим количеством ошибок. Команда группы ЦРТ заняла первое место.
«Для этого был разработан уникальный алгоритм выделения речевых сегментов для каждого из дикторов, а также создан комплекс из нескольких нейронных сетей разных архитектур, различающий разных дикторов, реализующий бимформинг (эффект нацеливания микрофонов на конкретного диктора) и непосредственно распознающий речь», — говорится в пресс-релизе «Сбербанка», которому принадлежит группа компаний ЦРТ.
Кроме российской, в конкурсе участвовали команды из нескольких университетов США, Японии, Китая и Чехии.
«Группа ЦРТ уже 30 лет создает, развивает и совершенствует речевые технологии. В этом году на CHiME-6 впервые в истории стояла самая сложная задача — работа с несегментированной речью, — сказал Дмитрий Дырмовский, генеральный директор группы компаний ЦРТ. — Качественная обработка несегментированной речи позволит, к примеру, вести грамотное протоколирование совещаний, где говорит сразу несколько спикеров, а интеллектуальная речевая аналитика позволит автоматизировать работу контактных центров: распознавать спонтанную речь, классифицировать голосовые обращения, выявлять соблюдения скрипта, делать выводы об удовлетворенности клиента и качестве диалога, а значит — существенно оптимизировать работу современных контакт-центров ритейла, e-commerce и телеком. Признание группы ЦРТ в этом международном конкурсе — не просто наша личная победа, но знаковое событие для всей индустрии».