Платформа «VK Звонки» запустила функцию текстовой расшифровки аудиозвонков и автоматической простановки субтитров в реальном времени

Удобная штука, получается.

Платформа для видеоконференций «VK Звонки» представила новую функцию, основанную на машинном обучении и нейронных сетях. Функция транскрипции автоматически преобразует аудиозапись конференции в текст, который после завершения разговора может быть отображен в чате. Пользователи также могут включить автоматические субтитры — они будут дублировать речь участников разговора во время конференции. Эта новая функция доступна всем пользователям «VK Звонки».

vk_calls_audio.jpg

Активировать текстовую расшифровку может любой пользователь в групповом звонке, при этом участники встречи получат уведомление о её начале. После окончания встречи файл с текстом отправляется в чат звонка и сохраняется в специальном разделе профиля пользователя, инициировавшего данную функцию. Файл со стенограммой автоматически включает в себя тайм-код и имя говорящего. Пользователи также могут включить автоматическое отображение субтитров, которые выводятся в реальном времени во время речи каждого собеседника. При этом субтитры показываются только тем участникам, которые сами их включили.

Нейронные сети могут идентифицировать различных докладчиков и разделять речь на предложения. Вместе с субтитрами и записями разговоров можно включить текстовую расшифровку. Эта новая функция также может использоваться в сессионных залах и сообществах. Автоматическая передача речи в текст работает с русской речью, и в будущем планируется добавить другие языки. Кроме того, в ближайших планах платформы — запуск новых функций для звонков «один на один» и возможность для администраторов настраивать, какие участники совещания могут активировать стенограмму.

Для перевода речи в текст используется собственная нейронная сеть «ВКонтакте», которая применяется для расшифровки голосовых сообщений и автоматического создания субтитров к видео. Для обеспечения высокого качества расшифровки аудиопоток проходит несколько этапов. Записи очищаются от фоновых шумов с помощью интеллектуального шумоподавления, после чего нейронная сеть распознает слова и формирует из них текст, разбивая речь на предложения в зависимости от конкретного говорящего. Нейронная сеть постоянно совершенствуется и обучается на реальных разговорных словах и сленге.

Новая функция особенно полезна для тех, кто использует «ВК Звонки» для делового общения. Она пригодится, если нужно быстро расшифровать разговор, отправить важные ключевые моменты после совещания или сообщить коллеге, который не смог присутствовать на встрече, о её результатах. Например, когда в общественных местах под рукой нет наушников. Это также шаг к созданию доступной цифровой среды для слабослышащих пользователей. Они смогут участвовать в совещаниях без ограничений.

©  overclockers.ru