В VK Видео улучшили распознавание речи на 25%12.09.2024 16:15

Новые алгоритмы машинного обучения позволяют генерировать текстовые субтитры, синхронизированные с видео. Они проходят многоэтапную обработку, начиная с фильтрации фонового шума и заканчивая преобразованием речи в текст. Затем включаются модели пунктуации и нормализации, чтобы получить удобочитаемый текст. Наконец, ИИ синхронизирует текст с аудиодорожкой. Эти улучшения делают субтитры доступными и понятными как в профессиональных, так и в любительских видео.

VK Видео

В ближайшем будущем нейросети научатся разделять речь разных участников на отдельные реплики, что облегчит восприятие и чтение субтитров.

Популярность субтитров продолжает расти. За последний месяц доля пользователей, использующих эту функцию в веб-версии, увеличилась на 28%. Сейчас субтитрами пользуется 11% всей аудитории VK Видео. Эта функция особенно полезна для людей с нарушениями слуха и тех, кто предпочитает просматривать видео без звука.

О том, как пользователи VK Видео смогут влиять на происходящее на экране, мы подробно рассказали здесь.