«ВКонтакте» открывает доступ к своим технологиям распознания речи23.09.2022 02:04

Ими смогут воспользоваться сторонние разработчики.

Команда поддержки социальной сети «ВКонтакте» объявила об открытии доступа к собственным технологиям распознавания речи сторонним разработчикам. Теперь девелоперы смогут бесплатно использовать в своих небольших проектах наработки соцсети, которые помогают считывать голос и переводить его в текст.

Информацию об открытии технологии раскрыл технический директор «ВКонтакте» Александр Тоболь на открытии конференции Saint HighLoad++. Сама технология распознавания речи, или ASR (Automatic Speech Recognition) может быть внедрена в несколько кликов. Сообщается, что нейросети хорошо справляются с аудиофайлами с имеющимися там посторонними шумами, а также большим количеством диалектных выражений (сленга) и сокращений.

Разработчики поясняют, что для распознавания можно выбрать одну из двух моделей. Нейтральная подойдёт для разборчивой речи (например, телешоу, интервью), а спонтанная поможет, когда нужно обработать более обыденную речь со сленгом. Нейросети «ВКонтакте» обрабатывают файлы за несколько секунд, умеют удалять из расшифровки шумы и паузы, а также понимают неразборчивую речь.

Технология доступна для тестирования через веб-интерфейс на специальной странице или через публичный API «ВКонтакте. На портале доступен широкий набор методов, позволяющих создавать мини-приложения соцсети или использовать в сторонних проектах. Решение подойдёт для стартапов, инди-проектов, личных pet-проектов для обучения и саморазвития. Версию с обработкой аудио до 100 минут в сутки можно применять для любых целей. Для безлимитного использования технологии можно отправить заявку на электронную почту.

Александр Тоболь, СТО «ВКонтакте»:

«Мы считаем важным помогать рынку и уже делимся широким набором собственных уникальных технологий. Наше ASR-решение — одно из лучших в отрасли по распознаванию обыденной, повседневной речи, в которой нередко встречается сленг, заимствования, сокращения. Каждый месяц пользователи ВКонтакте отправляют более 2 млрд голосовых — это миллионы часов аудио, которые обрабатывают наши нейросети. Применение технологии ограничено только вашей фантазией: можете сделать игру с голосовым управлением или с помощью чат-бота наконец добавить распознавание голосовых в какой-нибудь сторонний мессенджер. Надеемся, что наш ASR поможет появиться новым необычным стартапам и инди-проектам от молодых перспективных разработчиков».

ASR используется «ВКонтакте» для проведения расшифровки голосовых сообщений, генерации субтитров в видео, персональных рекомендаций и многого чего ещё. Под, скажем так, капотом у решения сразу три нейросети. Первая отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания. Данная технология настроена и построена таким образом, чтобы справляться с ежедневной обработкой сотен миллионов сообщений разной длительности, качества и наполнения. Каждое сообщение расшифровывается очень быстро — примерно за 1,5 секунды после отправки.