Новые модели для распознавания русской речи в библиотеке Vosk17.11.2021 09:00

Разработчики библиотеки Vosk опубликовали новые модели для распознавания русской речи: серверная vosk-model-ru-0.22 и мобильная Vosk-model-small-ru-0.22. В моделях используются новые речевые данные, а также новая нейро-сетевая архитектура, что позволило повысить точность распознавания на 10–20%. Код и данные распространяются под лицензией Apache 2.0.

Важные изменения:

Новые данные, собранные в голосовых колонках, значительно улучшают распознавание речевых команд, произнесённых с расстояния.
Новая схема извлечения звука позволила значительно улучшить точность распознавания для широкополосных записей. В то же время, точность распознавания телефонии тоже улучшилось.
Пакет для дополнения словаря позволяет настроить распознавание сложных технических записей.

Для наилучшей точности рекомендуется обновить и версию Воска до 0.3.32. Также могут быть интересны новые возможности Воска — интеграции с Unity, Nativescript, Jigasi. Модели для распознавания казахского и украинского языков. Серверной модели для работы нужен современный процессор и 8Гб памяти. Мобильная модель может использоваться в телефонах и RaspberryPi 3+.

Источник: http://www.opennet.ru/opennews/art.shtml? num=56171