Mozilla обновила систему распознавания речи DeepSpeech, значительно повысив её производительность
Система DeepSpeech, которая представляет собой набор средств распознавания речи и поддерживается группой разработчиков из Mozilla, получила обновление. Новая версия DeepSpeech v0.6 является одной из самых быстрых моделей распознавания речи с открытым исходным кодом среди представленных к сегодняшнему дню. О том, какие улучшения получила система, один из разработчиков компании Mozilla Рубен Морайс (Ruben Morais) рассказал в своём блоге.
В последней версии DeepSpeech была интегрирована поддержка TensorFlow Lite, версии системы машинного обучения компании Google, оптимизированной для работы на мобильных устройствах с ограниченными вычислительными возможностями. В результате размер DeepSpeech уменьшился с 98 Мбайт до 3,7 Мбайт, а размер готовой встроенной модели на английском языке снизился со 188 Мбайт до 47 Мбайт. Также отмечается, что потребление памяти сократилось в 22 раза, а скорость запуска процесса обработки данных выросла более чем в 500 раз.
Ещё система DeepSpeech v0.6 в целом стала значительно более производительной благодаря использованию нового потокового декодера, который обеспечивает постоянно низкий уровень задержек и использования памяти независимо от длины транскрибируемого звука. Обе основные подсистемы платформы (акустическая модель и декодер) теперь поддерживают потоковую передачу, благодаря чему разработчикам не потребуется осуществлять тонкую настройку собственного оборудования. Обновлённая версия DeepSpeech способна обеспечить транскрипцию уже через 260 мс после окончания аудио, что на 73% быстрее в сравнении с показателями системы до интеграции потокового декодера.
Стоит отметить, что в плане производительности новая система работает в два раза быстрее, когда дело доходит до обучения модели. Добиться этого удалось благодаря использованию системы TensorFlow 1.14 и интеграции новых API.
Для обучения модели используется набор голосовых данных Common Voice, состоящий из 1400 часов речи на 18 разных языках. Разработчики отмечают, что это один из самых крупных многоязычных наборов голосовых данных. Он значительно больше набора Common Voice, опубликованного в прошлом и состоящего из 500 часов речи с примерами произношения 20 000 добровольцев (все записи на английском языке). В настоящее время компания ведёт активную работу по сбору данных на 70 языках, чтобы в будущем сделать DeepSpeech ещё более совершенной.
Источник:
© 3DNews