Обновление голосовых данных Mozilla Common Voice 18.0

Компания Mozilla обновила наборы голосовых данных Common Voice, включающие примеры произношения более 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился с 31.1 до 31.8 тысяч часов речи, из которых 20.8 тысяч часов прошли процедуру проверки. Число поддерживаемых языков увеличилось со 124 до 129 (добавлены языки африканских племён коса, календжин, кидавида, долуо и тсвана).

В подготовке материалов на английском языке приняли участие 93.3 тысячи человек, надиктовавших 3554 часа речи (было 92.3 тысячи участников и 3508 часов). Набор для белорусского языка охватывает 8400 участников и 1815 часов речевого материала (было — 8291 участник и 1766 часов), русского языка — 3241 участник и 277 часов (было 3206 участников и 274 часа), узбекского — 2189 участников и 265 часов (было 2170 участникоа и 264 часа), украинского языка — 1091 участник и 113 часов (было 1075 участников и 112 часов).

Проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.



Источник: http://www.opennet.ru/opennews/art.shtml? num=61422

OpenNet прочитано 3529 раз