Mozilla опубликовала крупнейший датасет разговорной речи с транскрипцией: 7226 часов, 54 языка03.07.2020 10:17

Полтора года назад Mozilla порадовала сообщество по распознаванию речи и машинному обучению, выложив в открытый доступ крупнейший в мире набор данных Common Voice. Он включал в себя почти 1400 часов разговорной речи в маленьких фрагментах, на 18-ти языках, от более 42 тыс. пользователей. Каждый фрагмент речи сопровождался текстовой транскрипцией, то есть это готовый набор размеченных данных для машинного обучения.

Сейчас Mozilla обновила наборы данных, доведя количество языков до 54-х. Среди 14-ти новых — украинский, грузинский, чешский, польский и греческий языки.
Общий размер базы вырос до 7226 часов, из которых 5591 час уже подтверждены как валидные. Всего в наборе данных более 5,5 миллиона звуковых клипов. Средняя продолжительность клипа 4,7 секунды.

С обновлением набора данных выросло количество языков, представленных более 5000 спикерами: теперь это английский, немецкий, французский, итальянский и испанский. Для них можно сказать, что вариативность достаточно высока для построения действительно универсальной системы распознавания и синтеза речи. Демографические характеристики спикеров представлены на иллюстрации слева.

Количество языков с более чем 500 часами записи достигло семи: английский, немецкий, французский, каталонский, испанский, кабильский и руанда (киньяруанда).

В идеале Mozilla хочет, чтобы на платформе Common Voice были представлены все языки, существующие в разговорной речи на земном шаре. Теоретически, если для каждого языка будут представлены все фонемы и все слова с транскрипцией, то можно разработать идеальный универсальный переводчик с распознаванием и синтезом речи на любом языке мира.

Mozilla уже начала работать в данном направлении. Сейчас опубликован первый целевой сегмент со словами, которые обозначают цифры от нуля до девяти, а также словами «да», «нет», «эй» и «файрфокс». Данный целевой сегмент на 18-ти языках включает в себя 120 часов записи, в том числе 64 валидированных часа. Он создан усилиями более 11 тыс. контрибуторов со всего мира.

Mozilla пишет, что этот целевой сегмент поможет проверить точность их опенсорнсного движка для распознавания речи Deep Speech на разных языках.