Сравнение систем распознавания русского языка 2024

fb22cb0658e10d9742dc4f0bf4e5b861.png

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

  • В этот раз Tinkoff и VK не опрашивали;

  • Мы не стали опрашивать любых иностранных вендоров по очевидным причинам;

  • В этот раз к списку доменов для валидации добавились «шумы» — проверка того, какой % датасета из разнообразных шумов различные модели «проигнорируют» и не будут выдавать якобы «распознанную» речь;

  • В этот раз мы добавили в сравнение не только закрытые проприетарные системы, но и так называемую открытую «foundation model» от Сбера — GIGA AM;

  • Разнообразные публично доступные рекуррентные модели мы не стали опрашивать, так как по нашему мнению они или недостаточно продуктовые, или их маленькие версии имеют слишком низкое качество;

  • Тестирование наших моделей, Сбера и Яндекса производилось буквально недавно — в начале октября;

  • Из своих моделей в данный раз для адекватности сравнения мы представляем быструю GPU-модель и чуть более медленную GPU модель.

Изменения Методологии

Методология не менялась, мы только добавили датасет с шумами для проверки того, насколько разные системы реагируют на шум. Разметку, даже кривую, мы не трогали, чтобы обеспечить сопоставимость результатов с прошлыми исследованиями.

Каких-то проблем в этот раз уже почти и не было, разве что в Сбер пришлось опять слать аудио в потоковый интерфейс, потому что в обычном интерфейсе не было нужных флагов.

Вкратце — сравниваются только денормализованные данные (только буковки) без буквы ё, потому что мы сравниванием распознавание, а не только, насколько шаблоны нормализации текста соответствуют шаблону в ground truth.

WER считается сразу целиком для датасета, а не среднее арифметическое всех аудио.

Сухие метрики

Основная метрика — WER (word error rate), выраженный в виде процентов для наглядности. Для шумов вместо WER мы просто считаем % аудио в штуках, где модель выдала что-либо кроме «пустоты».

47fb91ec34931a2a75df7506734b23b4.png

Краткий анализ

Признаюсь, мы с некоторым экзистенциальным ужасом заводили это сравнение. Потому что мы можем только фантазировать, какие кластеры из тысяч или десятков тысяч видеокарт стоят за этими результатами и АПИ, а конвергенция и энтропия — очень жестокие штуки.

Во-первых, опять за полтора года все сервисы приятно подросли по своим метрикам.

GIGA AM для публичной нерекуррентной модели показывает очень впечатляющие результаты. Примерно на уровне платных моделей Сбера прошлого или позапрошлого года. При этом видно, на чём её тренировали, но она показывает впечатляющую генерализацию в первую очередь на сложных доменах.

Опять у платных сервисов и нашей «быстрой» (это GPU модель, как и у платных сервисов) наблюдается некоторая конвергенция результатов. При этом видно, что Сбер активно использует внешние данные для своей платной модели тоже. Наша быстрая модель исторически грустит на данных «умной» колонки.

Яндекс приятно «порадовал» распознаванием адресов (тут в датасете в основном всякие кривые и сложные адреса, не только супер частотные). Но, вероятно, это та причина, по которой Яндекс не даёт своё распознавание речи другим таксопаркам. На выборке, взвешенной по более частотным адресам (такси) — разницы практически не видно.

В глаза также повторно бросается большое отличие метрик Сбер и Яндекса на датасетах «умной колонки». В принципе логично и предсказуемо — у них обоих такая колонка есть.

У нашей быстрой модели и у Сбера есть некоторая проблема с шумами. Мы использовали синхронное АПИ для опроса, но на практике есть и другие способы подавления «шумов».

Самым большим сюрпризом для нас были метрики нашей самой качественной модели. Она, естетственно, не рекуррентная, но она приятно удивила. Мы буквально до последнего момента не знали, что она такая и буквально недавно накатили её в демку.

Смешные картиночки

Когда генерировал обложку для статьи, сгенерировалось какое-то количество смешных картинок. Они под спойлером. Попробуйте угадать, что я миксовал с чем. Для заголовка оставил картинку с наушниками, чтобы было очевиднее.

Скрытый текст

© Habrahabr.ru