Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках28.06.2024 00:00

Сравнение качества версий v5, v4 и v3.1

Мы уже рассказывали про наш детектор голоса на Хабре тут, тут и тут. Кратко опишу, что стало лучше в этот раз:

Поддержка 6 000+ языков;
Общий рост качества на 5–7%;
Существенно повышена устойчивость на шумных данных;
TorchScript (*) стал в 3 раза быстрее, а ONNX — на 10% (теперь они примерно равны по скорости, обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);
Качество работы теперь почти не зависит от частоты дискретизации и размера окна, поэтому мы перешли на фиксированный размер окна (256 и 512 семплов для 8 и 16 килогерц, соответственно);
Добавлены метрики на 9 датасетах (7 публичных, 2 приватных);

Путь проделан огромный, но почти все изменения умещаются над катом Хабра.

Цитирование и аффилиации

Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».

Цитировать детектор можно следующим образом:

@misc{Silero VAD,
  author = {Silero Team},
  title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snakers4/silero-vad}},
  commit = {insert_some_commit_here},
  email = {hello@silero.ai}
}

Также нами опубликован датасет, в том числе на котором основан данный детектор.

Ссылки

Репозиторий — https://github.com/snakers4/silero-vad;
Более подробное описание изменений — https://github.com/snakers4/silero-vad/releases/tag/v5.0;
Метрики — https://github.com/snakers4/silero-vad/wiki/Quality-Metrics;