Быстрый денойз аудио в высоком качестве
Не всегда можно записать аудио в идеальной тишине
Довольно давно мы сделали у себя в целом простой нетребовательный денойз, а выложить модели как-то руки всё не доходили. Решили наконец-то исправить данное недоразумение.
Подходы к фильтрации шумов в аудио, содержащих речь, могут быть разные. Если подходить к этому с использованием нейросетей, можно объединить попытку избавиться от шума с попыткой улучшить звучание: уменьшить влияние различных эффектов, артефактов, например, эха или особенностей микрофона, попробовать повысить частоту дискретизации. Так мы и поступили.
Хотелось еще, чтобы модель была маленькой, работала быстро и качество на выходе было высоким.
Получилось, в целом, неплохо. Примеры будут ниже.
В сравнении с доступными претрейн моделями для денойзинга, наши модели отличаются высокой частотой дискретизации на выходе (denoiser от известной экстремистской организации работает лишь для 16кГц), работают быстрее (некоторые даже на порядок) на CPU (для замеров использовали 4 треда на Intel® Core™ i9–10940X CPU @ 3.30GHz) и легковесны.
Привожу сравнение пользовательских покаателей с другими доступными системами (возможно, появились и другие доступные модели, уже давно детально не интересовались этим вопросом, если есть желание, можете поделиться ими в комментариях):
*Частота дискретизации на входе у silero-denoise и VoiceFixer может быть любой, но должна быть или будет приведена к указанной «рабочей» частоте сетки.
RTF — Real Time Factor (processing time / audio length); SNS — small, slow, LNF — large, fast, SNF — small, fast. Замеры на 4 тредах Intel® Core™ i9–10940X CPU @ 3.30GHz
Есть и другие, в том числе и более простые методы денойза, и в более узких применениях они могут справляться сильно лучше. Например, для стационарного шума неплохо работает и спектральный денойз.
С точки зрения звучания и эффективности фильтрации шума можете сделать выводы на примерах (не все эффекты представлены, слишком громоздко было бы), или попробовав самостоятельно: