Российские дикторы предложили разработать регулирование синтеза голосов с помощью ИИ27.01.2023 15:01

Союз дикторов России направил главе комитета Госдумы по информполитике Александру Хинштейну письмо, с которым ознакомился «Коммерсантъ». В документе дикторы предложили разработать регулирование синтеза голосов с помощью ИИ.

Речь идёт о технологиях, которые копируют голос человека на основе звуковой записи и позволяют в дальнейшем использовать его в голосовых помощниках, онлайн-синтезаторах и прочем.

В перспективе получить синтезированную речь станет дешевле, чем записать диктора, и многие голосовые артисты лишатся работы, считают авторы письма.

Дикторы рассказали о фактах «кражи» голоса с помощью ИИ: «Нет ни норм, ни практики, ни понимания, как писать претензию. Заказчики ссылаются на договор, в котором есть пункты про отчуждение прав, право на переработку и право передачи третьим лицам».

Члены союза предлагают закрепить запрет на отчуждение прав исполнителей при использовании голосового синтеза и перейти на лицензионные договоры «с чётко определённым сроком действия», как в сфере защиты прав на товарный знак. Также предлагается закрепить норму о том, что запись синтезированного голоса может использоваться только в конкретном проекте.

ИИ-инструменты начинают активно внедряться для озвучивания аудиокниг, сообщал «Ъ» ранее: участники рынка рассчитывают, что это удешевит и ускорит процесс их производства. «Издательствам нужна хорошая озвучка по приемлемой цене, дикторам — сохранение профессии, которой многие отдали годы», — говорит руководитель аудиопроектов Alpina Digital Николай Боронин. У владельца или разработчика ИИ должен быть договор на использование голоса, однако от прямого пиратства никто не застрахован, признаёт он.

В издательской группе «Эксмо-АСТ» считают, что опасения дикторов «не в полной мере оправданы». Сервис «Яндекса» SpeechKit, с которым сотрудничает компания, заключает договоры с диктором, на основе голоса которого синтезируется речь, говорят в пресс-службе группы. Кроме того, без личного участия специалиста, чей голос отобран по специальным параметрам, невозможно добиться качества автоматического озвучивания.

Глава VS Robotics (занимается решениями на базе речевых технологий) Дмитрий Теплицкий рассказал, что в теории синтезировать речь определённого человека можно и без многочасовой записи: «У нас есть опыт создания голосов знаменитых личностей на основе записей спектаклей, отрывков из фильмов, публичных выступлений. Здесь важно, чтобы записи были как можно более чистыми и сопровождались текстовой расшифровкой».

Но для создания нового голоса для TTS (text-to-speech, преобразование текста в речь) компания всё же отбирает дикторов и записывает их живой голос продолжительностью от пяти часов. Гендиректор ЦРТ Дмитрий Дырмовский отмечает, что компании-лидеры в области речевых технологий уделяют внимание легитимности его применения «и в целом этике ИИ».

Внесение изменений в российское законодательство не имеет смысла, полагает Юрий Федюкин, поскольку обрабатывать фонограммы дикторов тогда просто будут в других странах.