OpenAI представила инструмент, полноценно клонирующий голос: Voice Engine достаточно 15-секндного семпла31.03.2024 11:15

OpenAI объявила о запуске нового инструмента под названием Voice Engine. Это технология клонирования голоса, которая позволяет имитировать речь любого человека после анализа 15-секундного аудиосэмпла. Компания заявляет, что Voice Engine генерирует «естественно звучащую речь» с «эмоциональными и реалистичными голосами».

Источник: Andrew Neel / Unsplash

Основой для этой технологии послужило уже существующее API преобразования текста в речь, которое OpenAI разрабатывает с 2022 года. Компания уже использует этот инструмент для поддержки голосов, доступных в текущей версии API преобразования текста в речь, а также для функции чтения вслух. В официальном блоге компании можно найти множество примеров, которые звучат очень близко к реальным голосам.

OpenAI считает, что Voice Engine может быть полезным инструментом для чтения, языкового перевода и помощи людям с речевыми нарушениями. В рамках пилотного проекта совместно с Браунским Университетом компания использовала Voice Engine для помощи пациенту с проблемами речи, создав клон его голоса на основе аудиозаписей, сделанных для школьного проекта.

Тем не менее, возникают опасения относительно возможного злоупотребления этой технологией злоумышленниками. Поэтому Voice Engine пока не готов к запуску в широком масштабе, так как остаются вопросы конфиденциальности, которые требуется решить.

OpenAI признаёт, что эта технология несёт серьёзные риски, особенно в год выборов. Компания принимает обратную связь от «американских и международных партнёров, включая правительство, СМИ, сферу развлечений, образования и гражданское общество», чтобы минимизировать риски при запуске продукта. Все тестировщики прототипа согласились с политикой использования OpenAI, которая запрещает использование голоса без согласия или законного права.

Кроме того, пользователи этой технологии должны уведомлять свою аудиторию о том, что голоса генерируются искусственным интеллектом. OpenAI принимает меры безопасности, включая отслеживание происхождения звука и «превентивный мониторинг» для предотвращения нежелательного использования системы. После официального запуска Voice Engine будет представлен «список запрещённых голосов», он будет предотвращать появление голосов, созданных искусственным интеллектом, которые слишком похожи на голоса известных личностей.

Пока OpenAI не сообщает о точной дате запуска этой технологии. Из некоторых данных о ценах можно предположить, что Voice Engine может быть более доступным вариантом по сравнению с конкурирующими продуктами, такими как ElevenLabs. Voice Engine может стоить $15 долларов за миллион «символов», что составляет около 162 500 слов. Это примерно равно продолжительности книги «Сияние» Стивена Кинга. В маркетинговых материалах упоминается также версия HD, стоимость которой в два раза выше, хотя компания не уточнила, в чем заключается её преимущество.

На этой неделе OpenAI также заключила партнёрство с Microsoft для создания суперкомпьютера на базе искусственного интеллекта под названием «Звёздные врата». Проект стоит $100 миллиардов.