D-ID научила ИИ создавать видеоролики из фото и текста21.09.2022 18:17

Приходилось ли вам, как IT-специалистам, иногда надевать парадную футболку и бриться, чтобы выступить спикером на вебинаре? В крупных компаниях это распространённая практика. По понятным причинам не все этому рады, а для кого-то выступить публично — вообще что-то за гранью добра и зла. Кажется, теперь можно выдохнуть!

Создатели проекта Deep Nostalgia (вы наверняка о нём слышали, ИИ оживляло ретро-снимки), израильская компания D-ID, запускает новую платформу. Проект очень интересный и перспективный, он позволяет юзерам загружать изображение (портрет) и текст, из которых искусственный интеллект генерирует видео. Проект должен помочь в сфере корпоративного обучения, образования, маркетинге и т.п.

Пользоваться платформой очень просто. Сначала нужно загрузить фото докладчика или выбрать портрет из встроенной галереи. Те, кто купил платную подписку, получают доступ к альбому с премиум докладчиками, у которых лучше выражены лица и движения рук, чем у базовых, то есть и видео получится более реалистичным.

После этого нужно ввести текст или просто загрузить аудиозапись чьей-то речи. Затем можно выбрать язык (платформа поддерживает 119 языков), голос и стиль речи (веселый, грустный, взволнованный и дружелюбный). Алгоритмы на основе искусственного интеллекта будут генерировать видео на основе этих параметров. Готовую запись пользователи могут свободно распространять где угодно.

Компания утверждает, что для создания видео алгоритму требуется только половина времени от общей его продолжительности. Но на практике процесс тянется дольше. Вероятно это зависит от выбранного докладчика и языка.

Технология выглядит очень перспективной. Особенно сейчас, когда потребность в дистанционном обучающем контенте выросла из-за пандемии и прочих событий. На найм актёров озвучки у компаний уходит немало средств. А в тех организациях, где для обучения используются свои специалисты, — уходят нервные клетки этих специалистов. Ведущий, созданный ИИ, выглядит так же привлекательно, как живой спикер. Кроме того, появляется возможность создавать видео на иностранный рынок, даже если в компании нет сотрудников, говорящих на других языках.

Во избежание создания оскорбительных дипфейков, компания установила фильтры на ругательства, расистские и сексуальные высказывания. Для этого используется API модерация текста Microsoft Azure. Кроме того, там стоит запрет на использование изображений известных людей. D-ID заявила, что условия использования платформы запрещают пользователям создавать политические видеоролики. В случае нарушения любого из этих правил, компания может приостановить действие учетной записи нарушителя и удалить его видео из библиотеки.

Сейчас пользователям доступны три тарифа: бесплатный триал, PRO и Enterprise. Пробная версия даётся на 14 дней и позволяет создать до пяти минут видео с разрешением 720p. На видео ставятся вотермарки, закрывающие всё изображение. Pro версия стоит 49 долларов в месяц и открывает доступ к 15-минутному видео в формате Full HD, а также плагину PowerPoint и поддержке по электронной почте.

Соучредители D-ID

В рамках платного тарифа пользователи могут загружать свои аудиозаписи для клонирования голоса. Также компания работает над инструментом, позволяющим добавлять свои кадры для обучения ИИ. Это позволит ему быть более выразительным и лучше имитировать человека на видео.

Мы тоже попробовали создать свой ролик, используя фотографию нашего технического писателя и статью с англоязычной версии сайта (для русского языка маловато вариантов голосов и озвучка ниже качеством). Смотрите, что получилось: