Google создала ИИ, который генерирует сложную музыку по текстовым описаниям28.01.2023 16:31

Google представила систему искусственного интеллекта MusicLM, которая способна генерировать музыку в любом жанре по текстовому описанию. Однако компания пока не будет открывать доступ к нейросети.

Альтернативы новому ИИ, к примеру, Riffusion, из-за технических ограничений и относительно небольшого набора данных для обучения не способны создавать сложные композиции.

Однако MusicLM обучали на наборе данных из 280 тысяч часов музыки, чтобы научить генерировать песни «значительной сложности» (например, «очаровательный джаз» или «берлинское техно 90-х»).

Нейросеть способна уловить такие нюансы описания, как инструментальные риффы, мелодии и настроение. Например, MusicLM может сгенерировать мелодию, которая должна вызвать «ощущение пребывания в космосе» или «основной саундтрек аркадной игры».

Исследователи Google пояснили, что система может основываться на существующих мелодиях, будь то напевание, пение, насвистывание или игра на инструменте. Более того, MusicLM может взять несколько последовательно написанных описаний (например, «время медитировать», «время просыпаться», «время бежать», «время выложиться на 100%»), чтобы создать своего рода мелодическую «историю» продолжительностью до нескольких минут наподобие саундтрека для фильма.

MusicLM также можно инструктировать с помощью комбинации изображения и подписи или генерировать звук, который «играет» инструмент определённого типа в определённом жанре. Можно установить даже уровень опыта «музыканта».

Тем не менее, некоторые мелодии имеют искажения как неизбежный побочный эффект тренировочного процесса. Технически MusicLM может генерировать вокал, включая хоровые гармонии, но пока они оставляют желать лучшего. Большая часть «текстов» песен варьируется от подобия английского до набора звуков, которые исполняют синтезированные голоса.

Исследователи Google отмечают и множество этических проблем, связанных с MusicLM, включая нарушение авторского права. Во время эксперимента они обнаружили, что около 1% музыки, сгенерированной системой, был просто отрывками из песен, на которых она обучалась.

Между тем модель Riffusion открыта под лицензией Creative ML OpenRAIL-M, допускающей использование в коммерческих целях. Она работает по аналогии с модификацией изображений в Stable Diffusion. Так, при генерации могут задаваться образцы спектрограмм с эталонным стилем, комбинироваться разные стили, выполняться плавный переход от одного стиля к другому или вноситься изменения в существующий звук для увеличения громкости отдельных инструментов, изменение ритма и т.д.