Какие нейросети умеют петь и исполнять дэт-метал09.05.2020 21:22

Расскажем об интеллектуальных инструментах, способных генерировать треки и даже тексты песен. Речь пойдет о решениях корпораций и лабораторий, а также разработках энтузиастов.

Фото Joe Green / Unsplash

Нейросети пишут музыку…

Делает это синтезатор NSynth Super. Он построен на базе системы ИИ, формирующей из предварительно записанных семплов новые, не существующие в природе, звуки. Алгоритм может объединить звучание флейты и барабана. NSynth умеет работать с 16 музыкальными инструментами — на их основе он генерирует более 100 тыс. звуков. Он анализирует их входящие характеристики, а затем линейно интерполирует, формируя математическое представление.

NSynth Super — это проект с открытым кодом. Исходники и схемы для сборки доступны всем желающим в репозитории на GitHub.

Другой пример — система искусственного интеллекта Dadabots, которую разработали музыканты Си Джей Карр (CJ Carr) и Зак Жуковски (Zack Zukowski). Нейросеть сочиняет мелодии в стиле дэт-метал — её обучали на творчестве канадского коллектива Archspire. Решение на базе ИИ генерирует вполне гармоничные, хотя и не всегда приятные на слух композиции — на них периодически накладываются резкие акустические эффекты. Хотя для выбранного стиля это смотрится волне органично. Прослушать работы Dadabots можно на YouTube, там идет круглосуточная прямая трансляция.

Разработкой музыкальных систем ИИ также занимаются в Jukedeck. Этот стартап разрабатывает инструмент для генерации треков с заданным настроением и темпом. Год назад его приобрела компания, владеющая TikTok. Технологии Jukedeck помогут социальной сети экономить на роялти.

…и умеют петь

В конце апреля такой инструмент представили в OpenAI, его назвали Jukebox. Он генерирует композиции с осмысленными текстами и вокалом. Вот пример:
Инженеры обучили нейросеть на наборе данных из 1,2 млн песен (600 тыс. были на английском языке). Текст и метаданные для них взяли из библиотеки LyricWiki. Для генерации новых треков система ИИ использует метод VQ-VAE (Vector Quantized Variational AutoEncoder) — он сжимает треки и выделяет из них нужную акустическую информацию. Затем на её основе формирует новую композицию. На написание одной минуты песни Jukebox тратит около девяти часов, но пока не умеет генерировать привычные нам песни с повторяющимися припевами. Также система требует больших вычислительных ресурсов — протестировать её дома на компьютере или в студии пока нельзя. В перспективе разработчики планируют исправить эти недостатки.

Но заменят ли музыкантов

Авторы интеллектуальных инструментов для генерации музыки говорят, что машинные алгоритмы призваны не заменить композиторов, а расширить их артистические возможности.

Американская певица Тэрин Саузерн (Taryn Southern) записала альбом при помощи решения на основе системы ИИ. Нейросеть написала музыку для трека Break Free и сгенерировала видеоряд клипа. Солистка группы YACHT Клэр Эванс (Claire Evans) также использовала машинные алгоритмы при написании альбома «Chain Tripping». Компьютер генерировал новые мелодии на основе предыдущих работ Клэр, а исполнительница связывала наиболее интересные сэмплы между собой.

Также алгоритмы машинного обучения помогают музыкантам решать технические вопросы. Например, разработчики из LANDR предлагают систему искусственного интеллекта, которая проводит автоматический мастеринг треков. Ей уже пользуются более 2 млн исполнителей.

Дополнительное чтение:

«Машинный звук»: синтезаторы на базе нейросетей
История синтезаторов речи: первые механические установки
История синтезаторов речи: компьютерная эра

Что почитать у нас на Хабре: