Искусственный интеллект и генеративная музыка: лишат ли нейросети работы музыкантов21.07.2021 15:03

21.07.2021, 14:20

Делать музыку стало проще: открыл ноутбук, надел наушники и вот у тебя уже домашняя студия. Повесил на стену ковер, поставил микрофон — и можно сделать трек. Не обязательно идти в студию с дорогостоящим оборудованием, коммутировать его, мучаться с пленкой. Результат — музыки стало больше. За один час только в жанре хаус-музыки издается около 24 часов материала, и его количество продолжает расти. Человек уже просто не может переслушать всю музыку, но альбомы выходят. Большое предложение вызывает снижение цен: если музыки много, то стоимость каждого трека становится меньше, а маркетинг, общение с аудиторией зачастую становятся важнее, чем само создание музыки.

Искусственный интеллект и генеративная музыка: лишат ли нейросети работы музыкантов

В эту же ловушку попадает то, что можно притянуть к понятию «искусственный интеллект». Люди все подряд называют искусственным интеллектом: когда-то даже система в автомобиле, которая определяла, что впереди идет другой автомобиль — тоже называлась «искусственный интеллект». Хороший способ прорекламировать новую разработку, но до настоящего ИИ еще далеко. Когда система начнет учить сама себя, без вмешательства программистов — тогда будет настоящий ИИ. А пока мы можем говорить про нейросети — алгоритмы, способные делать обобщения и находить закономерности между входными и выходными данными. Человеку приходится их обучать, но они больше всего похожи на ИИ, они важный шаг на пути к ИИ, и они применяются уже сейчас.

Если научить нейронную сеть играть в стиле Бетховена или Баха, обучив ее на датасете из треков Баха и Бетховена, она это сделает без труда. Еще проще с электронной музыкой, где, как правило, прямая бочка и достаточно простые прогрессии аккордов. Такие стартапы, как Soundraw, Mubert, Endel, Ecrett, Boomy — появляются, и их достаточно много. Но, к сожалению, пока что большая часть названных «генеративной музыкой» начинаний — это реклама. Большинство проектов, которые создают музыку и которые более-менее приятно слушать, — это записанные музыкальные петли от живых композиторов, просто запущенные в случайном порядке. Например, 10 фраз барабанных партий случайным образом включены в трек, подходящий по ритму — и можно уже говорить, как многие и делают, о генеративной музыке. Но настоящая генеративная музыка, скорее, должна быть похожей на первые джем-сессии музыкантов. На те моменты, когда музыка, цепляясь идеями за идеи, создается на лету, генерируется и исчезает.

Чисто генеративные музыкальные проекты (например, MuseNet, Aiva) по качеству пока звучат далеко от отмастеренных записей именитых инженеров и музыкальных продюсеров. В первом случае партитуру каждого фрагмента генерирует нейросеть на основе обучения на классических записях. Музыкальные паттерны получаются более естественные и по-настоящему генеративные, хоть и написаны по определенным правилам. Во втором случае нейросеть определяет звучание трека, но результат пока что получается недостаточно прозрачным и чистым. По аналогии генерируется и голосовая партия. В остатке: пока одни заинтересованы в увеличении прибыли и притоке новых инвесторов в проект, а другие чрезмерно увлечены творчеством, реального продукта, который помогал бы людям, нет.

Сейчас генеративная музыка почти никак не применяется в коммерческих проектах. Но перспективы огромные: от озвучивания общественных пространств (кафе, ресторанов, магазинов) и рекламных роликов до озвучивания объектов жилой недвижимости. Да и для персонального прослушивания это подойдет. Представьте, что вы можете сказать домашней системе: «сыграй трек, чтобы барабаны были из U2, сведение, как у Фредди Меркьюри, а голос Марии Каллас». Это будет ваша персональная музыка, созданная специально для вас, здесь и сейчас.

Из чего состоит генеративная музыка

Базовый принцип алгоритма работы нейросети, генерирующей музыку заключается в следующем:

Определение музыкального стиля.
Выбор настроения (прогрессия аккордов).
Создание последовательности нот в мелодии и дополнительных партиях.
Подбор темпа, ритма, размеров.
Подбор инструментов.
Стиль аранжировки.
Количество и подбор спецэффектов и «украшений».
Стили сведения и мастеринга (с этим уже начинают справляться LANDR, SCHNALZ, CloudBounce, eMastered, выученные как раз на записях именитых мастеринг-инженеров со всего мира).

На первый взгляд кажется, что композиторы и инженеры потеряют работу (и из-за облачного мастеринга мастеринг-инженеры уже были вынуждены снизить стоимость своих услуг), но, с другой стороны, открываются возможности для появления новых профессий. К примеру, программист искусственного интеллекта в области музыки. Музыканты будущего будут похожи на учителей, которые обучают нейросети подобно тому, как воспитывают детей. И, как люди, нейросети будут разными, разных стилей и жанров.

Генеративная музыка в будущем в том числе может быть полезной, «функциональной»: такой, что началась с «элеваторной» музыки Джорджа Оуэна Сквайра в 1934 году и служит каким-то определенным целям — личным или коммерческим.

Музыкальный фон для расслабления, снижения стресса;
для фокуса внимания (офисы, рабочие пространства);
для бодрости (спортивные центры);
для развлечения (индустрия огромна);
для вовлечения (фильмы, игры, ролики, любой медиа-контент);
как возможность задуматься (арт-объекты).

Это не все виды применения нейросетей и алгоритмов в музыке на сегодняшний день. Звукорежиссерам и композиторам уже помогают генеративные последовательности аккордов в Cubase, Ableton. Плагин Izotope Ozone — дает возможность домашним композиторам-любителям сделать звук своей демо-записи более профессиональным. Рандомизация параметров в синтезаторах уже используется в плагинах для музыкантов как творческий инструмент создания чего-то нового.

Благодаря новым технологиям уровень входа в профессию снижается, что приводит к увеличению предложения качественной музыки на рынке. Потребитель же получает разнообразие музыки, которую он к тому же сможет собрать под себя и свое настроение. Разве не для этого нужна музыка? Конечно, тут нужно сказать, что теряется функция музыки как медиума переноса информации от одного человека к другому, теряются эмоции конкретного, живого артиста. Но именно поэтому авторская, натуральная музыка не умрет. Как не умерли акустические инструменты при появлении электронных. К тому же следует помнить: ИИ пока не чувствует аудиторию, не умеет учитывать тренды и изобретать что-то новое, исходя из духа времени. Тем не менее, в Институте звукового дизайна ведутся разработки по принципам создания генеративной музыки с универсальными правилами.

Технологии стягиваются одна за другой в общий центр — к робототехнике, и нейросети, работающие со звуком, — одна из важных основ роботизированного будущего. К примеру, распознавание нот в Crescendo. Или Yousician — также определяет высоту спетой ноты и помогает учиться без живого учителя. Можно смело предположить, что когда-нибудь этот учитель будет антропоморфным роботом, а не приложением на смартфоне. Нейросети могут научиться подбирать новые музыкальные тембры, причем такие, которые особенно нравятся людям. Роботы с приятными синтезированными нейросетями голосами? Почему нет!

Звуки и музыка окружали людей всегда и всегда будут. В древние времена все собирались перед костром и играли на барабанах, входили в ритм, чувствовали единство через ритм. Ритмы и цикличность сопровождают нас повсюду: от восхода солнца до сердцебиения. А технологии сопутствовали людскому желанию создавать свои ритмы и мелодии. Барабан — это технология. Пианино — целая инженерная задача. Электрогитара как инструмент породила множество жанров. Появление синтезаторов результировало в свои стили и эксперименты. В информационную же эру внутри инструмента «компьютер» родился еще один инструмент — нейросети. Какие жанры родит он? Мы скоро это узнаем.

Материал подготовлен совместно сИнститут звукового дизайна