Аминокислоты как ноты: как звучит белок?
Существует высказывание: «о политике и вкусах не спорят». К сожалению, споров на эти темы все же хватает. Главный же посыл этой фразы в том, что у каждого человека могут быть свои предпочтения в кино, литературе, музыке. Кто-то случает Шуберта и призирает AC/DC, кого-то вдохновляют песни Жанны Агузаровой, а кто-то предпочитает слушать саундтреки к любимым фильмам. Вкусовое разнообразие обусловлено невероятно широким диапазоном звуков, которые мы способны создавать с помощью самых разных музыкальных инструментов (и своего голоса, конечно), от духовых и струнных до ударных и клавишных. Но какой будет мелодия, если исполнителем будет белок? Данный эксперимент увенчался успехом, но результат был, мягко говоря, специфическим. И вот ученые из Национального университета Сингапура решили усовершенствовать методику преобразования белков в музыку, сделав ее более приятной человеческому слуху. Как именно белок становится музыкальным инструментом, какие мелодии он способен играть, и что удалось сочинить ученым в результате? Ответы на эти вопросы мы найдем в докладе ученых. Поехали.
Основа исследования
Те, кто считают искусство далеким от науки, ошибаются, ведь между этими сферами деятельности человека существует много параллелей. Если рассматривать музыку, то в ней четко видны элементы математики, физики, химии и даже биологии. Причем это работает и в обратном направлении, ибо для многих математиков сложные и длинные уравнения подобны нотным рядам. Не говоря уже о том, что спектральная и временная организация музыки возникает из биологии человека и оказывает сложное влияние на физиологию и психологию человека. Ученые отмечают, что последовательности ДНК напоминают упорядоченные последовательности музыкальных нот, что и привело к появлению ДНК музыки (https://www.sciencedirect.com/science/article/abs/pii/S1130140605700504).Мелодии, созданные с помощью преобразования ДНК в аудио.
Последовательности белков и музыкальные ноты также обладают схожими чертами. Музыкальные ноты связаны с характерными повторяющимися паттернами, в то время как белковые последовательности содержат повторяющиеся вторичные структуры и третичные складки. На основе этих аналогий были построены различные алгоритмы сопоставления белков и музыки. Используя частотные гистограммы аминокислот и их растворимость, паттерны сворачивания белков были преобразованы в музыкальные композиции с короткими диапазонами и фиксированной длиной нот. Множественные физико-химические свойства аминокислот были синергетически сопоставлены с особенностями инструментов для создания целого оркестра белковых «инструментов». Музыкальность полученных композиций была увеличена за счет калибровки различных показателей нот (высота звука, длительность и т.д.), а также за счет добавления аккордов.
Данный процесс нельзя назвать легким, а посему и результирующая композиция получилась далека от шедевральной. Однако, как и любой музыкант нуждающийся в практике для шлифовки своего таланта, процесс преобразования белков в музыку также требует дополнительной калибровки, чтобы результирующая композиция стала более мелодичной.
В рассматриваемом нами сегодня труде ученые провели анализ музыкальных особенностей определенного музыкального стиля и использовали его квантованные особенности для сопоставления оных с разнообразными свойствами аминокислот, что в последствии дало новый алгоритм преобразования белков в музыку.
Подбор музыкантов
Первым делом ученым необходимо было решить, какую же реальную композицию они хотят реализовать с помощью белка. Было выбрано 4 композиции (пьесы) в стиле Fantaisie-Impromptu (фантазия-экспромт), а именно: «Fantaisie-Impromptu» (Фридерик Шопен); №2 из »7 фантазий» (Иоганнес Брамс); «Странник» (Франц Шуберт) и «Экспромт до минор» (Франц Шуберт).
Они были квантованы для извлечения музыкальных особенностей стиля Fantasy-Impromptu с помощью следующей процедуры: программа abc2midi использовалась для преобразования файлов MIDI в соответствующие текстовые файлы с нотной записью, известной как «abcnotation». Были количественно проанализированы шесть музыкальных характеристик: высота звука, длительность, октавы, аккорды, динамика и основная композиция.
На следующем этапе подготовки ученые занялись аминокислотами. Всего для количественного и кластерного анализа было выбрано 104 свойства аминокислот (дополнительная таблица 1), которые включают 66 структурных и физико-химических свойств и 38 свойств связывания с белками. Именно эти свойства были выбраны, так как их уникальные профили могут быть сопоставлены с определенными музыкальными особенностями. Например, изменения объема аминокислот в последовательности белка могут быть сопоставлены с изменением высоты звука. Положение заряженных аминокислот в белке может вызывать спорадические изменения музыкальных качеств.
Для сравнительного анализа значения свойств аминокислот были нормализованы между -1 и 1 для тех, у кого есть как отрицательные, так и положительные значения (например, значение гидрофильности), и между 0 и 1 для тех, у кого только положительные или целочисленные значения (например, объем остатка).
Для измерения сходства между свойствами аминокислот использовалась ранговая корреляция Спирмена. А для кластеризации свойств аминокислот в группы схожих профилей использовалась тепловая карта в R).
Затем необходимо было сопоставить свойства аминокислот с квантованными музыкальными характеристиками.
Во-первых, для конкретной музыкальной особенности (например, относительной частоты появления каждой высоты звука) музыкального стиля вариация каждого свойства (например, композиции) относительно 20 аминокислот сравнивались с аминокислотами каждого музыкального элемента в отношении репрезентативных музыкальных произведений данного стиля. Обычно это проводилось путем сравнения моделей кластеризации аминокислотных свойств и музыкальных характеристик.
Во-вторых, для последующей генерации правила сопоставления белков и музыки было выбрано наиболее подходящее аминокислотное свойство. На основе соответствия между наиболее подходящим аминокислотным свойством и музыкальным признаком (например, между аминокислотным составом и высотой звука), каждой из 20 аминокислот было присвоено определенное значение музыкального признака (например, аминокислота аланин соответствует ноте соль).
После сопоставления музыкальных характеристик и аминокислотных свойств был произведен выбор белков для создания композиции. В общей сложности 18 белков были отобраны для создания музыки на основе их биологических функций.
Одна группа из 11 белков регулирует человеческие эмоции, познание или ощущения, что является крайне распространенной темой произведений в стиле Fantaisie-Impromptu. Эти белки, хоть и участвуют в физиологических процессах, связанных с познанием, происходят из разных семейств белков, т.е. отличаются друг от друга в аспекте аминокислотных последовательностей и их свойств.
Вторая группа из 7 белков представляет собой совершенно разные биологические регуляторы (упорядоченное развитие, болезнь, яд, фотосинтез, флуоресценция, пищевой белок и связывание гликопротеинов) из разных семейств белков. Эти белки различаются и по функциям, и по последовательностям аминокислот.
Из базы данных Uniprot были получены последовательности из 18 белков, затем с помощью Python каждую последовательность преобразовали в файл abc на основе таблиц соответствия музыкальных характеристик. Далее программа abc2midi преобразовала abc файл в MIDI, воспроизведенный в последствии с помощью Musescore.
Генеральная репетиция
Изображение №1
Первым делом необходимо было охарактеризовать музыкальные свойства используемых пьес в стиле Fantaisie-Impromptu, которые были проанализированы на основе квантованных значений. В пределах одной октавы было 12 возможных нот. Наиболее часто встречающиеся ноты — это C (до), G (соль) и E (ми) с частотой 16.1%, 15.7% и 10.0% соответственно. Эти три ноты являются частью тонического аккорда, который является одним из наиболее значимых аккордов в большинстве произведений тональной музыки.
Краткое объяснение и демонстрация разницы между тональной и атональной музыкой.
Длительность нот была определена по отношению к четвертной ноте, являющейся одной долей. Все четыре пьесы не содержат ноты длительность 1/16 или 1/8, при этом наиболее часто встречающаяся длительность это ¼ (частота 51.3%). Ноты с наибольшей длительностью демонстрировали четкие тенденции резкого уменьшения частоты появления: ½ — 24.2%; 1 — 10.4%; 3/2 — 9.0%; 2 — 3.9%; 3 — 0.8% и 4 — 0.3%).
Диапазон фортепиано простирается от самой низкой октавы A0 до самой высокой октавы C8. В октавах A0, C6, C7 и C8 было 0% нот, а от C1 до C4 прослеживалось увеличение частоты появления нот (от 2.2% до 43.9%) с последующим резким падением частоты до 5.5% в C5.
Ученые напоминают, что аккорд возникает, когда одной рукой одновременно исполняются две, три или четыре ноты. В четырех используемых произведениях нет четкой корреляции в аспекте использования аккордов. Расчеты с округлением показали, что аккорды встречаются в 14% от общей продолжительности всех 4 произведений. Среднее процентное распределение аккордов составил: 71.4% для 2 нот; 19.8% для 3 нот и 8.8% для 4 нот.
Динамические отметки в разных точках музыкального произведения определяют громкость звука в этих точках. Имеется 8 динамических отметок, от ppp для самого тихого звука до fff для самого громкого звука. Опять же, между четырьмя произведениями был весьма широкий разброс в значениях изменения постепенного изменения громкости. Средний процент изменения громкости от тихого к громкому составил 50%, а от громкого к тихому — 37.5%.
Общим для всех четырех пьес была мелодическая тема, которая либо полностью повторялась, либо повторялась с точки зрения ритма (т.е. с сохранением длительности нот, но изменением высоты их звука).
Далее 104 свойства аминокислот были сгруппированы с помощью тепловой карты (Stats, v. 3.6.2) так, чтобы все свойства были выровнены в группы схожих паттернов распределения по отношению к аминокислотам. Часть кластера показана ниже.
Изображение №2
Основываясь на сравнении количественных профилей свойств аминокислот и квантованных музыкальных характеристик Fantasy-Impromptu из 104 свойств было выбрано 11, которые стали основой нового алгоритма преобразования белка в музыку. К этим свойствам относятся: относительная частота встречаемости аминокислоты в белках; аминокислотный состав; потенциал электрон-ионного взаимодействия; заряд; горечь; гидропатия (мера гидрофобности аминокислот); размер; объем остатка; склонность к связыванию рРНК; склонность к связыванию мРНК и количество доноров водородных связей. На основе этих свойств был разработан набор правил для сопоставления аминокислот вдоль белковой последовательности с музыкальными особенностями, которые относятся к стилю Fantasy-Impromptu.
Учитывая, что игра на фортепиано соло не значит использование обеих рук в унисон на протяжении всего произведения, два свойства одного и того же кластера были использованы для синхронного сопоставления аминокислот с музыкальными нотами правой и левой руки соответственно. В частности, относительную частоту встречаемости аминокислот и аминокислотный состав использовали для сопоставления аминокислот с правыми и левыми нотами соответственно.
При сопоставлении с длительностью ноты важно было избежать прямой корреляции с изменениями высоты звука. Следовательно, сопоставление аминокислоты с длительностью ноты основывалось на соответствующих свойствах предыдущей аминокислоты (т.е. длительность ноты текущей аминокислоты определялась свойством предыдущей). Размер аминокислоты и объем остатка использовались для длительности правой и левой ноты соответственно, а большой размер или объем соответствовали меньшей длительности ноты.
В выбранных для исследования произведениях обычно октавы находились в диапазоне от первой ноты до (C1) до шестой ноты до (C6). Правая рука использовала в основном октавы от C3 до C6, а левая — от C1 до C4. Для сопоставления с правыми октавами 20 аминокислот были сначала сгруппированы на основе их потенциала взаимодействия электронов с ионами (группа №1: P, H, K, A, Y, W, Q, M, S, C, T, F, R, D; группа №2: L, I, N, G, V, E). Затем были выбраны четыре триггерных аминокислоты на основе заряда (аргинин и лизин с зарядом 1 и аспарагиновая кислота и глутаминовая кислота с зарядом -1).
Чтобы наилучшим образом соответствовать октавному распределению стиля Fantasy-Impromptu, были разработаны три правила. Во-первых, в случае аргинина или лизина, если предыдущая аминокислота находится в группе №1, октава нот последующих аминокислот увеличивается на единицу. Во-вторых, в случае аспарагиновой кислоты или глутаминовой кислоты, если предыдущая аминокислота находится в группе №2, октава нот последующих аминокислот уменьшается на единицу. В-третьих, в случае одной из четырех триггерных аминокислот, когда ноты последующих аминокислот находятся в верхней или нижней октаве, эти ноты воспроизводятся на одну октаву от предыдущей.
Для левой стороны 20 аминокислот были сгруппированы на основе их свойства горечи (группа №1: A, R, N, D, C, Q, E, G, H, K, M, P, S, T; группа №2: I, L, F, W, Y, V). На основании гидропатии были выбраны четыре триггерных аминокислоты (аргинин и лизин с наиболее отрицательными значениями и изолейцин и валин с наиболее положительными значениями). В случае аргинина или лизина, если предыдущая аминокислота находится в группе №2, октава нот последующих аминокислот уменьшается на единицу. В случае изолейцина или валина, если предыдущая аминокислота находится в группе №1, октава нот последующих аминокислот увеличивается на единицу. А в случае одной из четырех триггерных аминокислот, в то время как ноты последующих аминокислот находятся в верхней или нижней закрытой октаве, эти ноты воспроизводятся на одну октаву от верхней границы.
Еще одной важной составляющей музыки романтизма являются знаки альтерации, указывающие на повышение или понижение какого-либо звука без изменения его названия. Чтобы имитировать эту музыкальную функцию, были выбраны две специальные аминокислоты: пролин для правой руки и аргинин для левой.
Чтобы изменить динамику белковой музыки, аргинин использовался в качестве триггера, основываясь на его количестве доноров водородных связей.
Свойства связывания рРНК и мРНК стали отображением аккордов правой и левой руки соответственно. Чтобы воспроизвести последовательности аккордов на белках, использовался генератор случайных чисел. Вероятность выбора аккорда следующая: если все возможные аккорды состоят из равного количества нот, то каждый возможный аккорд имеет равную вероятность быть выбранным. Если аккорды состоят из 2 и 3 нот, вероятность выбора составляет 0.7 и 0.3 для аккорда из 2 и 3 нот соответственно. Если аккорды состоят из 2, 3 и 4 нот, вероятность составляет 0.7, 0.2 и 0.1 соответственно.
Наконец необходимо было разобраться с основной темой композиции. Ученые установили, что основные темы четырех использованных для исследования композиций обладают схожими свойствами. Тема обычно проявляется в начале произведения, общая длительность ее нот составляет 4, 8 или 16, мелодический интервал между каждыми двумя нотами в основном равен 0, 0.5, 1, 1.5, 2 или 2.5 тонов.
В соответствии с этими данными была разработана функция оценки нот правой руки для поиска самого раннего проявления нот, которое оптимально реализует вышеописанные музыкальные особенности. После того как тема была найдена, она была вставлена в определенные места белковой музыки, где ее триггером выступали определенные аминокислоты. Роль этих триггеров исполнили триптофан, тирозин, фенилаланин и аргинин. В случае первых двух производилась вставка темы между текущей и следующей аминокислотой в исходной высоте звука основной темы, но с использованием октавы текущей ноты. В случае фенилаланина и аргинина существующая высота звука оставалась неизменной, но длительность ноты менялась на длительность основной темы.
Гранд-концерт
Результатом вышеописанного колоссального труда стала композиция для 18 белков (все файлы и коды, связанные с данной композицией, можно скачать тут). Музыка белка, полученная в данном исследовании.
Основной задачей данного труда было не столько создание музыки белков, сколько улучшение мелодичности, ибо сама музыка уже создавалась ранее.
Музыка белка из предыдущего исследования (для сравнения).
Авторы труда заявляют, что все музыкальные произведения, написанные на основе белков, довольно приятны для слуха, демонстрируя хорошую музыкальность независимо от конкретной последовательности и функции белков. Сравнение созданной композиции с предыдущими с помощью портала PROM показало, что новая версия куда более мелодичная, чем ее предшественницы.
Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых.
Эпилог
В данном труде ученые использовали белки для создания музыки. Роль различных музыкальных особенностей (нот, аккордов, высоты звука и т.д.) исполнили аминокислоты, распределенные по «оркестру» в соответствии со своими уникальными свойствами.
Стоит отметить, что сочиненные музыкальные произведения вполне успешно демонстрируют некоторые элементы классических произведений в стиле Fantasy-Impromptu, особенно в аспекте хроматизма, аккордов и широкого диапазона задействованных «клавиш».
Конечно, ученые признают, что музыка белков далека от оригинала, который пытается имитировать. По большей степени отличия возникают в динамике, в хроматической гамме и в гармонической последовательности аккордов. Следовательно, для создания более натуральной музыки необходимо в дальнейшем оптимизировать правила сопоставления по отношению к большему числу особенностей оригинальных композиций.
Косвенным результатом данного труда стало дополнительное подтверждение того, что музыка — это настоящая наука, содержащая в себе великое множество элементов, каждый из которых играет свою роль при создании мелодии, вызывающей именно те эмоции у слушателя, что композитор и задумывал. Именно потому имитировать ее в исполнении белков или даже роботов так сложно. Возможно, для создания живой музыки недостаточно математического анализа ее составляющих, сложных алгоритмов и сотен человеко-часов расчетов. Возможно, музыка — это голос души.
Благодарю за внимание, оставайтесь любопытствующими и хорошей всем рабочей недели, ребята. :)
Немного рекламы
Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5–2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).
Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5–2697v3 2.6GHz 14C 64GB DDR4 4×960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5–2430 2.2Ghz 6C 128GB DDR3 2×960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5–2650 v4 стоимостью 9000 евро за копейки?