Нобелевские премии 2024 и искусственный интеллект. Химия: предсказание белковых структур27.10.2024 20:00

С вами снова Павел Бузин. Как и обещал в первой части саги о Нобелевской премии, сегодня поговорим о химии. Надеюсь, интерес публики к новости еще не угас, потому что, признаюсь, даже у меня, технически подкованного человека, ушло немало времени на то, чтобы разобраться в химической составляющей изысканий лауреатов этого года.

8 октября 2024 года теперь можно считать одной из важнейших дат в истории искусственного интеллекта, потому что Нобелевскую премию по химии присудили по сути за применение методов AI. Американец Дэвид Бейкер (David Baker) и сотрудники «дочки» Google в Британии Демис Хассабис (Demis Hassabis) и Джон Джампер (John M. Jumper) взяли приз за предсказание структуры белков. Стоп. А с каких это пор Google стал химическим концерном? В этой статье посмотрим на бэкграунд исследователей и методы, открытые ими чуть внимательнее.

Демис Хассабис и Джон Джампер являются, соответственно, CEO и директором в DeepMind — дочерней компании Google, специализирующейся на разработке и применении методов искусственного интеллекта. Стоит упомянуть, что Нобелевские премии и до этого неоднократно присуждались за открытия, сделанные сотрудниками исследовательских подразделений корпораций. Можно вспомнить Bell Labs (сейчас подразделение Nokia Corporation), исследователи которой создали первый транзистор и открыли реликтовое излучение. Или исследователей из IBM, что получили премии за создание туннельного микроскопа и открытие высокотемпературной сверхпроводимости.

Неоднократно вручались и премии за разработку новых инструментов и методов, позволяющих расширить возможности и получить кардинально новые научные результаты. Яркий пример из физики — это камера Вильсона (1927 год), в химии — методы синтеза молекул с заданными свойствами «клик-химия» (2022 год) и многое, многое другое.

Вычислительные методы, которые сейчас объединяют под названием Computer Science, также неоднократно отмечались высокой наградой. Большая их часть — Нобелевские премии по экономике (в силу отсутствия премии по математике), здесь в качестве примера можно упомянуть Леонида Канторовича (1975 год), отца линейного программирования, который получил премию с формулировкой «за вклад в теорию оптимального распределения ресурсов».

Что же такого в этот раз сделали в области компьютерных наук, что это признали революционным в химии?

Геометрическая химия

Пресс-релиз Нобелевского комитета гласит: «The Royal Swedish Academy of Sciences has decided to award the Nobel Prize in Chemistry 2024… «for protein structure prediction».

Уже интересно. Исследование белков — одна из важнейших областей современной науки, охватывающей химию, биологию, медицину, фармацевтику, компьютерные науки. В этой области исследователи сталкиваются с тремя большими проблемами:

сложность и дороговизна проведения экспериментов;
молекулы белков состоят из длинных цепочек, составленных из аминокислот, и количество их сочетаний — очень велико;
как и любые длинные молекулы, молекулы белков имеют большое количество внутренних степеней свободы и, закручиваясь, могут принимать различную форму, в том числе обладающую внутренней упорядоченной или неупорядоченной структурой.

При этом разные части молекул могут геометрически входить в механическое зацепление, которое не сопровождается возникновением новых химических связей. А это уже начинает сильно влиять на свойства белков при взаимодействии с другими агентами — химическими реактивами, другими белками, лекарствами, вирусами, различными элементами клеток.

В химии нередки случаи, когда формула вещества не меняется, но изменение положения молекул влияет на то, как это вещество взаимодействует с другими. Всем известно, что вода и лед — это одни и те же молекулы H2O, однако, лед занимает больший объем и менее охотно вступает в реакции. Понимать условия, при которых белки спонтанно меняют геометрию своих молекул, или знать, какие факторы инициируют это — крайне важно. Это влияет на такие вещи как:

сроки хранения лекарств и реактивов;
образование неактивных или даже токсичных изомеров белков;
спонтанное изменение или восстановление геометрии молекул со временем.

Процесс превращения цепочки аминокислот, составляющих молекулу белка в упорядоченную структуру, называют фолдингом белка (protein folding).

Типичная молекула белка — цепочка из сотен и тысяч атомов углерода, имеющих связи с атомами азота, кислорода, серы, циклические и ациклические соединения, гидроксильные группы и многое другое. То, в какое пространственное оригами в итоге «упакуется» цепочка аминокислот раньше невозможно было знать заранее. Только представьте: белок с цепочкой из 100 аминокислот может упаковываться в 1047 разных конфигураций. Самих аминокислот — около трех десятков, но дело осложняется еще и тем, что в синтезе белка изначально могут участвовать аминокислоты-энантиомеры: это молекулы, которые являются зеркальными копиями друг друга в пространстве (как правая и левая рука). Из-за своих геометрических свойств энантиомеры по-разному взаимодействуют с другими молекулами. Таким образом общее количество вариантов аминокислот, их сочетаний, энантиомеров и способов упаковать все это добро в молекулу белка превышает число частиц во Вселенной. К счастью для исследователей, природа не настолько разнообразна, и если понаблюдать за фолдингом и анфолдингом аминокислотных цепочек «в пробирке» выяснится, что выстраиваются они все-таки в ограниченное число конфигураций. Количество вариантов ограничено из-за того, что разная пространственная конфигурация молекулы обладает разной внутренней энергией и молекулы стремятся принять конфигурации с наименьшей внутренней энергией как наиболее стабильные.

Тема энантиомеров важна еще и потому, что в процессе биологической эволюции на земле все белки приняли только одну зеркальную ориентацию, называемую левосторонней (left-handed), что проявляется в направлении вращения поляризованного света при прохождении через раствор, содержащий энантиомер. Разделение энантиомеров невозможно физическими или химическими способами без разрушения молекул. При этом зеркальные копии могут быть неактивными или даже ядовитыми, а для получения чистого энантиомера приходится в процессе синтеза использовать «затравку» в виде природной молекулы, которая задает требуемую конфигурацию.

Прежде чем с головой нырнуть в мир химии белков, давайте освежим в памяти несколько терминов, которые нам потребуется позже.

В биохимии последовательности, состоящие из аминокислот и сахаров, которые не меняются в процессе реакций синтеза белков, именуют остатками (residue). Понятие остатка шире, чем группы атомов (такие как гидроксильные, карбоксильные или аминогруппы), поскольку может иметь более сложную структуру и состоять из нескольких групп.

Также нам потребуется понимание пептидной связи — это когда аминогруппы (—NH2) одной аминокислоты взаимодействуют с карбоксильной группой (—СООН) другой аминокислоты, устанавливая С=N связь с образованием свободной молекулы воды.

И нам нужно знать про три основных способа проведения эксперимента в биологии и химии: in vivo (в живом организме), in vitro (в пробирке) и in silico (на компьютере). Моделирование химических и биологических процессов жизненно необходимо в силу сложности и дороговизны натурных экспериментов.

Итак, поехали: in silico.

Краткая история белков «в цифре»

Одна из самых крупных баз данных о белках — Protein Data Bank (PDP), содержит информацию о 225 тысячах белков и других структур. В то время как общее количество известных белков, которые подробно не описаны, составляет 200 миллионов.

Основные методы, которые ранее использовались для предсказания форм молекул, были основаны на решении уравнений, описывающих распределении электронов в атомах (как развитие подходов решения уравнения Шредингера) и на геометрических свойствах атомов, которые можно получить как экспериментальные данные (рентгенография, туннельные микроскопы, статистические и другие методы).

Решение уравнения Шредингера для одиночного атома позволило получить информацию об орбиталях — одноэлектронных волновых функциях, позволяющих получить представление о распределении электронов в атоме. Решение задачи для двухатомной системы даже для текущего уровня развития суперкомпьютеров все еще невозможно.

Применение геометрического подхода позволяет понять, как осуществляются химические реакции для относительно простых молекул. В силу квантово-механических эффектов и температурных колебаний атомов в молекуле, молекула непрерывно дрожит и меняет свою форму, принимая некоторые устойчивые состояния. На рисунке ниже показаны возможные изменения, которые могут происходить: изменения углов между связями с соседними атомами (αi, βi, γi и другие), вращение вокруг межатомной связи (ωi, φi-1, ψi-1), изменение расстояния между соседними атомами (межатомная связь выступает в роли пружины/осциллятора). Отмечу, что атомы в процессе движения могут принимать не произвольные положения, а те, которые точно определяются энергетическими уровнями каждой молекулы.

Линейная молекула и ее степени свободы. Источник: https://arxiv.org/pdf/2202.01079

Небольшое лирическое отступление —, а почему в природе нет белковых циклических или ветвящихся структур? Как обыватели мы не знаем (вы если знаете, расскажите в комментариях). Но по логике вещей в природе белковые структуры образуются в процессе репликации. Подобные процессы спонтанной репликации для ветвящихся структур невозможны, более того — они возможны только для ограниченной доли линейных и циклических структур. А вот в лабораторных условиях ветвящиеся структуры можно синтезировать и изучать, в чем нам и помогает компьютерное моделирование.

Для белков, состоящих большого числа аминокислот, потребовалось расширение абстрактного описания в виде химических формул, к которому мы привыкли на уроках химии. Биологи и химики оперируют четырехуровневым представлением:

Первичная структура белка (Primary Protein Structure) — одномерная последовательность аминокислот.
Вторичная структура белка (Secondary Protein Structure) — складывание в повторяющиеся структуры, линейные или спиральные.
Третичная структура белка (Tertiary Protein Structure) — трехмерное свертывание посредством взаимодействия боковых атомов и групп атомов (торчащих в сторону от основной цепочки, которая состоит, в основном, из атомов углерода).
Четвертичная структура белка (Quaternary Protein Structure) — структура белка формируется несколькими цепочками взаимодействующих аминокислот. Для визуализации четвертичной структуры белка применяют также представление в виде линий, в виде лент, в виде палочек-связей между атомами и в виде поверхности электронного облака, окружающего молекулу белка.

На рисунке ниже проиллюстрированы структуры белка human foetal deoxyhaemoglobin protein (PDB: 1FDH)

Различные представления структуры белка. Источник: https://arxiv.org/pdf/2409.17726

Думаю, из сказанного выше вы убедились, что изучение фолдинга белков — невероятно сложная сфера. Давайте совершим короткий экскурс в историю того, как задачи о предсказаниях структуры белков решались до 2024 года.

1994 год — Critical Assessment of protein Structure Prediction

Сегодня мы уже привыкли к хакатонам. А как насчет чемпионата по фолдингу белковых структур? В 1994 году состоялся первый чемпионат CASP — Critical Assessment of protein Structure Prediction (критическая оценка предсказания белковых структур), с тех пор он проходит каждые два года. Команды исследователей получают аминокислотную последовательность и соревнуются в предсказании вторичных и третичных структур для ранее не исследованных белков. Ни организаторы, ни эксперты, ни участники не знают структуры тестируемых белков до окончания стадии предсказаний.

2005—2008 год — Rosetta@home и Foldit

Еще в 2003 году проект «Геном человека» секвенировал 85% человеческого генома. Исследователи выяснили аминокислотные последовательности почти всех белков в человеческом организме и решили: раз мы изучили все, что есть, давайте создадим в виртуальной пробирке то, чего нет. Например, новые более активные белки или способы изменения структур, виновных в серьезных заболеваниях.

Так появился проект добровольных вычислений Rosetta@home, где коллективные вычислительные ресурсы использовались исследователями для предсказания третичной структуры белков и прогнозирования взаимодействия белковых структур. Но была одна проблема: ученых, способных в свободное время придумывать новые молекулы не так уж много. И чтобы ускорить победу над раком и Альцгеймером энтузиасты решили популяризировать фолдинг белков и превратить суровую забаву для ученых в кубик Рубика, с которым может поупражняться каждый. Главным энтузиастом этой инициативы был как раз будущий лауреат этого года Девид Бейкер.

Именно он вместе с коллегами разработал онлайн-головоломку Foldit, где люди даже без специфических знаний в области химии могут «покрутить» аминокислотную последовательность для решения конкретной задачи. В конце концов, 38 000 голов (количество пользователей Rosetta@home на 2011 год) — хорошо, а 240 000 (количество игроков в Foldit в год релиза) — лучше. Цель головоломки состоит в поиске трехмерной структуры определенного белка с самым низким уровнем свободной энергии. Каждое задание публикуется на сайте на определенный срок, в течение которого пользователи соревнуются между собой. С помощью Foldit удалось совершить несколько научных прорывов: например, расшифровать структуру вируса, вызывающего СПИД у обезьян, и изменить структуру белка, отвечающего за катализ реакции Дильса — Альдера.

2017—2024 — AlphaFold

Пришло время поговорить про самое интересное. Следите за руками:

В 2010 году в Лондоне возникает стартап DeepMind Technologies, который занимается искусственным интеллектом.
В 2014 компанию приобретает Google.
В 2016 году модель AlphaZero, разработанная командой DeepMind, выигрывает партию в го у чемпиона мира Ли Седоля.
В 2017 году AlphaZero, получает высший шахматный рейтинг, победив в серии из 100 партий сильнейшую на тот момент шахматную программу StockFish 8. Компания DeepMind обучает широкое семейство моделей Alpha, которые достигают блестящих успехов в разных областях.
В 2018 году к семейству моделей Alpha добавляется AlphaFold, предназначенная для предсказания структуры белка. Разработкой модели руководят Демис Хассабис и Джон Джампер. Исследовательская команда участвует в 13-ом чемпионате CASP и берет первое место.
В 2020 году AlphaFold2 снова решила главную задачу CASP, да так хорошо, что главный научный журнал мира Nature назвал это «прорывом».

К чести Google она выложила модели AlphaFold и AlphaFold2 в открытый доступ для использования другими исследователями, а также создала базу структур белков AlphaFold Protein Structure Database и наполнила ее информацией о 200 миллионах белковых структур, рассчитанных DeepMind. Для желающих — ссылки на первоисточники:

А теперь о том, что же там внутри.

Внутри AlphaFold

Если верить описанию, AlphaFold «напрямую предсказывает 3D-координаты всех тяжелых атомов для данного белка, используя в качестве входных данных первичную аминокислотную последовательность и выровненные последовательности гомологов».

Рекомендую почитать первоисточники, не пожалеете

Архитектуру AlphaFold2 DeemMind открыли в статье в журнале Nature, опубликованной 15 июля в 2021 года (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8371605/). Самое интересное — в дополнении в этой статье, в Supplementary information. Специалистам в области машинного обучения можно сразу перейти по ссылке для его изучения https://pmc.ncbi.nlm.nih.gov/articles/instance/8387230/bin/41586_2021_3819_MOESM1_ESM.pdf.

Поделюсь своим мнением относительно того, что в AlphaFold2 было важным, интересным, реально очень сложным и прорывным.

Первое, что привлекает внимание — обучающий датасет. Команда DeepMind использовала данные о 250+ тысячах белков и их свойствах (таких как размеры, конфигурации, углы между связями, расстояния между атомами и другие) из Protein Data Bank. На следующем шаге была создана отдельная модель для генерации синтетических примеров на основе реальных данных (аугментация данных) для создания обучающего датасета AlphaFold2. При этом 25% были оригинальными примерами белков из Protein Data Bank, а 75% — синтетическими. При проверке правильности синтетических примеров использовали как метрику расстояние Кульбака-Лейбнера для пар реальный пример-синтетический пример.

Модель AlphaFold2 работает с последовательностями аминокислот, составляющих белки называемые multiple sequence alignments (MSA). На вход модели AlphaFold2 подаются эмбеддинги MSA, составляющих белки, и фичи известных пар последовательностей известных белков (из обучающего датасета). Сеть состоит из двух основных модулей: модуля Evoformer и модуля структуры.

Высокоуровневая схема архитектуры нейросети AlphaFold2

Evoformer оперирует эмбеддингами MSA, а также данными о геометрии реальных молекул (углы, расстояния, конфигурация). Модуль включает 48 последовательных блоков и использует механизм attention, в том числе для вычисления углов между атомами. Цитируя DeepMind: «ключевыми инновациями в блоке Evoformer являются новые механизмы обмена информацией внутри MSA и парные репрезентации, позволяющие напрямую рассуждать о пространственных и эволюционных отношениях». В результате Evoformer реализует геометрический подход при вычислении формы молекул белков.

В качестве результата Evoformer выдает:

массив Nseq × Nres, который представляет обработанный MSA (Nseq — количество последовательностей аминокислот, Nres — количество остатков — тех самых групп атомов, о которых мы говорили в разделе «Геометрическая химия»);
массив Nres × Nres, который представляет пары остатков.

Выходные данные Evoformer подаются на вход модуля структуры для восстановления.

Один из 48 блоков модуля Evoformer нейросети AlphaFold2

Модуль структуры используется для восстановления предсказываемой формы молекулы посредством представления (representation) вращения и перемещения для каждого остатка белка. Модуль итеративно моделирует эволюцию начального состояния (положение атомов и связей), многократно подавая результат работы модуля обратно на вход. Такое итеративное уточнение (авторы называют его «рециркуляцией») заметно повышает точность при незначительном увеличении времени обучения. Сохранение последовательности атомов N-Cα-C в молекуле белка при восстановлении формы молекулы обеспечивает модуль Invariant point attention (IPA).

Модуль Invariant Point Attention Module

В процессе восстановления 3D-структуры должны выполняться многие ограничения, включая неравенство треугольника для расстояний. Для этого применяется сочетание операций последовательного обновления треугольников и работа модуля triangle self-attention. Такой процесс более точный и производительный в сравнении только с механизмом attention или обновления треугольников по отдельности.

Модуль Triangular self-attention

При восстановлении геометрии предсказываемого белка в AlphaFold2 используются кватернионы. Это такое расширение комплексных чисел, применяемое в механике для описания движения твердого тела. Кватернионы представляют число в виде q=a+bi+cj+dk, где a, b, c, d — вещественные числа, а i, j, k — мнимые единицы со свойствами i2 = j2 = k2 = ijk = −1.

Кватернионы — это вышка вышки в высшей математике. Они позволяют удобно представлять вращение объектов в пространстве, упрощают расчеты и минимизируют возможные ошибки в вычислениях. Применение кватернионов является подтверждением высшего уровня проработки задачи в части геометрических свойств молекул.

Также в модуле структуры реализован механизм, учитывающий расположение соседних групп атомов и возникающих между ними пептидных связей.

В результате на выходе AlphaFold2 мы имеем данные о положении атомов, составляющих молекулу белка, форма которой смоделирована сетью.

При этом AlphaFold2 достигает очень высокой точности и оказалась намного точнее, чем конкурирующие методы. Медианная точность AlphaFold2 составляет 0,96 Å (ангстрем, 10–10 метра), что сравнимо с размерами атома углерода 1,4 Å. При этом AlphaFold2 можно применять для анализа белков с длинными цепочками и доменной упаковкой без существенной потери точности.

И в качестве вишенки на торт — модель выложена в открытом доступе в репозитории с описанием как развернуть образ в Google Cloud. AlphaFold2 очень экономно относится к вычислительным ресурсам — для работы ей достаточно всего 12 vCPUs, 85 GB RAM и одной GPU A100. По утверждению DeepMind, AlphaFold2 использовали уже более 2 миллионов раз.

Вместо заключения

Часто приходится слышать, что Нобелевскую премию присудили несправедливо: то биологам за химию дадут, то информатикам за физику. Действительно, Дэвид Бейкер — биоинформатик и биохимик, почти всю жизнь посвятил дизайну белков и предсказанию их третичной структуры. Заслуги Демиса Хассабиса Джона Джампера больше лежат в поле науки о данных, вычислительной биологии и химии, и все они получили Нобелевскую премию за создание инструментов на основе нейронных сетей и их применение. Стоит ли по этому поводу возмущаться общественности? Я бы сказал, что стоит радоваться. Огромное количество кросс-дисциплинарных исследований и тот факт, что нам становится сложно провести четкую черту между физикой, химией, биологией, медициной и информатикой говорит скорее о том, насколько глубоко мы проникли в суть окружающего нас мира, чем об ангажированности Нобелевского комитета.

Главный вывод, который можно сделать из премий этого года: Нобелевский комитет и научный мир в целом зафиксировал возникновение новой реальности, в которой нейросети такой же инструмент в руках исследователя как микроскоп или ускоритель частиц. Раньше у науки были экспериментальные факты и теории, позволяющие интерпретировать действительность и имеющие предсказательную силу. Теперь артефакты науки пополнились моделями машинного обучения, что примечательно, модели — сущности, имеющие предсказательную силу, но при этом неинтерпетируемые.

Источники для любопытных

Другие статьи в блоге: