За что дали Нобелевскую премию по химии: да, снова за AI-модель
Нобелевскую премию по химии получили Джон Джампер и Демис Хассабис из Google DeepMind, а также биоинформатик Дэвид Бейкер:
Джон Джампер и Демис Хассабис научились предсказывать структуру белков с помощью AI-модели AlphaFold 2.
Дэвид Бейкер преуспелже в другой области — создании новых видов белков (компьютерный дизайн белков). Можно сказать, что Бейкер придумывает последовательность аминокислот для создания искусственных белков.
Учёные смогли решить проблему 50-летней давности — предсказать сложную структуру белка по аминокислотной последовательности — долгие годы наука считала, что это невозможно сделать. Так же учёным казалось, что невозможно создавать новые искусственные белки, которых раньше не было в природе.
Роль белков, и почему они сложны в изучении
Прежде чем перейти к работе учёных, нужно определиться с объектом их исследований — белками. Что это такое? Какова их роль? Почему они сложны в изучении?
Что такое белки и аминокислоты
Белки управляют всеми химическими реакциям в основе жизни. Поэтому иногда их называют «химическими инструментами жизни». Это крупные биологические молекулы, которые состоят из цепочки аминокислотных остатков (в определённых соединениях и форме), выполняющие тысячи функций внутри каждой клетки живого организма.
По сути, аминокислоты — это строительные блоки жизни. В зависимости от формы, которую примет комбинация аминокислот, изменится биологическая функция белка — будет ли он ферментом, переносчиком веществ или, к примеру, регулятором. Также по форме белка видно, как он взаимодействует с другими белками.
Понимание и контроль фолдинга белков — пожалуй, самая важная задача для фундаментальной и прикладной наук. Многие болезни начинаются с нарушения работы белков. Например, вирус SARS-CoV-2 целится сразу в несколько мишеней в организме. Если их изучить и вовремя заблокировать, можно помешать размножаться вирусу. Проблема в том, что узнать форму белка довольно сложно — нужны длительные и дорогие исследования. Подробнее об этом поговорим в следующем разделе.
Какие формы образует белок: иерархическая структура и проблемы её определения
У белков четыре уровня организации. Связь между последовательностью и трёхмерной структурной была доказана и постулируется в одной из ключевых работ в этой области — догме Анфинсена.
Первичная структура. Простейший вид структуры представляет цепочку из остатков 20 аминокислот, соединенных в определённой последовательности — её ещё называют полипептидной. Такую последовательность можно записать в алфавитном порядке — трёхбуквенном или однобуквенном. Понятно, что аминокислот больше двадцати, но большинство белков могут обходиться этим числом.
Следующие уровни уже определяют форму белки, точнее его пространственное строение.
Вторичная структура. В ней последовательная цепь аминокислот образует устойчивые блоки и сворачивается в спираль за счёт водородных связей. Распространенные блоки этой структуры — α-спирали и β-листы.
Третичная структура. Финальная форма белка, которую он принимает после фолдинга (сворачивания/укладки) за счёт ковалентных, водородных, ионных связей и других взаимодействий. Форма белка может напоминать множество разнообразных фигур. Как правило, белки принимают глобулярную или фибрилярную форму. Первые похожи на сферы и хорошо растворяются в воде (пример: яичный белок), а вторые — нити и волокна, они нерастворимы в воде (пример: волосы и мускулы).
Четвертичная структура. У некоторых белков образуется четвертая форма. Она формируется из комплекса нескольких молекул с третичной структурой.
Золотой стандарт определения структуры белка
Определить структуру белка можно экспериментально — методом рентгеноструктурной кристаллографии. Метод был изобретён в 1950-е годы, и его признают условным «золотым стандартом» в этой области.
Хотя метод считается точным, он довольно затратный — на определение структуры одного белка уйдут месяцы и потребуется дорогое оборудование.
Плюс, процесс кристаллографии может столкнуться с проблемами уже на первом этапе получения кристаллов, ведь для кристаллизации белка нужны определённые условия. Например, могут задействовать даже астронавтов, чтобы в невесомости уберечь растущие кристаллы.
Зато постепенно копятся решённые структуры белков. В 1971 году Nature публикует заметку о том, что начинается сбор специальной базы данных PDB, в которой такие структуры белков будут храниться. До развития интернета PDB существовал в виде записей на лентах, а к 2000-м годам стал доступен широкой аудитории. С того момента объёмы базы стали расти экспоненциально: сегодня число решённых структур приближается к 200 тыс.
AlphaFold 2, как и многие другие нейросети, занимающиеся предсказанием строения структуры белка, были созданы на основе данных из PDB.
Как CASP стимулировали создание новых решений
Проблема предсказания структуры белков — настолько важная и сложная задача, что для неё создается отдельный конкурс — в 1994 году появляется Critical Assessment of protein Structure Prediction (CASP). Это соревнование предсказания структуры белка — учёные используют разные алгоритмы, чтобы лучше предсказать структуру белков разных уровней сложности и превзойти в точности своих конкурентов.
Результаты моделей сравнивают с результатам кристаллографов в лаборатории, которые были получены экспериментальным методом. Оценка по шкале GDT (global distance test) от 0 до 100 показывает, насколько сильно моделируемая структура сходится с экспериментальными данными.
До 2018 года показатели точности победителей CASP не могли превысить 40%. Прорыв в этой области совершила команда DeepMind с AI-моделью AlphaFold 1, показав результат в 60%. В следующем конкурсе CASP 14 команда DeepMind заняла первое место, увеличив точность предсказаний до 92% с помощью AlphaFold 2. По словам одного из создателей конкурса CASP, такой результат можно назвать успехом и близким с данными молекулярной биологии, потому что на этом уровне уже сложно сказать, кто прав — модель или биолог-учёный — дело только в погрешности.
Дэвид Бейкер: Компьютерный дизайн белков благодаря алгоритмам Rosetta
Бейкер работал над созданием новых белков, которых не существует в природе. В 1998 году Дэвид Бейкер и его команда приняли участие в CASP 3 с алгоритмом Rosetta и до 2003 года продолжали его дорабатывать.
Алгоритм Rosetta помогает исследователям конструировать белки с определёнными формами и функциями, начиная с желаемой трёхмерной структуры и работая в обратном направлении для вычисления соответствующей последовательности аминокислот. Для оценки структуры в базе Rosetta использовался оптимизированный метод Монте-Карло.
Настоящий прорыв ждал Бейкера с командой, когда им удалось создать новый искусственный белок Top7 — он мог самостоятельно укладываться в трёхмерную структуру, при этом не был похож ни на один природный белок. Но и не имел каких-то полезных функций.
Отголоски Rosetta в будущем
В 2005 году был создан проект Rosetta@home, который помогал обойти проблему нехватки вычислительных мощностей для создания трёхмерной структуры белков.
В 2008 году из Rosetta@home вырос проект Foldit. Это головоломка, в которой игроки соревнуются в сворачивании белков. По самым успешным проектам учёные пишут академические работы.
Демис Хассабис в заметке MIT рассказывал, что играл в Foldit. Можно сказать, что косвенно через эту головоломку DeepMind пришел к задачам по фолдингу белка и разработке AlphaFold. В целом, если вы хотите тоже попробовать себя в роли учёного, нужно только время и желание.
Влияние компьютерного дизайна белков на мировое сообщество
Этот прорыв позволил учёным создать белки и лекарства с новыми свойствами, в том числе для терапевтических (белки, способные ингибировать белок-шип COVID-19), и устойчивых целей (экологические белки, обнаруживающие опиоиды).
Джон Джампер и Демис Хассабис: Предсказание структуры белков с помощью AI
AlphaFold 1: DeepMind удалось совершить прорыв в предсказании структуры белков
AlphaFold 1 был обучен на нескольких общедоступных датасетах:
Protein Data Bank (PDB) — база данных, содержащая трёхмерные структуры и аминокислотные последовательности практически всех белков, структура которых была определена человечеством.
Другая база данных, UniProt, содержит аминокислотные последовательности (без структур) ещё 200 млн белков.
AlphaFold 1 основана на свёрточной нейросети (convolutional neural network, Convnets, CNN). Такие нейросети используют для распознавания изображений с помощью компьютерного зрения. AlphaFold 1 применяет те же стратегии, что и CNN для идентификации изображений. В результате работы AlphaFold 1 создаётся множественное выравнивание последовательностей (Multiple sequence alignment, MSA) — двухмерная матрица (строка — вид организма, столбец — код аминокислоты), из которой можно извлекать иерархические паттерны.
Именно эти паттерны удалось понять команде Google DeepMind и победить на CASP 13, достигнув точности почти в 60%, но этого было недостаточно — учёные могли использовать нейросеть в работе только при точности исследований больше 90%.
AlphaFold 2: роль архитектуры Transformer в предсказании структуры белков
От CNN к Transformer
В 2020 году AI-модель пересобрали и усовершенствовали. Вместо CNN в AlphaFold 2 использована передовая архитектура трансформеров (Transformer) — на ней, например, основаны GPT-модели и BERT. Одним из ключевых нововведений AlphaFold 2 стал механизм внимания, который позволяет AI-модели сфокусироваться на наиболее значимых частях последовательности и структуры белка при составлении предсказаний. Механизм внимания позволяет системе лучше улавливать взаимодействия между различными частями белка, которые имеют решающее значение для его фолдинга и функционирования.
Как работает AlphaFold 2
AlphaFold 2 обучается на базе известных белковых структур и последовательностей и использует эти данные для создания своих предсказаний:
Принимает последовательность белков;
Извлекает характеристики из последовательности, включая информацию о расстояниях между парами аминокислот и углах между связями;
Моделирует процесс фолдинга, предсказывая наиболее вероятную 3D-структуру белка, а также расстояния и углы между всеми парами аминокислот в белке;
Уточняет первоначальное предсказание структуры, корректируя углы и расстояния между аминокислотами, сравнивает предположения с реальными данными по другим белкам;
Выстраивает 3D-структуру белка в виде набора координат для каждой аминокислоты в цепи.
Основная работа AlphaFold 2 находится двух модулях — Evoformer и Structure Model
Эвоформер работает параллельно с двумя последовательностями: получает множественное выравнивание (MSA) и парное представление (pair representation) на входе, а на выходе возвращает их усовершенствованную версию.
Структурный модуль AlphaFold 2 получает из Evoformer обновлённое парное представление и MSA. Сначала он превращает их в основу 3D-структуры. А затем завершает моделирование, размещая боковые цепи аминокислот и уточняя их положение. После AlphaFold 2 выполняет итерационный процесс, называемый «recycling» — полученная структура возвращается в Evoformer — цикл повторяется до тех пор, пока моделируемая структура не приобретёт нужные показатели.
AlphaFold 3: новая архитектура для генерации трёхмерных структур белков, ДНК и РНК с точностью до атома
В мае 2024 года, за несколько месяцев до триумфа AlphaFold 2, Google DeepMind анонсировала третью версию AI-модели — AlphaFold 3. Новая модель даёт максимально сложные прогнозы — как будут выглядеть и взаимодействовать составные биологические структуры из комплекса белков, нуклеиновых кислот, ионов и других элементов. Третья версия AlphaFold отходит от модели трансформер и базируется на диффузионных моделях.
Влияние AlphaFold 2 на мировое сообщество
Более 2 млн учёных из 190 стран используют AlphaFold 2 для доступных и быстрых экспериментов со структурой белка. Это помогает разрабатывать новые лекарства, развивать науку и медицину.
Источники
https://www.nobelprize.org/prizes/chemistry/2024/popular-information/
https://www.nobelprize.org/prizes/chemistry/2024/press-release/
https://www.nobelprize.org/uploads/2024/10/popular-chemistryprize2024–3.pdf
https://www.nobelprize.org/uploads/2024/10/advanced-chemistryprize2024.pdf
https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
https://pub.aimind.so/understanding-alphafold-the-breakthrough-in-protein-structure-prediction-6613bccccf34
https://nplus1.ru/material/2020/12/10/alphafold-wat
https://zanauku.mipt.ru/2024/10/14/slozhilos-kak-to-tak-esse-o-tom-chego-dobilis-nobelevskie-algoritmy-v-ponimanii-foldinga-belka/