Учёные сомневаются, что нейросеть DeepMind действительно понимает физику молекул с нецелым зарядом18.08.2022 13:46

Команда учёных в комментарии к статье DeepMind указала, что приведённые аргументы в пользу достижения поставленной DeepMind цели не так надёжны, как кажутся, и требуют дополнительного исследования. Об этому Хабру сообщили в пресс-службе «Сколтеха». В состав команды входят специалисты «Сколтеха», Института Органической Химии им. Н.Д. Зелинского, Высшей Школы Экономики и Kyungpook National University (Южная Корея). В опубликованной в журнале Science в декабре 2021 года статье команда DeepMind пыталась создать метод Теории Функционала Плотности (DFТ), корректно работающий для самых разных молекулярных систем, включая имеющие нецелое количество электронов.

«Современные химия и наука о материалах постепенно переходят от экспериментального метода проб и ошибок к изучению «цифровых двойников». Вместо того, чтобы ставить десятки или даже сотни экспериментов в надежде найти новый эффективный катализатор или материал, для этого класса катализаторов/материалов создаётся цифровой двойник (математическая модель), который досконально изучается «в компьютере», и на основании найденных теоретически закономерностей ставятся несколько прицельных экспериментов. Этот подход позволяет экономить килограммы дорогостоящих химических реагентов и тонны токсичных органических растворителей», — отметил руководитель Группы теоретической химии Института органической химии им. Н.Д. Зелинского РАН, доцент факультета химии НИУ ВШЭ Михаил Медведев.

DFТ — наиболее широко используемый подход для построения цифровых двойников в химии и науке о материалах, позволяющий относительно корректно описать взаимодействие большого количества электронов между собой. Это требуется для построения цифровых двойников сложных химических систем. Основой DFТ является обменно-корреляционный функционал, для которого точный вид всё ещё не установлен, поэтому сейчас для него используются различные приближённые выражения, которых уже более 400.

«С каждым годом количество приближённых выражений для обменно-корреляционного функционала растёт, предлагаются всё более и более точные выражения. DeepMind, известные своей разработкой нейросетевой программы AlphaGo, победившей одного из сильнейших игроков мира в игру Го, решили применить свои наработки в нейронных сетях для создания нейросетевого функционала Теории Функционала Плотности. Их работа была далеко не первой, однако она однозначно является одной из самых амбициозных», — говорит старший научный сотрудник Центра технологий материалов Сколтеха Пётр Жиляев.

DeepMind создали новый функционал DFТ — DM21. По должен корректно работать с содержащими нецелое количество электронов системами. Корректная работа функционала на них должна помочь ему в описании обычных химических систем. Чтобы научить свой функционал корректно работать на таких системах, команда DeepMind добавила их в базу данных для обучения DM21. Для проверки усвоения информации авторы протестировали функционал на тестовом наборе BBB, состоящем из пар атомов на разных расстояниях друг от друга, таких как два атома водорода с одним электроном на двоих. DM21 показал превосходную точность на наборе BBB, обойдя стандартные функционалы, а также функционал DM21m, обученный DeepMind на том же датасете, за исключением систем с нецелым количеством электронов.

Авторы постарались обойти одно из ключевых ограничений традиционных функционалов — неспособность корректно описывать системы с нецелым количеством электронов. DeepMind добавили в функционал новый нелокальный ингредиент, ранее никогда не использовавшийся — пространственно-разделенную локальную обменную энергию. В дальнейшем она может помочь строить функционалы с лучшим разделением между обменной и корреляционной энергиями. Команда проекта также ввела дополнительную регуляризацию, связанную с процедурой самосогласованного поля. Их дополнительное слагаемое в функции ошибки модели приближённо равно выражению для изменения энергии после шага вариационной процедуры минимизации, начинающегося с орбиталей традиционного функционала. Эта регуляризация позволяет сделать обучаемый функционал более стабильным.

«В машинном обучении очень важно не использовать для тестирования нейронной сети данные, на которых она была обучена. Однако, в своей работе команда DeepMind допустила подобную ошибку: наиболее сложные димеры из набора BBB очень близки к системам с нецелым количеством электронов из обучающей выборки», — рассуждает инженер-исследователь Центра технологий материалов Сколтеха Александр Рябов.

»Если нейронные сети не могут понять, как прийти к правильным ответам, они пытаются их зазубрить. Поэтому не столь сложно «обучить» нейронную сеть, насколько сложно показать, что она действительно осознала физические законы, лежащие в основе вопроса, на который она отвечает. Так что тестировать нейронную сеть на данных, на которых она обучалась, — это всё равно как дать студенту на экзамене ту же задачу, которая разбиралась 5 минут назад на доске: мы узнаем, хорошая ли у него память, но вряд ли узнаем, понимает ли он предмет», — отмечает Михаил Медведев.

Этот недостаток не был очевидным, утверждают учёные. Системы в наборе BBB состоят из двух атомов, тогда как DM21 обучался на одноатомных системах с нецелым количеством электронов. Поэтому предвидеть то, что произошло, было очень непросто. Учёные поняли, что при расстояниях между атомами в тест-сете BBB, где обычные функционалы начинают испытывать проблемы, атомы уже практически не взаимодействуют между собой, и каждый атом в отдельности по сути становится тем самым «атомом с нецелым числом электронов», на которых проводилось обучение.

В тестовом наборе данных «BBB» представлены двухатомные системы с расстоянием между атомами от 0.5 до 10 Ангстрем (Å). На расстояниях больше ~6Å атомы практически перестают друг друга В тестовом наборе данных «BBB» представлены двухатомные системы с расстоянием между атомами от 0.5 до 10 Ангстрем (Å). На расстояниях больше ~6Å атомы практически перестают друг друга «чувствовать», и системы из BBB становятся эквивалентны атомам с нецелым количеством электронов, использованным для обучения DM21. Автор изображения: Михаил Медведев

Несмотря на отмеченный недостаток, DeepMind построили достаточно точный функционал на основе нейронной сети, хорошо работающий на различных химических задачах, в то время как его работа для систем с нецелым количеством электронов требует дополнительной проверки. Кроме того, команда проекта провела серьёзную работу по разработке универсального подхода к созданию функционалов DFT на основе нейросетей: их идея о включении физических ограничений в нейронную сеть с помощью обучающего набора, по мнению учёных, будет широко применяться в построении нейросетевых функционалов следующих поколений.

В исследовании также приняли Московский физико-технический институт и Московский государственный университет имени М.В. Ломоносова.