В Google AI показали оцифровку запахов при помощи молекулярных карт
Специалисты подразделения Google AI Research рассказали о способе оцифровки запахов путём создания молекулярных карт. Они представили «основную карту запаха» (POM), которая даёт векторное представление каждой пахучей молекулы в пространстве.
Слева: пример карты цветов, в которой координаты могут быть напрямую переведены в значения оттенка и насыщенности. Справа: карта основных запахов, где отдельные молекулы соответствуют точкам, а расположение этих точек отражает характер их запаха
Запахи производятся молекулами, которые распространяются по воздуху. Потенциально миллиарды молекул могут производить запах, поэтому выяснить, какие из них отвечают за определённые ароматы, сложно. Эту проблему могут решить молекулярные карты. Их составление осложняется отсутствием хороших обонятельных «камер» и обонятельных «мониторов».
В 2019 году в Google AI разработали модель графовой нейронной сети (GNN), которая начала исследовать тысячи примеров различных молекул в сочетании с названиями запахов, которые они вызывают, например, «мясной», «цветочный» или «мятный». Это требовалось, чтобы изучить связь между структурой молекулы и вероятностью того, что она будет иметь определённую метку запаха. Пространство вложения этой модели содержит представление каждой молекулы в виде вектора фиксированной длины, описывающего её с точки зрения запаха, так же как значение RGB визуального стимула, которое описывает цвет.
В POM представили пары воспринимаемых сходным образом запахов в виде близлежащих точек похожего оттенка. Исследователи демонстрируют, что карту можно использовать для перспективного предсказания свойств запаха молекул, понимания этих свойств с точки зрения фундаментальной биологии и решения насущных глобальных проблем здравоохранения. Карта уже прошла ряд тестов.
Тест 1. Испытание модели с помощью молекул, которые не соотносились с запахами
Исследователи попытались выяснить, может ли базовая модель правильно предсказывать запахи новых молекул, которые не использовались при её разработке.
Прогнозы, сделанные двумя моделями: моделью GNN (оранжевый) и базовой моделью (синий), по сравнению со средними оценками, данными людьми (зеленый). Каждая полоса соответствует одной метке символа запаха. Пятёрка лучших обозначена цветом; модель GNN правильно определяет четыре из пяти лучших с высокой степенью достоверности по сравнению только с тремя из пяти с низкой степенью достоверности для базовой модели
Чтобы проверить это, они собрали самый большой набор данных с описаниями запахов для новых молекул. Исследователи Центра Монелла попросили людей оценивать запах каждой из 400 молекул, используя 55 различных ярлыков (например, «мятный»), которые были выбраны так, чтобы охватить пространство возможных запахов, не будучи ни избыточными, ни слишком редкими. В процессе выяснилось, что участники эксперимента дают разные характеристики одной и той же молекулы. Однако выяснилось, что РОМ даёт прогноз, который ближе всего к консенсусу внутри группы. Модель также продемонстрировала свои возможности в альтернативных задачах человеческого обоняния, таких как определение силы запаха или сходства разных запахов. Таким образом, с её помощью должно быть возможно предсказать запаховые качества любой из миллиардов пока неизвестных пахучих молекул.
В отличие от альтернативных эталонных моделей GNN превосходит медианного эксперта-человека при прогнозировании среднего рейтинга запаха
Тест 2: Связь качества запаха с фундаментальной биологией
Исследователи попытались выяснить, может ли карта запахов также предсказывать восприятие запахов у животных и лежащую в его основе активность мозга. Выяснилось, что она успешно предсказывает активность сенсорных рецепторов, нейронов и поведение у большинства животных, которых изучали нейробиологи, включая мышей и насекомых.
Исследователи собрали данные о метаболических реакциях у десятков видов и обнаружили, что карта очень точно соответствует самому процессу метаболизма. Когда две молекулы далеко друг от друга по запаху, согласно карте, требуется длинная серия метаболических реакций, чтобы превратить одну в другую. Даже длинные пути реакции, состоящие из множества шагов, плавно прослеживаются на карте. А молекулы, которые встречаются в одних и тех же природных веществах (например, в апельсине), часто очень плотно сгруппированы на карте. POM показывает, что обоняние связано с нашим естественным миром через структуру метаболизма и, что удивительно, отражает фундаментальные принципы биологии.
Слева: объединённые метаболические реакции, обнаруженные у 17 видов в 4 царствах. Каждый кружок представляет собой отдельную молекулу метаболита, а стрелка указывает на наличие метаболической реакции, которая превращает одну молекулу в другую. Одни метаболиты имеют запах (цвет), другие — нет (серый), а метаболическое расстояние между двумя пахучими метаболитами — это минимальное количество реакций, необходимых для превращения одного в другое. На пути, выделенном жирным шрифтом, расстояние равно 3. Справа: метаболическое расстояние сильно коррелировало с расстоянием в POM, оценкой различия воспринимаемых запахов
Тест 3: Расширение модели для решения глобальной проблемы здравоохранения
Карта запахов, тесно связанная с восприятием и биологией животного царства, открывает новые возможности. Поскольку POM можно использовать для прогнозирования обоняния животных в целом, её решили переобучить для решения одной из самых больших проблем человечества — распространения болезней, передающихся комарами и клещами.
Модель обучили на оцифрованных данных Министерства сельского хозяйства США о репеллентности тысяч молекул. Также её обучили для прогнозирования репеллентности и улучшения прогнозов анализа при выполнении вычислительных скринингов для потенциальных репеллентов
Первоначальную модель улучшили, «скормив» ей набор экспериментов, проведенных Министерством сельского хозяйства США на людях-добровольцах, а также новый набор данных, собранный в TropIQ с использованием высокопроизводительного лабораторного анализа комаров. Оба набора данных измеряют, насколько хорошо конкретная молекула отпугивает комаров. В совокупности получившаяся модель может предсказать репеллентность почти любой молекулы против комаров.
Многие молекулы, демонстрирующие репеллентность в отношении комаров в лабораторных исследованиях, также демонстрировали репеллентность при применении к людям. Некоторые из них показали большую эффективность, чем самые распространенные репелленты, используемые сегодня (ДЭТА и пикаридин)
Фильтр проверили экспериментально, используя совершенно новые молекулы, и обнаружили более дюжины из них с репеллентностью не ниже ДЭТА, активного ингредиента большинства репеллентов от насекомых. Менее дорогие, долговечные и более безопасные репелленты, к примеру, помогут снизить заболеваемость малярией.