Машинное обучение и главные вопросы мира, вселенной и всего такого
Этот пост написан по мотивам эпизода подкаста «Проветримся!». В нём мы говорили с Андреем Устюжаниным, руководителем лаборатории машинного обучения «Лямбда» в ВШЭ.
Сотрудники лаборатории «Лямбда» применяли машинное обучение к физическим задачам задолго до того, как это стало мейнстримом. Первые совместные проекты начались ещё в 2011 году, а спустя год сотрудничество с ЦЕРНом начал «Яндекс». Компания сначала подключилась к эксперименту LHCb (так называется самый маленький детектор Большого адронного коллайдера, который исследует асимметрию материи и антиматерии, в 2015 году с его помощью открыли пентакварки). Основным фокусом совместной лаборатории ВШЭ и Яндекса стало применение методов машинного обучения в решении фундаментальных задач естественных наук. Начать решили с физики и не прогадали, — ИИ оказался там чрезвычайно полезен. Сейчас сотрудники «Лямбды» работают сразу с несколькими физическими экспериментами: их методы применяются в анализе данных телескопа Ферми, а также в проекте создания нового поколения инструментов для исследования космоса — Cherenkov detector, или Cherenkov telescope array.
Кроме того, стало понятно, что если ты умеешь применять машинное обучение в физике, то до химии или биологии тебе буквально рукой подать. Так, в 2019 году «Лямбда» вела совместный проект с лабораторией популяционной геномики ВШЭ, ранее — с нейробиологическим центром, обрабатывая данные, полученные с помощью энцефалограммы мозга, и изучая особенности эмоционального состояния человека.
Наука о данных и Большой Адронный Коллайдер
Эксперименты в ЦЕРНе — самый крупный проект в резюме ребят из «Лямбды», а может и вообще в истории науки. Главной задачей, для которой построили БАК, было найти бозона Хиггса — частицу, отвечающую за гравитационное взаимодействие. Британский физик Питер Хиггс теоретически обосновал существование бозона, который назвали в его честь, ещё в шестидесятые. Проблема была в том, что обнаружить такой бозон в ходе эксперимента. Собственно, описать подобный эксперимент значительно проще, чем поставить: идея в том, чтобы разогнать и столкнуть пучки протонов. При столкновении лоб в лоб на околосветовых скоростях протоны разваливаются на кучу частиц. Экспериментатору остаётся «ловить» нужные частицы и пытаться измерить их свойства. Вокруг точек столкновения строятся сложные чувствительные элементы, чем-то похожие на матрицу современных фотоаппаратов, только реагируют они на единичные элементарные частицы, и пытаются реконструировать объёмную картинку столкновения.
Помимо чисто технических проблем с постановкой такого эксперимента возникают и вычислительные трудности. Детекторы генерируют очень много данных. ОЧЕНЬ МНОГО. Чтобы хранить что-то потенциально новое и интересное и не тратить время на частицы, которые детектор видел миллионы раз, нужна система быстрой фильтрации. Она использует машинное обучение. Однако, после того, как данные получены, их надо обработать: восстановить траекторию движения, смоделировать событие, породившее зарегистрированную частицу. Сейчас машинное обучение используется практически на каждом этапе работы с информацией в БАК — от её детекции до фильтрации, переработки и анализа.
Как сделать научное закрытие?
Академику Капице приписывают афоризм: «когда теория совпадает с экспериментом это уже не открытие, а закрытие». В некотором смысле, БАК занимается именно «закрытиями». У исследователей есть какая-то модель того, что они ищут, какое-то теоретическое описание процессов, которые эксперимент пытается воспроизвести. Иногда, как в случае с бозоном Хиггса, теория утверждает, что какой-то объект существует, но ником раньше зарегистрировать его не удавалось. В других исследованиях, существование объекта установлено, но нужно измерить его свойства, которые ранее никто не измерял. За годы работы БАК практически все поставленные эксперименты легли в рамки стандартной модели. Это само по себе удивительно и в каком-то смысле является отдельным открытием: стандартная модель, сформулированная ещё в семидесятых годах двадцатого века, внезапно является достаточно точным описанием микромира.
Когда речь идёт о быстрой обработке огромного потока данных, который нужно соотнести с некоторым модельным описанием, машинное обучение оказывается незаменимым. Детекторы, расположенные в БАКе, собирают информацию о происходящем при столкновении частиц, а наука о данных позволяет выделить из большого облака частицы, которые кажутся наиболее интересными, проанализировать полученную информацию и рассчитать достоверность проверяемой гипотезы. На выходе можно получить несколько разных ответов:
- Это что-то, что мы уже видели, но не то, что мы искали. Суровые будни работника коллайдера продолжаются;
- Это что-то новенькое, но не то, что мы искали. Давайте посмотрим на это событие внимательнее;
- Это то, что мы искали! Ура! Закрытие!
Citizen science
Часто самая сложная часть задачи — верно подобрать стартовые значение параметров, которые позволили бы симулировать происходящее при эксперименте. Если модель правильно инициализировать, то она обучится и позволит улучшить итоговую точность расчётов. Если начальные параметры подобраны плохо, то от машинного обучения толку не будет. Такого рода проблемы регулярно возникают в задачах квантовой физики, к примеру, если хочется моделировать кубит квантового компьютера.
Я не верил в существовании интуиции, пока не попал в Хельсинки на квантовый Game Jam. Само мероприятие достойно отдельного поста, суть его в том, что несколько команд разработчиков за выходные собирают прототипы игр с квантовыми эффектами, используя для этого, к примеру, API квантового компьютера от IBM. Одна из организаторов мероприятия, профессор Сабрина Манискалко рассказала, чем игры с квантовыми эффектами могут быть полезны современной науке. Оказалось, люди методом проб и ошибок неплохо подбирают примерные параметры инициализации квантовой системы, а модели машинного обучения могут потом улучшить это решение. Люди сами при этом могу не вдаваться в детали квантовой системы, поведение которой для них симулирует игра. Они просто пытаются закинуть овощ в корзину или попасть в мишень, просто овощи и стрелы на экране мобильного ведут себя странновато.
Это один из примеров Citizen science. Это движение особенно популярно в Скандинавии. Суть его в том, что раз ты, учёный, живёшь на деньги налогоплательщиков, так что неплохо бы объяснять гражданам (желательно на доходчивых примерах), чем именно ты занимаешься, и зачем это нужно. Если ты можем привлекать людей к своей работе, — это вообще прекрасно. Ребята «Лямбды» тоже популяризируют свою работу: ведут инстаграм, адаптируют свою работу для понимания студентов, которые только начинают разбираться в машинном обучении и могут применить его к задачам из физики, астрофизики или других наук.
Жизнь после коллайдера
Машинное обучение приносит пользу учёным не только в ЦЕРНе. К примеру, с его помощью можно искать экзопланеты: когда планета пересекает прямую, соединяющую звезду, вокруг которой она вращается, и землю, с которой мы на эту звезду смотрим, то светимость звезды немного снижается. Разрешающей способности наших телескопов не хватит, чтобы «увидеть» планету, но вот снижение яркости той или иной звезды мы заметить можем. Если прогнать через алгоритм анализа данных сотни часов наших наблюдений за звёздным небом, то по периодическому снижению светимости, алгоритм найдёт звёзды, вокруг которых вращаются планеты.
От задач «планетарного» масштаба можно перейти к масштабу «галактическому». Дело в том, что вселенная расширяется, причём с ускорением. Для того, чтобы такое поведение вселенной сходилось с имеющимися у нас представлениями, о том, как устроен мир, где-то во вселенной должен быть спрятан большой запас массы. Именно эту не найденную материю и называется тёмной. Причём, по расчётам к данному моменту человечество изучило информацию только о 5% массы Вселенной.
Мы видим, что звёзды на периферии вращаются примерно с той же угловой скоростью, что и звёзды в центре галактик, а это противоречит тому, что мы знаем о физике. Можно представить себе видимые звёзды как шоколадные кусочки в печенье. Есть огромное печенье, там мука, тесто, сахар и прочее, всё это вращается, и мы видим только шоколадные кусочки, но теста мы не видим. Тёмная материя — это какая-то странная субстанция, которая просто гравитационно держит звёзды, не даёт им отставать от всего остального вращения галактики.
Вопрос заключается в том, сколько тёмной материи в каких областях накоплено и насколько структура галактики соответствует текущему представлению о структуре Вселенной. Сейчас ребята используют алгоритмы машинного обучения, чтобы оценить массы скопления галактик. Если мы правильно оценим распределение массы во Вселенной, то сможем лучше понять, что происходило в первые мгновения после Большого взрыва. Возможно, это даст нам подсказку, что же такое тёмная материя, и где её искать.
Проветримся! — это подкаст для технооптимистов, в котором профессионалы делятся своим личным опытом. Квантовые вычисления, генетика, IT в регионах, искусственный интеллект. В общем, присоединяйтесь:
КУРСЫ