Как Яндекс помогает астрофизикам изучать вспышки на красных карликах
Красные карлики — наиболее распространённый тип звёзд в нашей Галактике. Это не самые яркие объекты: они меньше нашего Солнца и светят слабее. Однако большинство планетных систем обнаружено именно вокруг звёзд этого класса.
Благодаря многолетним исследованиям у астрофизиков накопилось множество данных о поведении красных карликов. Каталоги современных обзоров неба содержат десятки миллиардов отдельных наблюдений для сотен миллионов таких звёзд. Традиционные методы обработки данных больше не справляются с такими объёмами, поэтому для их анализа учёные всё чаще используют методы машинного обучения.
В этом году мы запустили совместный проект со специалистами Государственного астрономического института имени П.К. Штернберга МГУ, Факультета Космических Исследований МГУ и Университета Карнеги‑Меллона, которые работают в международной команде SNAD. Центр технологий для общества Yandex Cloud помог учёным выстроить пайплайн машинного обучения для поиска звёздных вспышек с помощью облачного сервиса Yandex DataSphere и в итоге создать самую крупную выборку вспышек на красных карликах по данным наземных наблюдений.
Совместно с исследователями Анастасией Лаврухиной, Борисом Демковым, Константином Маланчевым @hombitи Марией Пружинской расскажем, как именно машинное обучение помогает астрофизикам, и какие новые научные прорывы это может обещать.
Почему красные карлики так интересны астрофизикам
Астрономы делят все звёзды во Вселенной на классы, от больших и горячих, до маленьких и холодных. Говоря по‑научному, звёзды распределяются по спектральному классу и классу светимости — энергии, излучаемой в единицу времени. Это хорошо визуализируется с помощью так называемой диаграммы Герцшпрунга — Рассела.
Главная последовательность, диагональная линия на диаграмме, содержит звёзды на наиболее продолжительной стадии их эволюции — термоядерного горения водорода. Красные карлики расположены в области, где температура составляет ~2700–3500K, а светимость — 1/10–1/1000 от Солнечной
Для сравнения, Солнце всего лишь желтый карлик — это не самая массивная и горячая звезда в Галактике, есть более крупные и более горячие. Но самый распространённый тип звёзд среди всех изученных — именно красные карлики. Хотя точные данные могут варьироваться от исследования к исследованию, считается, что количество красных карликов значительно превышает количество звёзд других типов.
Красные карлики также считаются долгожителями: они сжигают своё водородное топливо десятки миллиардов лет. Эти и другие свойства делают их очень интересными для исследований сразу с нескольких точек зрения.
Изучение фундаментальных астрофизических процессов
Такие часто встречающиеся звёзды могут быть хорошей иллюстрацией распространённых процессов, которые вызывают интерес учёных. К ним можно отнести вспышки — резкое увеличение светимости звёзд в несколько раз, которое сопровождается изменением спектра. Строение красных карликов и их вращение приводит к частым магнитным пересоединениям — процессам, в которых магнитная энергия быстро превращается в кинетическую. Это вызывает яркие вспышки, наблюдаемые в широком диапазоне электромагнитного излучения, от рентгеновских фотонов до визуального излучения и до радиодиапазона.
Такие явления могут многое сказать о магнитной активности астрономических объектов, в том числе и Солнца. А поскольку солнечные вспышки влияют на магнитное поле Земли, астрофизикам хочется точнее их предсказывать. Сведения о красных карликах помогают рассмотреть более обширную выборку вспыхивающих звёзд и узнать больше о том, как и где возникают вспышки.
На более фундаментальном уровне изучение вспышек помогает разобраться в физике плазмы, узнать больше о строении звёзд, их развитии, эволюции магнитного поля и так далее.
Поиск внеземной жизни
Вокруг красных карликов вращается значительная доля открытых экзопланет — планет, обращающихся вокруг других звёзд вне Солнечной системы.
Гистограмма показывает количество открытых планет в зависимости от массы звезды. Красная линия отмечает границу красных карликов, всё, что левее неё, — экзопланеты у красных карликов.
Небольшая яркость красных карликов позволяет открывать и изучать экзопланеты, всеми доступными астрономам способами, включая прямое наблюдение.
На планетах вблизи красных карликов зарождение и развитие жизни может быть затруднено из‑за высокой вспышечной активности. При этом есть два условия, которые делают такие экзопланеты наиболее вероятными кандидатами для обнаружения жизни за пределами Солнечной системы:
долгий срок жизни красных карликов;
большое количество планет на орбитах, где условия наиболее благоприятны для жизни.
В таких условиях у жизни будет достаточно времени на развитие.
Прикладные исследования
Исследования красных карликов помогают создать более точные модели предсказаний вспышек на нашей собственной звезде — Солнце. Это важная прикладная задача для нашей цивилизации, пронизанной электроникой. Солнечные вспышки могут угрожать спутникам связи, навигации, космическим научным приборам, космонавтам на орбите, а в будущем — и в дальнем космосе.
Не менее интересные задачи связаны с влиянием солнечной активности на глобальный климат на Земле, сейчас и в прошлом. Так, выяснилось, что у ближайшей к Солнцу звезды Проксимы Центавра обнаружен цикл активности в 442 дня, аналогичный 11-летнему циклу Солнца.
Удобство наблюдений за красными карликами позволяет проверять многочисленные гипотезы учёных разными способами. Например, для поиска экзопланет активно используется метод транзита: когда планета проходит по диску звезды, учёные могут заметить потускнение красного карлика.
Потускнение звезды можно заметить по изменению блеска — количества энергии, которое приходит на Землю в единицу времени на единицу площади детектора
Какие данные собирают астрономы и как их анализируют
Один из типов данных, которые анализируют астрономы, — это кривые блеска. Их получают путём наблюдения за изменениями яркости небесных объектов с течением времени. Для этого используются телескопы, оснащённые чувствительными камерами, которые фиксируют количество света, приходящего от объекта.
На основе большого количества таких измерений строится график изменения яркости в зависимости от времени. Можно сказать, это «кардиограмма» небесного светила. Но в отличие от врачей астрономы не всегда могут вести наблюдения в одинаковых условиях и с равными интервалами, что создаёт дополнительные сложности при анализе полученных данных. Кривая блеска помогает астрономам понять, как и почему изменяется светимость звезды, что может указывать на различные процессы, происходящие на ней или вокруг неё, например, вспышки, затмения или пульсации.
Кривая блеска
Современные астрономы оперируют огромными массивами данных, полученными с помощью наземных и космических телескопов, наблюдающих миллиарды звёзд и галактик. Обработка и анализ этих данных требуют мощных вычислительных ресурсов и алгоритмов, чтобы распознавать закономерности и делать новые открытия.
Например, размер архива изображений, полученных с космического телескопа TESS (Transiting Exoplanet Survey Satellite), на текущий момент составляет порядка 250 терабайт, что эквивалентно стримингу 167 000 фильмов в разрешении full HD.
Наземные телескопы по‑прежнему играют важную роль в наблюдениях. Это связано с тем, что размеры зеркал космических телескопов ограничены грузоподъёмностью ракет‑носителей, а также требованиями к жёсткости и тепловой стабильности. На Земле таких ограничений нет, и можно строить телескопы с большими зеркалами, которые позволяют заглянуть в космос глубже.
Отдельный интерес представляют так называемые обзорные телескопы. В отличие от обычных телескопов, которые фокусируются на конкретных объектах, обзорные телескопы охватывают широкие области и регулярно сканируют небо, собирая данные о множестве объектов одновременно. Такой способ наблюдения позволяет обнаруживать редкие события (например, вспышки сверхновых), а также наблюдать большое количество переменных звёзд.
Один из таких телескопов — Zwicky Transient Facility (ZTF), он установлен в обсерватории Паломар в Калифорнии. Этот телескоп оснащён широкоугольной камерой, которая позволяет ему наблюдать всё северное полушарие каждые три ночи. Каждую ночь ZTF собирает до нескольких терабайт информации, фиксируя сотни тысяч объектов и их изменения. Благодаря этому телескопу уже обнаружены тысячи вспышек сверхновых, новые астероиды и кометы, а также множество других транзиентных явлений, то есть явлений с временными вспышками на небе.
Поскольку астрономия вступила в эпоху больших данных, где современные телескопы генерируют огромные объёмы информации, на помощь астрономам приходят методы машинного обучения. Они помогают решать задачи классификации объектов, например, переменных звёзд и галактик, а также задачи обнаружения редких астрономических событий или аномалий. В частности, для поиска вспышек часто используется изолирующий лес (isolation forest) — модель машинного обучения, предназначенная для поиска аномалий.
Как команда SNAD искала вспышки
В новой работе исследователи поставили себе задачу: найти не менее 1000 вспышек красных карликов в обзоре ZTF. Сложность в том, что невозможно быстро просмотреть все 100 млн предварительно отобранных кривых блеска на наличие вспышек. Поэтому учёные обратились к методам ML.
Как это часто бывает в фундаментальной науке, для обучения ML‑моделей было крайне мало данных. Было известно лишь 134 вспышки в данных ZTF, которые были найдены в предшествующей научной работе команды. Для обучения бинарного классификатора этого недостаточно. Поэтому учёные решили симулировать кривые блеска для вспышек — как положительного класса.
Поскольку космический телескоп TESS, занимающийся поиском экзопланет, в настоящий момент работает на орбите, то попутно он собирает кривые блеска ближайших к Солнцу звёзд и видит вспышки на красных карликах. Эти кривые блеска исследователи взяли для симуляции вспышек на ZTF.
Нам было важно что TESS «видит» разные по форме вспышки, и наш классификатор тоже должен уметь правильно классифицировать большинство возможных форм вспышек. В симуляции мы учли ошибки сигнала, которые обычно генерирует аппаратура ZTF.
ГАИШ МГУ
Чтобы избежать проблемы дисбаланса классов, в обучающей выборке было примерно половина сгенерированных кривых блеска «вспышек» и не‑вспышек. Обучающий датасет насчитывал около 1 млн записей.
Предполагалось, что полученные результаты будут верифицироваться экспертами, поэтому в первую очередь исследователи оптимизировали метрики, связанные с precision.
После обучения первого классификатора учёные получили примерно 6% настоящих вспышек в предсказанных моделью кандидатах. Такая конверсия не устраивала команду, поскольку дальше потребовалось бы примерно 1000 человеко‑часов, чтобы найти 1000 вспышек. Как показал анализ, низкая конверсия была обусловлена несколькими причинами.
Астероиды. Когда астероид Солнечной системы пролетает рядом с проекцией звезды на небесную сферу или когда орбита астероида пересекает направление на наблюдаемую звезду, отражённый свет астероида суммируется со световым потоком от звезды. На кривой блеска это событие выглядит как вспышка.
Среди 51 тыс. кандидатов после первого классификатора примерно 15% были астероидами. Все они, к сожалению, оказались уже известными науке. Но по мнению исследователей, в этих данных есть и не открытые астероиды, поэтому данные ZTF и полученный классификатор, возможно, смогут помочь и тем, кто мечтает открыть новый астероид.
Соединение астероида Солнечной системы и наблюдаемого красного карлика.
Периодичность светимости звезды. Поток излучения от звезды не константа, он меняется, иногда с таким периодом и амплитудой, что это напоминает вспышку.
Это переменная звезда. Отдельные участки кривой блеска классификатор помечает вспышкой.
Артефакты приёмной аппаратуры и телескопа. Cложные научные инструменты в течение длительного срока работы периодически сбоят. Мы наблюдали примерно 20% изображений с расфокусировкой телескопа и ещё примерно 16% случаев артефактов ПЗС‑матрицы.
Хотя на графике кажется, что есть три вспышки, анализ исходного изображения, показывает, что это артефакт ПЗС-матрицы.
Прочие случаи. Сюда относятся пролёты спутников, космические лучи, облака.
Чтобы увеличить конверсию классификатора, учёные удалили записи об известных астероидах и добавили ещё один классификатор (логистическую регрессию), который обучался на метаданных кривых блеска. По техническим причинам эти метаданные нельзя было добавить на вход первого классификатора. В результате получился постфильтр, который позволил увеличить конверсию полезного сигнала до 40%.
В данной работе мы не использовали трансформеры, а нейронные сети были использованы только на этапе предобработки данных для машинного обучения. Всё решили классические алгоритмы ML: Random Forest и CatBoost, а в качестве постфильтра замечена log regression.
Независимый исследователь
Используемый классификатор учится на астрофизических и ROCKET/PCA‑признаках:
астрофизические признаки рассчитываются по аналитическим формулам с использованием данных кривых блеска.
ROCKET раскладывает временной ряд на 10 тыс. признаков, используя свёртку, а потом исследователи с использованием PCA сворачивают их до 47 признаков.
Часть нагрузки решили перенести в облако, поскольку итоговый дата‑пайплайн оказался требователен к вычислительным ресурсам. С его построением помог Центр технологий для общества Yandex Cloud, который создан для реализации социально-значимых инициатив с помощью решений и сервисов Яндекса. Облачная платформа в таких проектах выступает технологическим партнёром: анализирует потенциал реализации, определяет ИТ-архитектуру проекта, бесплатно предоставляет доступ к технологиям и консультации экспертов.
Общая схема решения выглядела так:
Эксперты центра перенесли в Yandex Cloud всё, что связано с машинным обучением и извлечением признаков, поскольку это вычислительно объёмные задачи.
Все данные хранятся в S3-хранилище команды SNAD и поступают в Yandex DataSphere через endpoint.
Из S3 отдельно берётся симуляция положительного класса и отдельно — негативный класс, то есть данные, которые не содержат значимой переменности (вспышек нет). Затем запускается предобработка в облаке, для этого используются Jupyter Notebooks. Таким образом уже внутри DataSphere формируется датасет для обучения.
Для предсказания на реальных данных берутся кривые с переменностью, которые также поступают в обученную модель из S3.
На этапе постфильтра с помощью HTTP‑запросов получены метаданные из нескольких источников: сервисов ZTF, SNAD, IMCCE и других астрономических ресурсов. Здесь как раз используется логистическая регрессия.
В результате исследователи отсмотрели чуть больше 2 тыс. кандидатов и получили выборку из 1196 вспышек в данных ZTF.
Вот некоторые из вспышек.
Слева мы видим кривую блеска вспышки на красном карлике. Каждая точка — это наблюдение ZTF. В спокойном состоянии блеск красного карлика не меняется — мы видим плато на кривой блеска. Во время вспышки заметно резкое увеличение блеска звезды, которое примерно через полчаса спадает по экспоненте до исходного состояния. Вспышки могут иметь классическую форму с одним пиком, а могут выглядеть и более сложным образом. Возможно, это объясняется наложением нескольких вспышек друг на друга. Справа показаны изображения с телескопа ZTF, соответствующие одному из наблюдений.
ГАИШ МГУ
О результатах
Помимо основной задачи исследования — получить каталог вспыхивающих красных карликов по данным ZTF — с помощью нашего инструмента учёные смогли решить попутные задачи:
продемонстрировали возможность использовать данные космических миссий для генерации обучающего датасета для наземных телескопов;
попробовали несколько подходов к процессу обучения, в том числе протестировали несколько ML‑моделей и выбрали подход и модели, которые решают поставленную задачу;
собрали датасет, который можно использовать для обучения других эффективных моделей;
нашли редкую переменную звезду.
Из сотни миллионов кандидатов мы выбрали лишь 0.02% с лучшими скорами. Эти 2000 объектов мы смогли верифицировать вручную и больше половины оказались звездными вспышками, которые мы искали. Сколько же ещё интересных объектов и открытий скрыто в этом огромном массиве данных!
Университет Карнеги—Меллона