Большие данные большого коллайдера
Совсем скоро, 27 ноября, в Яндексе выступит с лекцией Гай Уилкинсон — руководитель LHCb, одного из экспериментов Европейского центра ядерных исследований (ЦЕРН). Он расскажет о том, как алгоритмы анализа больших объёмов данных используются в физике элементарных частиц. Записаться на лекцию или посмотреть её видеотрансляцию можно на странице мероприятия.Яндекс давно сотрудничает с ЦЕРНом — с 2011 года. Мы предоставляем ЦЕРНу серверные мощности, поиск по событиям эксперимента LHCb, а также технологию машинного обучения Матрикснет. Кроме того, недавно мы писали о планах по проведению нового эксперимента SHIP, для нужд которого Яндекс предоставит ЦЕРНу свои технологии обработки данных. Сегодня мы хотим чуть больше рассказать о том, как IT-компании могут помочь и уже помогают большой науке.Эксперимент — это один из основных способов познания окружающего мира. Человек ставит опыты и проверяет гипотезы на протяжении всей своей истории. Долгое время для этих опытов было достаточно простых инструментов — весов, линейки, секундомера, —, а для того, чтобы записать результаты наблюдений, хватало листка бумаги.Современные эксперименты требуют дорогостоящего оборудования. Для того чтобы построить Большой адронный коллайдер, одну из самых известных экспериментальных установок наших дней, потребовалось проложить под землей туннели, спроектировать средства разгона пучков протонов, собрать детекторы высокой точности. Учёные надеются, что опыты на коллайдере дадут ответы на вопросы о прошлом, настоящем и будущем Вселенной и помогут найти так называемую «новую физику» — физику за пределами Стандартной модели.Туннель Большого адронного коллайдера. Фото CERN.
Опыты на БАК проходят так: пучки протонов в кольце коллайдера разгоняют до скоростей, близких к скорости света, и сталкивают друг с другом. В результате этих столкновений происходят рождения и распады новых частиц, которые и являются предметом интереса учёных.Всё, что происходит внутри кольца БАК — рождение частиц или распад одних частиц на другие, — физики называют «событиями». События происходят в БАК очень часто — примерно 40 миллионов раз в секунду, —, а информация о каждом событии весит сотни килобайт. С точки зрения исследователя все события эксперимента делятся на важные (сигнальные) и неважные (фоновые). Сигнальными называют события, которые относятся непосредственно к проверяемой в ходе эксперимента гипотезе.Сигнальные события могут происходить очень редко — примерно одно на сотни миллионов или даже реже, — и важно ловить их в огромном потоке необработанных (сырых) данных. Другими словами — необходимо уметь правильно обрабатывать эти данные. Таким образом, для успеха современного эксперимента необходимо не только оборудование, но и алгоритмы обработки данных.Совокупность всей информации в интернете — это тоже «сырые данные», которые нужно обработать, чтобы, к примеру, выдать релевантный ответ на поисковый запрос. Поэтому Яндекс как поисковая компания развивает алгоритмы анализа данных. Кроме того, у Яндекса достаточно вычислительных мощностей для того, чтобы обрабатывать данные быстро. Всё это можно использовать и в ЦЕРНе для обработки данных физических экспериментов.Наши технологии используются в ЦЕРНе для настройки классификатора — программы, которая помогает отделить сигнальные события эксперимента от фоновых. (Подробнее о том, как создаются и работают классификаторы, вы можете узнать из статьи в нашем техноблоге на «Хабрахабре».) Кроме того, Яндекс разрабатывает для ЦЕРНа инфраструктуру автоматизации вычислительных экспериментов. Такая инфраструктура позволяет большой распределённой команде учёных совместно работать над анализом данных с использованием сложных методов и нетривиальных критериев оценки качества. Автоматизация совместной работы позволяет получать более достоверные и воспроизводимые результаты за меньшее время.Технологии интернет-компаний, связанные с обработкой больших данных, могут использоваться не только в физике. В частности, Яндекс предоставляет свои технологии для обработки сейсмических и геофизических данных, а также для других областей, не связанных с поиском в интернете. Однако самые впечатляющие проекты, связанные с обработкой «больших данных», скорее всего, впереди. Речь идёт не только о науке, но и о повседневной жизни. «Большие данные» — это и информация о покупках в интернет-магазинах, и списки действий в социальных сетях, и сведения с датчиков пульса и шагомеров, которые носят на руке миллионы людей. Вопрос только в том, какие вопросы мы задаём себе, глядя на эти данные, и как правильно распорядиться полученными ответами.
© Яндекс