В «Сколтехе» с помощью высокопроизводительных вычислений создали ранее неизвестные материалы

Интеграция

28 Июня 2021 13:0728 Июн 2021 13:07 |
Поделиться

Вот уже на протяжении десятилетий высокопроизводительные вычисления (HPC) вносят огромный вклад в развитие науки, промышленности, национальной и региональной безопасности и повышение качества жизни людей. Но если раньше область применения HPC нередко ограничивалась правительственными проектами и академическими исследованиями, то сегодня трансформация технологий позволяет задействовать HPC для решения весьма широкого круга прикладных и научных задач. Рассказываем, как в Лаборатории компьютерного дизайна материалов в «Сколтехе» вычислительный кластер стал основным инструментом исследователей и позволил добиться важных практических результатов.

Рынок высокопроизводительных вычислений (HPC)

Прорыв в вычислительных системах и микроэлектронике позволил преодолеть сложные проблемы и препятствия в решении задач моделирования, расширить понимание мира и вселенной. Суперкомпьютеры и вычислительные кластеры теперь используются повсюду — от проектирования автомобилей и самолетов, создания новых лекарств и материалов, разведки нефтяных месторождений, оценки финансовых рисков, секвенирования генома до прогнозирования погоды, изменения климата и важных научных исследований. Это большой и растущий рынок.

По прогнозу MarketsandMarkets, объем мирового рынка высокопроизводительных вычислений вырастет в период с 2020 по 2025 годы с $37,8 до $49,4 млрд при среднегодовом темпе роста 5,5%. Спрос на HPC обусловлен растущей потребностью в быстрой, эффективной и точной обработке данных в приложениях для таких отраслей как финансы, медицина, научные исследования, нефтегазовая отрасль (сейсморазведка), госсектор и оборона, а также внедрением высокопроизводительных вычислений в облаке.

По прогнозу Hyperion Research, только на серверные системы HPC для исследовательских проектов в 2024 году будет потрачено 7,8 млрд долларов. Примерно половина таких систем будет предназначена для решения задач в области искусственного интеллекта (ИИ), а другая — использоваться для интенсивной обработки данных и аналитики.

Интерес к системам высокопроизводительных вычислений начал быстро расти в 2006 г., когда на первый план вышли Hadoop, большие данные и интеллектуальный анализ данных. По мере расширения использования ИИ и машинного обучения для анализа данных становились востребованными все более мощные вычислительные системы.

В настоящее время все основные производители компьютеров разрабатывают оборудование для высокопроизводительных вычислений, и большинство провайдеров публичных облаков предлагают возможности HPС в виде сервиса. Однако, хотя сегодня доступны готовые решения для высокопроизводительных вычислений, нередко создаются кастомизированные системы, адаптированные к конкретным задачам и потребностям.

Системы HPC специально разрабатываются и оптимизируются для требовательных в вычислительной мощности и пропускной способности научных и инженерных приложений. Именно такие системы стали основным инструментом исследователей из «Лаборатории компьютерного дизайна материалов» в «Сколтехе». Распараллеливание задач между вычислительными ядрами позволяет повысить скорость расчетов в сотни и тысячи раз.

Применение HPC для компьютерного дизайна материалов

Сколковский институт науки и технологий («Сколтех») — негосударственное научно-образовательное учреждение, созданное при участии Массачусетского технологического института (МТИ). Институт развивает научные знания и содействует технологическим инновациям для решения различных проблем, опираясь на опыт российских и международных образовательных и исследовательских институтов.

Лаборатория компьютерного дизайна материалов под руководством профессора Артема Оганова открылась в «Сколтехе» в 2015 г. В 2019 г. она выиграла грант Российского научного фонда, с софинансированием от «Газпромнефть НТЦ». Такое партнерство не случайно. Компания «Газпромнефть» активно работает с новыми материалами. Лаборатория объединила как исследователей из «Сколтеха» под руководством профессора Артема Оганова, так и специалистов из Института физики материалов РАН им. М.Н. Михеева УрО РАН в Екатеринбурге под руководством профессора Владимира Анисимова. В 2020 г. партнером лаборатории стала известная компания, один из мировых лидеров в наукоемких технологиях.

Лаборатория разрабатывает новые методы компьютерного дизайна материалов и применяет их к широкому кругу научных проблем. Это революционная область науки, требующая применения мощных суперкомпьютеров и вычислительных кластеров.

Целый ряд новых материалов, включая сверхтвердые (например, борид вольфрама) и сверхпроводящие (супергидриды металлов) были получены после теоретического предсказания в Лаборатории компьютерного дизайна материалов

Компьютерный дизайн новых материалов позволяет с помощью предсказательных вычислительных методов открывать ранее неизвестные материалы с суперсвойствами. Данное направление появилось примерно в 2010 г., и сегодня комбинация расчетов и искусственного интеллекта дает впечатляющие результаты. Благодаря использованию высокопроизводительных вычислительных систем задачи получения новых материалов, ранее требовавшие проведения огромного количества экспериментов, теперь можно решать гораздо быстрее.

В компьютерном дизайне материалов применяются разнообразные современные подходы к моделированию структуры, электронных свойств и неравновесной динамики в технологически важных материалах и биосистемах. В частности, в лаборатории работают над созданием прорывных методов предсказания свойств новых необычных материалов, включая сверхтвердые, магнитные, термоэлектрические и сверхпроводящие. Такого рода материалы нужны для большего спектра приложений — от бурения до технологий в области энергетики, транспорта и т. д.

Метод USPEX

Разработанный Огановым и его учениками метод компьютерного предсказания кристаллических структур USPEX позволяет предсказывать кристаллическую структуру при произвольных P-T условиях, исходя из знания только химического состава материала. Задача предсказания кристаллической структуры — центральная для теоретической кристаллохимии, и на протяжении долгого времени она считалась нерешаемой.

Помимо структур кристаллов, USPEX дает возможность предсказывать структуры низкоразмерных материалов: наночастиц, полимеров, поверхностей, межзеренных границ и 2D-кристаллов. Он также может эффективно работать с молекулярными кристаллами, предсказывать составы стабильных соединений и соответствующие им кристаллические структуры, проводить расчеты с использованием различной информации о системе.

Кластер «Олег»

Для решения подобных задач в лаборатории построили вычислительный кластер, который в честь киевского князя Вещего Олега, нарекли именем «Олег». Название кластера совпало с именем Олега Панарина, технического лидера HPC Team «Сколтеха», системного архитектора и руководителя проекта по созданию этого кластера. Это 60-узловая система. В качестве вычислительных узлов кластера используются серверы Lenovo ThinkSystem SD530.

Lenovo ThinkSystem SD530 содержит до двух процессоров Intel Xeon (на узел), ОЗУ емкостью до 2,75TB (при использовании Intel Optane DC Persistent Memory), до 24 накопителей SFF SAS\SATA отсеков Hot Swap (по шесть на узел); шасси в корпусе 2U предназначено для установки в стойку и включает в себя четыре независимых вычислительных узла, с возможностью использования графических ускорителей

Каждый узел ThinkSystem SD530 состоит из модульного шасси D2 высотой 2U, в который устанавливаются до четырех серверных модулей SD530. Каждый сервер содержит два процессора семейства Intel Xeon Processor Scalable. Благодаря поддержке модулей с GPU, а также модуля системы жидкостного охлаждения Lenovo Neptune Thermal Transfer Module сервер можно адаптировать к требованиям разных рабочих нагрузок.

Модули энергонезависимой памяти Intel Optane DC Persistent Memory позволяют создать новый универсальный уровень хранения данных, предназначенный для поддержки ресурсоемких рабочих нагрузок. Они дают возможность значительно увеличить ёмкость памяти сервера, уменьшить задержки и значительно повысить производительность ввода-вывода в IOPS.

ThinkSystem SD530 также поддерживает платформу LiCO, которая облегчает управление рабочими нагрузками и ресурсами кластера, связанными с высокопроизводительными вычислениями и искусственным интеллектом.

Команде HPC Team «Сколтеха», активно строившей и тюнинговавшей данный кластер, совместно со специалистами Professional Services Lenovo и при поддержке инженеров Intel Performance Application удалось добиться высокой производительности системы с интерконнектом 10Gbps Ethernet, что повлияло на возможности вычислений на кластере — исследователи могут быстрее получать результаты расчетов новых материалов. Эта команда уже обладала опытом разработки подобных систем: именно она отвечала за создание, развитие и обслуживание суперкомпьютеров «Жорес», «Arkuda», «Pardus». Эта вычислительная система поможет ученым «Сколтеха» и его академическим и отраслевым партнерам добиться прорывных результатов в целом ряде областей.

Организаторы уже подали заявку на включение данного кластера в список топ-50 — рейтинг суперкомпьютеров СНГ, созданный НИВЦ МГУ и МСЦ РАН по аналогии с общемировым рейтингом топ-500. Основой для рейтинга являются результаты исполнения теста Linpack (HPL). Обновляется этот список два раза в год, весной и осенью. Новая система имеет все шансы попасть во вторую треть новой редакции списка.

Теория и эксперименты

Если системы национальных суперкомпьютерных центров обычно отвечают потребностям широкого круга пользователей, то данный кластер создавался, исходя из специфических потребностей лаборатории. Он позволяет решать большое число распараллеливаемых задач. На каждую структуру требуется 4–5 стадий расчетов. Каждый расчет — это примерно 8 тыс. задач. А каждый из 25–30 пользователей системы проводит десятки таких расчетов ежемесячно.

Поэтому основной проблемой было максимизировать число ядер и производительность системы для большого числа коротких задач. При проектировании кластера нужно было получить максимальное число ядер при минимизации бюджета. Разработчикам системы удалось сэкономить на интерконнекте: внутри узла коммуникации между ядрами осуществляются очень быстро, однако скорость обмена данными между узлами была средняя. Определенную экономию дало и ограничение объема оперативной памяти. Те немногие задачи лаборатории, которые требуют большой емкости памяти, решаются на общеинститутском кластере и на суперкомпьютерах Академии наук и Нижегородского университета.

Первую вычислительную систему в лаборатории построили еще три-четыре года назад. Эта часть кластера потом прошла не одно обновление, но сейчас основные мощности сосредоточены на узлах Lenovo, а старая система используется для оценки новых программ и тестирования алгоритмов. Новый кластер также применяется для реализации совместных проектов с исследователями из Томского и Ереванского университетов. Вычислительные мощности не простаивают: в очереди всегда намного больше задач, чем решается в данный момент времени.

«Мы в основном занимаемся теоретическими расчетами, хотя в последнее появились и экспериментальные работы, — поясняет Артем Оганов. — Суперкомпьютер для нас — необходимость, наш главный прибор. Можно было бы арендовать вычислительные мощности, но цены на них, как правило, завышены. Наличие собственного кластера HPC позволяет нам самим определять правила и самостоятельно администрировать систему, что гораздо удобнее».

Используемое лабораторией программное обеспечение оптимизировано для многоядерных процессоров, дополнительно оптимизация достигается на этапе компиляции софта. Кроме того, при установке системы инженеры Lenovo оптимизировали производительность аппаратной платформы.

«Решение наших задач требует большого числа быстрых вычислительных ядер, — говорит Артем Оганов. — Они очень хорошо распараллеливаются по 32 процессорным ядрам. Дальнейшее масштабирование ведет к потерям. И таких задач у нас очень много, каждая задача включает в себя множество небольших расчетов, занимающих 2–4 часа».

«Мы постоянно изобретаем новые алгоритмы. Они позволяют нам решать те задачи, которые ранее были недоступны, и каждое новое поколение алгоритмов, каждое новое поколение задач требует в разы больше ресурсов, — подчеркивает Артем Оганов. — Это требует постоянной модернизации вычислительных ресурсов, но в результате мы получаем возможность сделать то, что раньше считалось недостижимым».

Например, сейчас в лаборатории занимаются высокотемпературной сверхпроводимостью, и одни из самых высокотемпературных сверхпроводников, были предсказаны ее исследователями и получены экспериментально. В числе результатов — гидрид тория, гидрид иттрия и ряд других соединений. Ученые также активно занимаются термоэлектрическими материалами. Они создали свою программу для расчета термоэлектрических свойств, и уже есть интересные результаты. Сейчас в разработке несколько материалов, для которых они уточняют теоретические предсказания, изучая фазы высокого давления и т. д. Нужные для этого инструменты постоянно совершенствуются.

Полный текст статьи читайте на CNews