Дата-центры будущего: в поисках мощности и новых источников энергии для LLM

image

Большие языковые модели (LLM) требуют значительных вычислительных мощностей. И это лишь часть затрат. Бурный рост продуктов генеративного искусственного интеллекта приводит к огромным расходам энергии — энергопотребление ЦОДов постепенно достигает гигантских объемов.

Дата-центры потребуют модернизации — например, сочетания нескольких возобновляемых источников энергии. Другие решения появляются на стыке нескольких технологий: системы ИИ могут управлять переключением между различными источниками энергии в поисках оптимального сценария питания.

По прогнозам Dell’Oro Group, к 2027 году инвестиции в ИТ-инфраструктуру для ИИ приведут к увеличению капитальных затрат на дата-центры до 500 млрд долларов.

Сегодня расскажем про тренды оптимизации, которые не только удовлетворят растущий спрос, но и позволят строить дата-центры в больших количествах и гораздо большем масштабе, чем сейчас.

Энергопотребление в эпоху ИИ


Исследовательская фирма Epoch AI в 2022 году подсчитала, что вычислительная мощность, используемая для создания новой передовой модели ИИ, должна удваиваться каждые 6–10 месяцев. А вместе с увеличением мощностей растут энергозатраты.

Большие языковые модели требуют гораздо больше энергии, чем традиционные поисковые системы. По оценкам Международного энергетического агентства (МЭА), один запрос к ChatGPT потребляет почти в 10 раз больше энергии, чем один поисковый запрос в Google.

Потребляемая мощность LLM существенно зависит от размера модели. По данным OpenAI, GPT-2, который имеет 1,5 млрд параметров, потреблял 28 000 кВт⋅ч энергии для обучения. Для сравнения, GPT-3, который имеет 175 млрд параметров, потреблял уже 284 000 кВт⋅ч энергии.

Отчет МЭА показывает, что в 2022 году дата-центры потребили 460 тераватт-часов (ТВт⋅ч) — 2% от всего мирового потребления электроэнергии. МЭА прогнозирует: объем энергии, потребляемой дата-центрами, в результате роста ИИ-систем может увеличиться более чем вдвое за три года. Мировые дата-центры будут потреблять 1000 ТВт⋅ч, что эквивалентно годовому потреблению электричества в Японии. В свою очередь Uptime Institute считает, что к 2025 году на долю ИИ будет приходиться 10% глобального энергопотребления в индустрии дата-центров.

Впрочем, рост не должен вызвать острого дефицита. Такая картина объясняется тем, что современные дата-центры можно оптимизировать. Предлагается немало вариантов — от погружного охлаждения до ядерной энергии.

Новые источники энергии


NiZn-аккумуляторы


Поскольку даже секундный сбой в городской электросети может нарушить работу серверов и другого оборудования, в дата-центрах используют источники бесперебойного питания (ИБП). ИБП сглаживают кратковременные броски напряжения, фильтруют питающее напряжение, а при потере питания от городской сети автоматически переключают свою нагрузку на аккумуляторные батареи.

В новейших дата-центрах литий-ионные аккумуляторы могут использоваться вместо дизельных генераторов. Батареи не только обеспечивают резервное питание, которое защищает оборудование от повреждений в случае отключения сети, но и поддерживают работу всего дата-центра.

К сожалению, сбои в электроснабжении по-прежнему остаются наиболее распространенной причиной аварий в ЦОДах. По данным Uptime Institute, поломка ИБП — основная причина аварий в электроснабжении дата-центров.

ИБП, как и любое другое оборудование, со временем изнашиваются. Частое использование и интенсивные нагрузки ускоряют этот процесс. Использование некачественных или несовместимых компонентов снижает надёжность системы и увеличивает вероятность сбоев.

Решить эту проблему частично могут никель-цинковые аккумуляторы. В отличие от литиевых и свинцово-кислотных батарей, NiZn-аккумуляторы остаются проводящими, даже если они ослаблены или разряжены. Они хранят больше энергии на единицу объема и веса по сравнению с некоторыми другими типами аккумуляторов. У них обычно более высокий эксплуатационный ресурс (количество циклов зарядки/разрядки).

Водород и производные


image
Источник изображения

Использование водорода в дата-центрах обсуждается все чаще по ряду веских причин, включая экологические, экономические и технологические аспекты. Водородные системы предлагают высокую надежность и долговечность; они масштабируемы и легко адаптируются к меняющимся потребностям без значительных переработок инфраструктуры. Автономность от традиционной электрической сети повышает устойчивость дата-центров к перебоям в электроснабжении.

У водородных топливных элементов есть свои минусы. Например, по данным Microsoft, для 48 часов резервного энергоснабжения ЦОДа потребуется до 100 тонн водорода. А при транспортировке и хранении необходимо поддерживать температуру -253°С (ГОСТ Р ИСО 13985–2013).

В качестве альтернативы водороду можно рассмотреть аммиак. С ним гораздо проще обращаться, поскольку требуются более мягкие условия: около 10 бар при -25°С. Его структура делает его более эффективным при транспортировке. Аммиак расщепляется на водород и азот, и полученный водород может также служить для производства электроэнергии.

По сравнению с водородом, аммиак менее взрывоопасен, а его утечки легко обнаружить по характерному запаху. Экологически аммиак также выгоден: при разложении он не выбрасывает углерод, а возможные выбросы оксидов азота можно нейтрализовать. К тому же технологии использования аммиака уже хорошо исследованы, что ускоряет их внедрение.

Модульные АЭС


image
Источник изображения

Малые модульные реакторы (ММР) могут предложить устойчивое, надежное и эффективное решение для энергетических потребностей дата-центров. ММР разработаны с учетом высоких стандартов безопасности и устойчивости к авариям. Модульная станция позволяет использовать меньше топлива для производства большого объема энергии по сравнению с углеводородными источниками. Эксплуатационные расходы на ядерные реакторы предсказуемы и стабильны.

Проекты ММР для дата-центров постепенно завоевывают популярность. Так, компания Standard Power запланировала на 2029 год ввод в эксплуатацию ММР, использующих реакторную технологию компании NuScale, для нескольких ЦОДов. Согласно планам Standard Power, NuScale предоставит 24 модуля мощностью 77 МВт каждый.

К слову, Россия стала первой страной, которая развернула два ММР мощностью по 35 МВт. Проект реализован на плавучей атомной электростанции «Академик Ломоносов».

Оптимизация системы охлаждения


image
Источник изображения

Системы охлаждения в дата-центрах обычно потребляют значительную долю энергии — 30–50% от общего энергопотребления.

Жидкостное охлаждение — устоявшийся тренд. Новые подходы включают полное погружение и охлаждение непосредственно на кристалле/холодной пластине. В первом случае сервер полностью погружают в непроводящую и негорючую диэлектрическую жидкость. Во втором, более целенаправленном подходе, металлическая пластина или радиатор используются для компонентов с высоким уровнем тепловыделения (таких как чипы). В этом случае тепло отводится и затем охлаждается с помощью жидкого хладагента.

Ещё в 2018 году компания Microsoft затопила ЦОД на дне Шотландского моря, погрузив 864 сервера и 27,6 петабайт хранилища на глубину 35,7 метра. Охлаждающий эффект морской воды заметно повысил энергоэффективность. Компания сообщила, что эксперимент увенчался успехом: количество отказов подводного ЦОДа в 8 раз ниже, чем у традиционных площадок. Более низкий уровень отказов особенно важен, учитывая все сложности обслуживания серверов в герметичных контейнерах на дне океана.

Термоэлектрические генераторы (ТЭГ)


Дата-центры генерируют значительное количество тепла, которое можно преобразовать в электричество. Например, можно использовать термоэлектрические генераторы (ТЭГ). Принцип работы таких устройств основан на эффекте Зеебека. В цепи из двух разных проводников при поддержании разницы температур на их контактных точках возникает термоэлектрическое напряжение. Когда один конец проводника нагревается, а другой остается холодным, появляется температурный градиент. Электроны в горячем конце проводника получают больше энергии и начинают перемещаться к холодному концу. В результате возникает электродвижущая сила, создающая электрическое напряжение.

ТЭГ состоят из множества термоэлектрических модулей, каждый из которых включает пары различных проводников, соединенных последовательно и параллельно для создания нужного уровня напряжения и тока.

При интеграции ТЭГ дата-центры могут повысить свою общую энергоэффективность (Power Usage Effectiveness — PUE). Однако стоимость термоэлектрических материалов и необходимость инженерных модификаций остаются значительными препятствиями для быстрого внедрения новых технологий. С развитием и удешевлением ТЭГ этот подход может стать более распространенным в будущем.

Периферийные вычисления


Обработка бигдаты обычно требует передачи данных от источника к ЦОДу и обратно, что приводит к перегрузке сети и увеличивает затраты. Сейчас многим региональным компаниям приходится получать облачные услуги в крупных столичных ЦОДах, так как на местах зачастую отсутствуют облачные провайдеры, а оказание услуг ограничивается предложениями VDS/VPS.

На помощь приходят модульные дата-центры, которые можно быстро построить практически на любой территории, чтобы обрабатывать данные как можно ближе к их источнику. Главное преимущество модульного ЦОДа — это возможность масштабирования: количество модулей и стоек увеличивается постепенно. При этом обеспечивается такая же отказоустойчивость, как и в больших дата-центрах. Каждый критический элемент инфраструктуры зарезервирован по схеме не менее чем N+1: есть несколько энергомодулей, дизель-генераторные установки, баки с запасом дизтоплива и антифриза и т. д.

Модульность подразумевает не только физическую структуру объекта, но и этапное развитие под потребности. В рамках производственной площадки модульные ЦОДы можно объединять в кластеры высокой доступности.

Оптимизация ИТ-систем


Один из способов повысить эффективность ЦОДа — использовать специальное программное обеспечение для управления инфраструктурой. Это могут быть системы управления инфраструктурой центров обработки данных (Data Center Infrastructure Management, DCIM) или решения на базе систем диспетчерского управления и сбора данных (Supervisory Control and Data Acquisition, SCADA). Они мониторят энергопотребление серверов, хранилищ, маршрутизаторов и систем кондиционирования.

Такие системы автоматически распределяют нагрузку между серверами, при необходимости самостоятельно отключая незадействованные устройства, и дают операторам ЦОД рекомендации по настройке скорости работы вентиляторов холодильных установок.

DCIM-решения способны обнаружить, что вентиляторы кондиционирующей установки вращаются слишком быстро, а серверам в машинном зале не требуется настолько сильный поток холодного воздуха. С помощью аналитики и оптимизации работы дата-центры могут экономить десятки и сотни киловатт энергии.

Наконец, сам ИИ может предложить решения проблемы роста энергозатрат. Применив машинное обучение, Google удалось на 40% сократить количество энергии, потребляемой системой охлаждения. Нейросеть была обучена предсказывать PUE на основе 19 факторов. Для расчетов использовалась база данных, содержащая 184 435 точек с разрешением 5 минут; точность предсказания PUE после обучения составила 99,6%.

Теперь, например, если в дата-центре нужно отключить некоторые серверы на несколько дней, модель подскажет, какие небольшие изменения следует внести в систему охлаждения, чтобы минимизировать влияние на PUE.

Заключение


ЦОДы по своей природе стремятся к высокой энергоэффективности. Хотя один ЦОД может потреблять в 10–50 раз больше энергии на единицу площади по сравнению со стандартным коммерческим офисным зданием, с 2010 года потребление энергии в ЦОДах выросло незначительно. Лишь с мощным развитием LLM перед инженерами возникла задача искать необычные программные и аппаратные решения для снижения энергопотребления.

Кроме того, сама виртуализация сокращает затраты на обслуживание аппаратного обеспечения, охлаждение и электроэнергию. В отчете Агентства по охране окружающей среды (EPA) говорится, что виртуализация серверов может привести к экономии энергии до 80%. Уменьшение занимаемой площади оборудования также приводит к снижению затрат на охлаждение, что еще больше способствует общей экономии.

Виртуализация позволяет перераспределять и наращивать виртуальные ресурсы (процессоры, память, объем хранилища) в режиме реального времени. Используя услуги IaaS-провайдеров, компания-клиент оплачивает только фактически используемые мощности, что также помогает сократить потребление электроэнергии.


jr9p3gf15l7_ji29ih4-lxkuf-q.png

© Habrahabr.ru