Малые ядерные реакторы для больших языковых моделей

Лет шесть назад я впервые услышал милое ироническое замечание «Вы не представляете, сколько энергии тратится для того, чтобы ваши картинки с котиками грузились на пару секунд быстрее». Долгое время я воспринимал его как «шутку, в которой есть доля правды». Однако в конце прошлого года мне на глаза попалась новость с портала vc.ru (да, мы трудимся на Хабре, но порой с интересом заглядываем и туда) о том, что на генерацию одной картинки уходит примерно столько энергии, сколько на полную зарядку смартфона.     

В среднем на обработку одного запроса ChatGPT тратится примерно в 10 раз больше электроэнергии, чем на обработку одного поискового запроса в Google, а именно 2,9 ватт-часа против 0,3 ватт-часа. По данным Калифорнийского университета в Риверсайде за 2023 год, на 20–50 запросов в ChatGPT требуется около 17 унций, то есть, около 483 мл чистой воды. Вода расходуется на охлаждение ЦОД, технологический процесс выглядит так:

40c0dd8ab788de05326cc25105136f8a.png

Центр обработки данных предназначен для практически бесперебойной работы, поддерживать которую можно только тщательной балансировкой нагрузки с постепенным обновлением парка серверов, то есть, за счёт большой аппаратной избыточности. Поэтому с возрастанием нагрузок неизбежно возрастает расход электроэнергии для обслуживания ЦОД. Более того, по мере распространения и усложнения больших языковых моделей ЦОД заняты всё более сложной и продолжительной обработкой данных. По оценке «Голдман Сакс» от мая 2024 года, потребность ЦОД в электроэнергии может возрасти на 160% к 2030 году.

Согласно другим оценкам, на обслуживание ИИ уже расходуется около 8% всей электроэнергии в мире. Основными потребителями энергии являются процессоры для обучения моделей, но стабильно растёт и потребность в энергии на обслуживание самой облачной инфраструктуры. Вот как выглядит рост потребности в электроэнергии для ЦОД, согласно исследованию, проведённому «Голдман Сакс» в 2020 году (здесь TWh — тераватт-часы).

02be4ac34d60eb59868bf64a425d3eb8.png

Электроэнергия при обслуживании ЦОД тратится не только на вычисления как таковые и обеспечение сетевых взаимодействий, но и просто на охлаждение. Основным источником энергии для датацентров остаются обычные ТЭЦ, на которых сжигается ископаемое топливо — следовательно, у индустрии больших данных непозволительно возрастает углеродный след.  

Ненасытные языковые модели

Согласно исследованию, проведённому в 2021 году в Корнеллском университете под руководством Джеффа Дина, на обучение одной большой языковой модели поколения GPT-3 требуется столько электричества, сколько вырабатывается при сжигании около 500 тонн угля. Для сравнения — на типичной твердотопливной ТЭЦ за время непрерывной работы в течение 24 часов сжигается около 1225 тонн угля. Однако ни одна БЯМ не рассчитана на строго однократное обучение. Чтобы модель оставалась актуальной и улучшалась, её нужно постоянно доучивать на новых поступающих данных. Кроме того, когда обучение заканчивается, начинается обработка пользовательских запросов (промптов), и на данном этапе модель постоянно применяет логический вывод (inference). Уже существуют исследования, согласно которым логический вывод может быть даже более энергозатратным, чем обучение модели само по себе.

Наконец, любой активный пользователь БЯМ знает, что для получения приемлемого результата единственным промптом не обойтись — требуются уточняющие запросы. Также очевидно, что пока БЯМ остаются интересной и привлекательной новинкой, никто не склонен ограничиваться одним или даже немногочисленными промптами. БЯМ применяются для доработки текстов, оттачивания идей и просто для развлечения. БЯМ воспринимается как «умный поисковик».

В 2022 году в исследовательском блоге Google вышла статья, в которой предлагается несколько способов снизить углеродный след ИИ-систем:

1.     Пользоваться разреженными моделями с небольшим количеством параметров.

2.     Вместо универсальных процессоров использовать такие, которые специально рассчитаны на машинное и глубокое обучение — по-видимому, речь о GPU.

3.     Использовать облачные ЦОД, которые обычно превосходят по эффективности локальные.

4.     Тщательнее подбирать места для размещения ЦОД, располагая их ближе к относительно чистым источникам энергии, но не перегружая при этом коммунальные электросети.

Кроме того, описываемые проблемы решаются и на уровне аппаратного обеспечения. Со временем новое вычислительное оборудование становится всё эффективнее в пересчёте на количество операций, выполняемых на каждый ватт энергии. Эффективность ЦОД — это отношение энергии, потребляемой на вычисления к энергии, потребляемой на поддержание инфраструктуры и сетевых взаимодействий, а также на охлаждение. Эта метрика тщательно разобрана в статье Дэвида Миттона «How much energy do data centers use?». Возможно, перевод этой статьи хорошо зашёл бы на Хабре, но пока я скопирую из неё одну схему, дающую представление о показателе «эффективность использования электроэнергии» (PUE), который в данном источнике оценен в 1,858 на 2011 год.

002fd24babe5386ee7df5464412dee4f.png

К 2022 году этот коэффициент доведён в среднем до 1,5, а на наиболее высокотехнологичных мощностях — и до 1,2. Таких показателей удаётся достигать, сочетая водяное охлаждение с воздушным.

Но одного повышения эффективности бывает недостаточно. Известен так называемый «парадокс Джевонса», демонстрирующий, что за повышением энергоэффективности в долгосрочной перспективе следует рост энергопотребления. При этом закон Мура уже практически исчерпал себя, поэтому мы возвращаемся к программному, а не аппаратному ускорению вычислений. Также могут помочь новые технологии охлаждения ЦОД, например, иммерсионное охлаждение, разобранное на Хабре в статье уважаемого @MagicHappens. Но все эти решения лишь помогают отсрочить предел возможностей современных ЦОД и принципиально не решают проблем, возникающих из-за перегрузки электросетей, а также не гарантируют бесперебойной работы ЦОД. Наилучшим выходом в данном случае может стать запитывание ЦОД при помощи ядерных реакторов. К середине 2024 года такая перспектива совсем не кажется фантастичной — подобные проекты всерьёз разрабатывают Microsoft, Oracle и Amazon. В данном случае речь может идти как о переориентации целой АЭС на обслуживание датацентра, так и о возведении целого кластера датацентров вокруг новой АЭС, а также об использовании малых модульных реакторов (SMR). Мало того, что атомная энергия является значительно более «чистой», чем энергия ископаемого топлива — само устройство ядерного реактора обеспечивает стабильный и равномерный приток энергии. Это условие является ключевым для бесперебойной работы и круглосуточной доступности серверов. При возведении ЦОД в необжитых и труднодоступных местах, например, в полярных широтах, их можно было бы запитать именно от АЭС, но не от солнечных или ветряных электростанций (с геотермальными электростанциями не всё так однозначно). Обсудим эти перспективы подробнее.

Возвращение на Тримайл-Айленд

88808ff15f2b6730a9b8fc95b77d44e0.png

Тримайл-Айленд — это остров на реке Саскуэханна, в 16 км южнее города Гаррисберг, штат Пенсильвания. на котором расположена АЭС. 28 марта 1979 года там произошла авария, остававшаяся самым крупным техногенным ядерным инцидентом до трагедии на Чернобыльской АЭС в 1986 году. На втором энергоблоке АЭС Тримайл-Айленд произошло частичное расплавление активной зоны реактора (мелтдаун), после чего второй блок так и не возобновил работу, а первый энергоблок эксплуатировался до 2019 года, пока также не был остановлен. Но в сентябре 2024 года оператор станции, компания Constellation, объявила о сделке с Microsoft, по условиям которой работа АЭС будет возобновлена, а в течение следующих 20 лет Microsoft выкупит у Constellation все электрогенерирующие мощности на острове. Это событие по праву можно считать историческим. На момент аварии второй энергоблок успел проработать всего несколько месяцев, а первый энергоблок как раз не функционировал, так как дожидался заправки (перегрузки тепловыделяющих элементов). Впоследствии первый энергоблок был перезапущен в 1985 году и питал сотни тысяч зданий.

В настоящее время Constellation готовит документацию для того, чтобы вновь запустить первый энергоблок Тримайл-Айленда к 2028 году и полагает, что реактор позволит добавить в электросеть примерно 835 мегаватт безуглеродной чистой энергии. Также станцию планируется переименовать в «Центр чистой энергии им. Крейна» в честь Кристофера Крейна, прославленного американского атомщика и функционера, умершего в апреле 2024 года.

Перезапуск остановленного ядерного реактора — нетривиальная задача. На протяжении более полутора лет Constellation обследовала реактор на предмет коррозии и разрушений. Потребуется заменить главный силовой трансформатор энергоблока, восстановить турбины и охладительные системы. Кроме того, Constellation планирует разобрать второй реактор, а для обслуживания станции нанять 600 сотрудников — в том числе, ранее работавших на Тримайл-Айленде, но переведённых в другие штаты. Компания Microsoft, в свою очередь, опубликовала в октябре 2023 года вакансию «главного администратора проекта» (Principal Program Manager) в области ядерной энергетики, в задачи которого будет входить внедрение и обкатка малых модульных реакторов (SMR) и микрореакторов, в частности, техническая оценка таких проектов. Эти реакторы предназначаются для питания ЦОД, в которых расположены ресурсы Microsoft Cloud и мощности компании для поддержки искусственного интеллекта.

Каждый из таких объектов как Тримайл-Айленд уникален. Вывести из электросети действующую АЭС и переориентировать её на обслуживание серверов практически невозможно, так как компенсировать эту электроэнергию будет нечем. Поэтому инициатива Microsoft пока воспринята прохладно, в особенности со стороны экологов и инвесторов. Тем не менее, в краткосрочной перспективе в США может быть реализовано ещё несколько таких проектов. Так, в марте 2024 года Amazon договорился с компанией Talen Energy о строительстве нового ЦОД, питание которого будет целиком осуществляться со стороны АЭС. Talen владеет шестой  по мощности АЭС в США, расположенной на той же реке Саскуэханна в Пенсильвании, что и Тримайл-Айленд. По образцу Тримайл-Айленда планируется реанимировать АЭС Дуэйн-Арнольд в штате Айова, выведенную из эксплуатации в 2020 году. Проект разрабатывается компанией NextEra, однако её CEO Джон Кетчум в июне 2024 года осторожно высказался, что проект рассматривается и, скорее всего, будет экономически целесообразным.        

Более жизнеспособной кажется модель с питанием ЦОД от малых модульных реакторов (SMR). Именно от таких реакторов снабжаются энергией атомные подводные лодки; также такие машины используются в физических лабораториях. В отличие от Microsoft и Amazon, компания Oracle заинтересована в развитии ЦОД на основе SMR, и на этом я остановлюсь ниже.

Малые модульные реакторы

Подробная и очень интересная статья о технологии SMR «Малые АЭС и зачем они нужны» вышла на Хабре в июле 2022 года под авторством уважаемого Дмитрия Горчакова @Nucl0id в корпоративном блоге компании Timeweb Cloud. В сентябре 2024 года стало известно, что компания Oracle получила разрешение на сборку трёх малых модульных реакторов для питания своего нового ЦОД, мощность которого составит не менее 1 гигаватта. Размеры таких реакторов постоянно оптимизируются, и уже сейчас эти устройства исключительно компактны, так как предназначены для использования в тесных отсеках, где каждый сантиметр на счету, а также должна быть предусмотрена противорадиационная защита. Ранее в статье «Локомотивы на атомном ходу» я писал о том, как и почему подобные реакторы не прижились на железнодорожном транспорте. Загвоздка именно в габаритах и безопасности: встраивать такую машину в субмарину оказалось целесообразно, а в тепловоз — нет. Однако при использовании стационарных SMR на суше вопрос габаритов стоит не так остро, и технология должна хорошо масштабироваться. Серийное производство таких реакторов для ЦОД также должно обходиться дешевле, чем для военно-морского флота. Предполагается, что расходы на инфраструктуру для таких реакторов также будут меньше, чем на возведение полноценных АЭС, и датацентр приобретёт значительную автономность от коммунальной электросети, либо вообще не будет к ней относиться.  

Насколько могу судить, в коммерческой сфере малые ядерные реакторы пока не используются (продолжается строительство плавучей АСММ «Академик Ломоносов» близ Певека). Но на флоте история SMR насчитывает около 70 лет — в 1955 в США была спущена на воду первая атомная подводная лодка USS Nautilus. Именно благодаря SMR подводная лодка превратилась в полноценную боевую единицу, которая месяцами может действовать без всплытия. В настоящее время в распоряжении США имеется

83 атомных судна, в том числе, 72 подводные лодки. В распоряжении России имеется около 40 атомных подводных лодок. Производством реакторов для АПЛ занимаются «Ньюскейл Пауэр» и «Вестингауз Электрик» в США, «Росатом» в России, а также ещё несколько компаний в Канаде и Китае. Переориентация SMR на питание датацентров считается привлекательным и экологически благоприятным вектором развития, в особенности при целенаправленном развёртывании ЦОД в труднодоступных регионах Арктики или на островах. SMR значительно экологичнее обычных ТЭЦ, а также могут использоваться для переработки (фактически — повторного использования) ядерных отходов. Но в настоящее время технология SMR не вполне готова к внедрению в составе ЦОД, так как вместе с ростом мощностей датацентра в него потребуется добавлять не только серверные фермы, но и новые микрореакторы. Пока не разработаны такого масштабирования, в частности, способы обеспечения безопасности при (потенциально бесперебойной) эксплуатации группы ядерных реакторов. Но на неуклонное развитие отрасли указывает её коммерциализация, точнее, появление стартапов, занятых разработкой микрореакторов. В США есть две заметные компании такого рода: Nano и Oklo. Nano разрабатывает две модели микрореакторов, которые называются Zeus и Odin. Zeus — это твердотопливный аккумуляторный реактор для промышленного применения, а Odin — это реактор низкого давления, использующий для охлаждения не воду, а специальный хладагент. Поэтому он может работать при более высоких температурах, чем традиционные реакторы с водяным охлаждением. Zeus и Odin могут производить от 1 до 2 мегаватт электроэнергии и в конструктивном отношении являются уменьшенными аналогами реакторов NuScale, используемых на американских атомных субмаринах.

Oklo разрабатывает  быстрый реактор с жидкометаллическим теплоносителем, который может работать на отходах от традиционных реакторов. Он называется  Aurora, может вырабатывать  15 мегаватт электроэнергии, может наращиваться до 50 мегаватт и, по данным компании, приспособлен к непрерывной эксплуатации без дозаправки на протяжении 10 лет.

Заключение

Я решил затронуть эту тему во многом потому, что мне довелось обсуждать с одним собеседником темы полностью автономных производств («тёмных фабрик») и орбитальных ЦОД, которые я ранее затрагивал на Хабре. Я полагал, что ядерные реакторы могут понадобиться, прежде всего, для обеспечения нужд майнинга, а уклон в обслуживание ИИ показался мне настолько интересным, что я решил поделиться с вами этой темой. Мне кажется, что описанные наработки выходят далеко за пределы сокращения парниковых выбросов и даже могут поспособствовать развитию термоядерных реакторов, поскольку ядерный синтез позволяет извлекать больше энергии из меньших объёмов топлива, а в случае аварий грозит не столь серьёзным радиоактивным загрязнением, как традиционные АЭС.

© Habrahabr.ru