[Перевод] Дата-центры Илона Маска: Tesla, Dojo, X (Twitter), xAI

Дата-центры играют важнейшую роль в операциях компаний Илона Маска, таких как Tesla, X Corp (Twitter) и xAI, поддерживая их сервисы, разработку ИИ и взаимодействие с пользователями. Расположенные по всему миру, включая Остин, Спаркс, Шанхай и другие ключевые города, эти дата-центры обеспечивают мощную инфраструктуру для обработки и хранения данных. В статье описывается суперкомпьютер Dojo и чип D1, а также инфраструктура X Corp и xAI, поддерживающая чат-бот Grok, который, по утверждениям Маска, ускорит создание искусственного общего интеллекта (AGI) в течение ближайших двух лет.

Обложка

Обложка

Дата-центры и IT-оборудование Tesla

Tesla использует дата-центры для обработки огромных массивов данных, собираемых со своих электромобилей, включая данные с сенсоров, поведение водителей и производительность системы Autopilot. Эти ресурсы поддерживают обучение искусственного интеллекта, необходимого для улучшения технологии Full Self-Driving (FSD), которая активно тестируется и совершенствуется для автономного вождения. Важную роль здесь играет суперкомпьютер Dojo, разработанный для работы с петабайтами видео-данных, собираемых с машин Tesla, что позволяет быстрее и эффективнее тренировать нейросети, направленные на реализацию полноценного автопилота.

Экосистема Tesla

Экосистема Tesla

Помимо телеметрии автомобилей и обучения ИИ, дата-центры Tesla играют критически важную роль во всей экосистеме её продуктов и услуг. Они обеспечивают работу внутреннего навигационного ПО, управление данными для домашних батарей Powerwall и облегчают доступ к сети Supercharger — сети быстрых зарядных станций для электромобилей Tesla. Компания также планирует расширить свои дата-центры в Китае, чтобы поддержать дальнейшее развитие FSD в этом регионе, поскольку там ожидается высокий спрос на полуавтономные и автономные технологии.

Ускорители высокопроизводительных вычислений

Tesla использует мощные вычислительные ускорители в своих центрах обработки данных для работы над проектами в области искусственного интеллекта и автономного вождения. В дополнение к кластерам графических процессоров (GPU) NVIDIA Tesla также разрабатывает и внедряет собственные чипы D1, предназначенные для обучения нейросетей на суперкомпьютере Dojo. Этот суперкомпьютер используется для обработки огромного объема данных, собираемых с электромобилей Tesla, и обеспечивает более эффективное обучение моделей для усовершенствования системы Full Self-Driving (FSD).

Кластеры GPU

На данный момент Tesla установила более 35 000 графических процессоров NVIDIA H100 для кластеров ИИ-обучения, которые используются для разработки технологии автономного вождения Full Self-Driving (FSD). К концу 2024 года Tesla планирует увеличить число таких GPU до 90 000.

Обучающая способность Tesla AI – графические процессоры, эквивалентные H100

Обучающая способность Tesla AI — графические процессоры, эквивалентные H100

Однако в 2024 году Илон Маск решил перенаправить часть GPU, зарезервированных для Tesla, в X Corp (Twitter) и xAI, объяснив это тем, что Tesla пока не имеет необходимой инфраструктуры для их использования, и оборудование осталось бы на складе.

Суперкомпьютер Dojo и чипы D1

Dojo — это уникальный суперкомпьютер, разработанный Tesla для работы с крупными задачами машинного обучения и обработки петабайтов данных, поступающих с электромобилей Tesla. Эти данные, в основном видеоматериалы, используются для более эффективного обучения нейронных сетей, что необходимо для улучшения работы FSD. Tesla ставит цель превзойти традиционные возможности GPU с помощью Dojo, используя специально разработанные чипы D1, которые ориентированы на задачи ИИ-обучения. Илон Маск также отметил, что Tesla планирует «удвоить усилия» в разработке Dojo, инвестируя более $1 млрд в его развитие, включая расходы на исследования, разработку чипов и содержание центров данных.

Dojo

Dojo

В более широком контексте, Tesla ожидает, что капитальные затраты (CapEx) компании превысят $10 млрд в 2024 году.

Компоненты суперкомпьютера Dojo Tesla

Ниже представлен подробный разбор аппаратной архитектуры, поддерживающей суперкомпьютер Dojo от Tesla, начиная с самого маленького компонента — чипа D1 и до полного суперкомпьютера Dojo:

  • Чип D1: Основной кастомный чип ИИ, разработанный Tesla специально для задач ИИ-обучения. Каждый чип D1 имеет вычислительную мощность 362 терафлопс (TFLOPS).

  • Тренировочный блок: Группа из 25 чипов D1, работающих совместно и расположенных в конфигурации 5×5. Тренировочный блок способен достигать до 9 петабайтов (PFLOPS) вычислительной мощности.

  • Системный лоток: Содержит 6 тренировочных блоков, объединённых на одной плате. Системный лоток может достигать до 54 петабайтов (PFLOPS) вычислительной мощности.

  • Шкаф: Содержит 2 системных лотка с резервными источниками питания, обеспечивая до 108 петабайтов (PFLOPS) вычислительной мощности. Шкафы также содержат ключевые сборки, включая процессоры интерфейса Dojo: память для обучения (32 ГБ высокоскоростной DRAM) и разобщённую память (640 ГБ высокоскоростной DRAM), а также интерфейс хоста Dojo (всего 512 ядер x86).

  • ExaPOD: Система из 10 шкафов, представляющая собой 1,1 эксафлопс (квинтильоны операций с плавающей точкой в секунду) вычислительной мощности.

  • Суперкомпьютер Dojo: Изначальная настройка суперкомпьютера Dojo от Tesla включала около 3000 чипов D1, состоящих из тренировочных блоков (25 чипов D1), системных лотков (6 тренировочных блоков), шкафов (2 системных лотка) и 10 шкафов, образующих ExaPOD. Модульная архитектура Dojo позволяет комбинировать несколько ExaPOD, что даёт возможность масштабировать систему Dojo для ещё большей мощности.

10feb7a273cdcc84569cd6196cc8307d.jpg

Суперкомпьютер Dojo от Tesla разработан для того, чтобы соединять и масштабировать вычислительные мощности с целью высокопроизводительного, высокоскоростного и с низкой задержкой обучения нейронных сетей. Компания утверждает, что с помощью Dojo время обучения ИИ может быть сокращено с месяца до недели.

К концу 2024 года система Dojo 1 будет обладать вычислительными мощностями, эквивалентными примерно 8 000 графических процессоров NVIDIA H100, при этом Tesla планирует достичь 100 эксафлопс вычислительных мощностей для внутреннего обучения нейронных сетей.

Внутренняя проекция вычислительной мощности Dojo от Tesla

Внутренняя проекция вычислительной мощности Dojo от Tesla

Питание и охлаждение суперкомпьютера Tesla Dojo

Достаточное энергопотребление и охлаждение имеют решающее значение для суперкомпьютера Tesla Dojo благодаря его компактным и высокопроизводительным компонентам, включая чипы D1 и ExaPODs. Эта ИТ-инфраструктура требует значительного энергопотребления и выделяет огромное количество тепла во время интенсивных задач по обучению ИИ. Эффективное управление этим выделением тепла необходимо для обеспечения оптимальной производительности и предотвращения сбоев оборудования.

855ac94b856d81115c2946ab0cf52988.jpg

Dojo поддерживает мощность более 200 киловатт (кВт) на шкаф (и мегаватт на модуль ExaPOD). Чтобы удовлетворить свои требования к высокой мощности охлаждения, Dojo использует специальный блок распределения охлаждения (CDU), как показано выше.

Локации дата-центров Tesla

Tesla управляет несколькими стратегически важными дата-центрами по всей территории США и за рубежом для поддержки своих потребностей в вычислительных мощностях.

Остин, Техас
Tesla строит новый суперкомпьютер Dojo в своей штаб-квартире в Остине, Техас, чтобы разместить свой крупнейший кластер для обучения ИИ на сегодняшний день. Этот кластер будет расположен рядом с заводом по производству автомобилей Giga Texas и в настоящее время находится на стадии строительства (с задержками), при этом предусмотрена водяная система охлаждения.
На данный момент Tesla переносит серверные стойки с H100 GPU в только что завершённое расширение Giga Texas на юге. Кластер для обучения ИИ будет включать 2 000 графических процессоров NVIDIA H100 и 20 000 компьютеров AI5 от Tesla. В конечном счёте южное расширение Giga Texas разместит кластер из 50 000 графических процессоров NVIDIA H100, который поможет ускорить развитие технологии Full Self-Driving (FSD) от Tesla.

Рено (Спаркс), Невада
Tesla открыла дата-центр на своём заводе Gigafactory Nevada, который занимается производством литий-ионных аккумуляторов и компонентов для электромобилей в Спарксе, Невада, неподалёку от Рено, в округе Стори. Кроме того, Tesla является клиентом компании Switch, Inc. на кампусе Citadel, расположенном рядом с Gigafactory Nevada в Спарксе. Компания Switch также делит с Tesla солнечную электростанцию в этом районе.

Сан-Хосе, Калифорния
Tesla управляет суперкомпьютером Dojo в Сан-Хосе, Калифорния. Также компания планирует установить 7 ExaPOD в Пало-Альто, Калифорния, который является центром инженерных и научно-исследовательских работ Tesla. Это расширение, вероятно, увеличит вычислительные мощности Tesla до 8,8 эксафлопс (вместо текущих 1,1 эксафлопс).

Сакраменто, Калифорния
Tesla арендует дата-центр в Сакраменто, Калифорния, у NTT Global Data Centers, который ранее был освобождён компанией X Corp (бывший Twitter). Этот дата-центр используется для обработки рабочих нагрузок по машинному обучению, включая симуляции автономных автомобилей.

Шанхай, Китай
Tesla управляет дата-центром в Шанхае, Китай, чтобы соответствовать китайским нормативным требованиям, требующим хранения данных на местном уровне. Компания хранит все данные, связанные с продажами автомобилей на материковом Китае, локально, что позволяет удовлетворить требования китайских властей по безопасности данных.
Компания GDS Holdings, крупнейший оператор нейтральных дата-центров в Китае, заявила, что Tesla является одним из её клиентов. В общей сложности GDS управляет 28 объектами в Шанхае и районе дельты Янцзы.

Дата-центры X Corp (Twitter)

X Corp (ранее Twitter) использует дата-центры для хранения и обработки огромных объемов данных пользователей, включая твиты, прямые сообщения и загрузки медиафайлов. Эти дата-центры также поддерживают алгоритмы платформы для рекомендаций контента, анализа трендов и таргетинга рекламы, что позволяет сервису обрабатывать миллионы взаимодействий в реальном времени по всему миру.

С момента покупки Twitter Илоном Маском за $44 миллиарда в октябре 2022 года компания упрощает свою ИТ-инфраструктуру, выполняя следующие шаги:

  • Закрытие и сокращение числа дата-центров

  • Снижение серверных мощностей

  • Снижение расходов на облачные технологии

Несмотря на эти сокращения, X Corp увеличила мощность своих ускорителей высокопроизводительных вычислений. Компания недавно приобрела 10 000 графических процессоров NVIDIA для разработки ИИ, с целью создания кластеров суперкомпьютеров на базе GPU на своей территории.

В США X Corp управляет дата-центрами в нескольких ключевых локациях:

Атланта, Джорджия
X Corp арендует мощность в дата-центрах QTS Data Centers в районе Атланты, Джорджия. Одним из значимых объектов является дата-центр QTS Atlanta 1 DC1 и DC2.

9d0ce03d4a9b1a5f5f556a86506a11b0.jpg

Кроме того, в дата-центре QTS Atlanta 1 DC2, компания X Corp получила налоговые льготы в размере 10,1 млн долларов в течение 10 лет в рамках проекта стоимостью 700 млн долларов по развертыванию ИТ-оборудования и аппаратуры искусственного интеллекта на объекте.

Однако X Corp также недавно сократила штат нераскрытого предприятия в Атланте.

Портленд (Хиллсборо), Орегон
X Corp арендует более 50 мегаватт (МВт) мощности в дата-центрах, принадлежащих компании Digital Realty, в Хиллсборо, Орегон, западном пригороде Портленда. Орегон имеет избыточные гидроэнергетические ресурсы, что обеспечивает низкую стоимость (от $0.05 до $0.07 за кВт⋅ч) и экологически чистое электричество для дата-центров.

Сакраменто, Калифорния — Закрытие
В рамках рационализации своей ИТ-инфраструктуры X Corp покинула объект, принадлежащий NTT Global Data Centers, в Сакраменто, Калифорния, после окончания срока аренды. Позже Tesla заняла часть освободившегося пространства в этом дата-центре.

X Corp также закрыла другое предприятие в Сакраменто, принадлежащее Prime Data Centers. Ранее это предприятие было закрыто в сентябре 2022 года во время аномальной жары в Калифорнии.

В целом X Corp утверждает, что с закрытием своих дата-центров в Сакраменто сэкономила $100 миллионов в год. Закрытие освободило 48 МВт мощности и включало перемещение 5 200 стоек и 148 000 серверов.

Поставщики облачных услуг (CSPs)
X Corp заключила многолетние контракты с облачными сервисами, включая Amazon Web Services (AWS), Google Cloud и Oracle Cloud. Тем не менее, компания сообщила о 60%-ном сокращении своих ежемесячных затрат на облачные услуги благодаря репатриации рабочих нагрузок. Также была сокращена на 60% площадь облачного хранения данных и на 75% снизились затраты на обработку облачных данных.

Центры обработки данных xAI

xAI — это компания, занимающаяся искусственным интеллектом, основанная Илоном Маском в 2023 году с целью разработки передовых систем искусственного интеллекта для понимания истинной природы Вселенной. Компания стремится создать «хороший AGI» (общий искусственный интеллект) и выпустила чат-бота с искусственным интеллектом и языковую модель Grok.

В мае 2024 года xAI привлекла капитал в размере 6 миллиардов долларов, оценив компанию в 24 миллиарда долларов. Кроме того, Илон Маск в настоящее время добивается одобрения совета директоров Tesla на инвестиции в xAI в размере 5 миллиардов долларов.

xAI использует дата-центры для обеспечения вычислительной мощности и хранения данных, необходимых для обучения и работы своего чат-бота с искусственным интеллектом Grok. Эти дата-центры выполняют задачи, такие как обучение модели обработки естественного языка на данных пользователей X Corp (Twitter), выполнение выводов и хранение огромных объемов данных. Кроме того, Илон Маск упомянул о возможных возможностях интеграции Grok в программное обеспечение Tesla.

xAI выпустила Grok-1.5 и в настоящее время обучает Grok-2 с использованием 20 000 GPU NVIDIA H100. Илон Маск оценивает, что для Grok-3 потребуется 100 000 GPU. В связи с этим ближайшие планы xAI для дата-центров включают:

  • Развертывание обучающего кластера из 100 000 GPU NVIDIA H100 с жидкостным охлаждением до конца 2024 года

  • Добавление еще одного кластера из 300 000 GPU NVIDIA B200 (Blackwell), начиная с лета 2025 года

Мемфис, Теннесси
xAI планирует построить самый большой суперкомпьютер в мире, названный «Гигафабрика вычислений», в Мемфисе, Теннесси. Этот суперкомпьютер будет размещен в 150-мегаваттном (МВт) дата-центре, расположенном в промышленном парке рядом с рекой Миссисипи на юго-западе Мемфиса. Конкретно дата-центр займет бывший завод Electrolux площадью 750 000 квадратных футов в районе Бокстаун на юге Мемфиса.

b1477f875a32843f1499b16735d4ed37.jpg

Илон Маск планирует полностью ввести в эксплуатацию новый завод xAI к осени 2025 года, что представляет собой многомиллиардные инвестиции в Мемфисе. В рамках этого обязательства xAI планирует потратить 24 миллиона долларов на новую подстанцию и взяла на себя обязательства по вводу 150 МВт электроэнергии от Memphis Light, Gas and Water (MLGW) к концу 2024 года.

Известная также как Мемфисский суперкластер, система будет использовать единую сеть RDMA (Remote Direct Memory Access), чтобы подключить до 100 000 GPU NVIDIA H100. Серверы для суперкомпьютера xAI в Мемфисе поставляют Dell и Supermicro.

Поставщики облачных услуг (CSPs)
Oracle Cloud предоставляет значительную часть существующей инфраструктуры для обучения ИИ xAI:

  • В настоящее время xAI арендует около 16 000 GPU NVIDIA H100 в Oracle Cloud

  • xAI заключила контракт на 24 000 GPU NVIDIA H100 с Oracle Cloud для обучения Grok-2 В июле 2024 года xAI, как сообщается, прекратила переговоры о $10 миллиардном многолетнем расширении ИИ и закупке дополнительной мощности GPU/серверов у Oracle Cloud.

Кроме того, xAI использует облачные услуги от Amazon Web Services (AWS) и использует резервную мощность дата-центров X Corp (Twitter).

Если вам понравилась статья, то приглашаю Вас в свой telegram‑канал «охота за технологиями», там я пишу о технологиях, которые завоевывают признание миллионов людей. Я называю свой канал — пространство для стратегов и новаторов, для тех, кто меняет правила игры и готов пойти на риск ради будущего, разрушив старые стереотипы. Буду ждать Вас там!

© Habrahabr.ru