[Перевод] Дата-центры Илона Маска: Tesla, Dojo, X (Twitter), xAI08.11.2024 10:46

Дата-центры играют важнейшую роль в операциях компаний Илона Маска, таких как Tesla, X Corp (Twitter) и xAI, поддерживая их сервисы, разработку ИИ и взаимодействие с пользователями. Расположенные по всему миру, включая Остин, Спаркс, Шанхай и другие ключевые города, эти дата-центры обеспечивают мощную инфраструктуру для обработки и хранения данных. В статье описывается суперкомпьютер Dojo и чип D1, а также инфраструктура X Corp и xAI, поддерживающая чат-бот Grok, который, по утверждениям Маска, ускорит создание искусственного общего интеллекта (AGI) в течение ближайших двух лет.

Обложка

Дата-центры и IT-оборудование Tesla

Tesla использует дата-центры для обработки огромных массивов данных, собираемых со своих электромобилей, включая данные с сенсоров, поведение водителей и производительность системы Autopilot. Эти ресурсы поддерживают обучение искусственного интеллекта, необходимого для улучшения технологии Full Self-Driving (FSD), которая активно тестируется и совершенствуется для автономного вождения. Важную роль здесь играет суперкомпьютер Dojo, разработанный для работы с петабайтами видео-данных, собираемых с машин Tesla, что позволяет быстрее и эффективнее тренировать нейросети, направленные на реализацию полноценного автопилота.

Экосистема Tesla

Помимо телеметрии автомобилей и обучения ИИ, дата-центры Tesla играют критически важную роль во всей экосистеме её продуктов и услуг. Они обеспечивают работу внутреннего навигационного ПО, управление данными для домашних батарей Powerwall и облегчают доступ к сети Supercharger — сети быстрых зарядных станций для электромобилей Tesla. Компания также планирует расширить свои дата-центры в Китае, чтобы поддержать дальнейшее развитие FSD в этом регионе, поскольку там ожидается высокий спрос на полуавтономные и автономные технологии.

Ускорители высокопроизводительных вычислений

Tesla использует мощные вычислительные ускорители в своих центрах обработки данных для работы над проектами в области искусственного интеллекта и автономного вождения. В дополнение к кластерам графических процессоров (GPU) NVIDIA Tesla также разрабатывает и внедряет собственные чипы D1, предназначенные для обучения нейросетей на суперкомпьютере Dojo. Этот суперкомпьютер используется для обработки огромного объема данных, собираемых с электромобилей Tesla, и обеспечивает более эффективное обучение моделей для усовершенствования системы Full Self-Driving (FSD).

Кластеры GPU

На данный момент Tesla установила более 35 000 графических процессоров NVIDIA H100 для кластеров ИИ-обучения, которые используются для разработки технологии автономного вождения Full Self-Driving (FSD). К концу 2024 года Tesla планирует увеличить число таких GPU до 90 000.

Обучающая способность Tesla AI – графические процессоры, эквивалентные H100

Обучающая способность Tesla AI — графические процессоры, эквивалентные H100

Однако в 2024 году Илон Маск решил перенаправить часть GPU, зарезервированных для Tesla, в X Corp (Twitter) и xAI, объяснив это тем, что Tesla пока не имеет необходимой инфраструктуры для их использования, и оборудование осталось бы на складе.

Суперкомпьютер Dojo и чипы D1

Dojo — это уникальный суперкомпьютер, разработанный Tesla для работы с крупными задачами машинного обучения и обработки петабайтов данных, поступающих с электромобилей Tesla. Эти данные, в основном видеоматериалы, используются для более эффективного обучения нейронных сетей, что необходимо для улучшения работы FSD. Tesla ставит цель превзойти традиционные возможности GPU с помощью Dojo, используя специально разработанные чипы D1, которые ориентированы на задачи ИИ-обучения. Илон Маск также отметил, что Tesla планирует «удвоить усилия» в разработке Dojo, инвестируя более $1 млрд в его развитие, включая расходы на исследования, разработку чипов и содержание центров данных.

Dojo

В более широком контексте, Tesla ожидает, что капитальные затраты (CapEx) компании превысят $10 млрд в 2024 году.

Компоненты суперкомпьютера Dojo Tesla

Ниже представлен подробный разбор аппаратной архитектуры, поддерживающей суперкомпьютер Dojo от Tesla, начиная с самого маленького компонента — чипа D1 и до полного суперкомпьютера Dojo:

Чип D1: Основной кастомный чип ИИ, разработанный Tesla специально для задач ИИ-обучения. Каждый чип D1 имеет вычислительную мощность 362 терафлопс (TFLOPS).
Тренировочный блок: Группа из 25 чипов D1, работающих совместно и расположенных в конфигурации 5×5. Тренировочный блок способен достигать до 9 петабайтов (PFLOPS) вычислительной мощности.
Системный лоток: Содержит 6 тренировочных блоков, объединённых на одной плате. Системный лоток может достигать до 54 петабайтов (PFLOPS) вычислительной мощности.
Шкаф: Содержит 2 системных лотка с резервными источниками питания, обеспечивая до 108 петабайтов (PFLOPS) вычислительной мощности. Шкафы также содержат ключевые сборки, включая процессоры интерфейса Dojo: память для обучения (32 ГБ высокоскоростной DRAM) и разобщённую память (640 ГБ высокоскоростной DRAM), а также интерфейс хоста Dojo (всего 512 ядер x86).
ExaPOD: Система из 10 шкафов, представляющая собой 1,1 эксафлопс (квинтильоны операций с плавающей точкой в секунду) вычислительной мощности.
Суперкомпьютер Dojo: Изначальная настройка суперкомпьютера Dojo от Tesla включала около 3000 чипов D1, состоящих из тренировочных блоков (25 чипов D1), системных лотков (6 тренировочных блоков), шкафов (2 системных лотка) и 10 шкафов, образующих ExaPOD. Модульная архитектура Dojo позволяет комбинировать несколько ExaPOD, что даёт возможность масштабировать систему Dojo для ещё большей мощности.

Суперкомпьютер Dojo от Tesla разработан для того, чтобы соединять и масштабировать вычислительные мощности с целью высокопроизводительного, высокоскоростного и с низкой задержкой обучения нейронных сетей. Компания утверждает, что с помощью Dojo время обучения ИИ может быть сокращено с месяца до недели.

К концу 2024 года система Dojo 1 будет обладать вычислительными мощностями, эквивалентными примерно 8 000 графических процессоров NVIDIA H100, при этом Tesla планирует достичь 100 эксафлопс вычислительных мощностей для внутреннего обучения нейронных сетей.

Внутренняя проекция вычислительной мощности Dojo от Tesla

Питание и охлаждение суперкомпьютера Tesla Dojo

Достаточное энергопотребление и охлаждение имеют решающее значение для суперкомпьютера Tesla Dojo благодаря его компактным и высокопроизводительным компонентам, включая чипы D1 и ExaPODs. Эта ИТ-инфраструктура требует значительного энергопотребления и выделяет огромное количество тепла во время интенсивных задач по обучению ИИ. Эффективное управление этим выделением тепла необходимо для обеспечения оптимальной производительности и предотвращения сбоев оборудования.

Dojo поддерживает мощность более 200 киловатт (кВт) на шкаф (и мегаватт на модуль ExaPOD). Чтобы удовлетворить свои требования к высокой мощности охлаждения, Dojo использует специальный блок распределения охлаждения (CDU), как показано выше.

Локации дата-центров Tesla

Tesla управляет несколькими стратегически важными дата-центрами по всей территории США и за рубежом для поддержки своих потребностей в вычислительных мощностях.

Остин, Техас
Tesla строит новый суперкомпьютер Dojo в своей штаб-квартире в Остине, Техас, чтобы разместить свой крупнейший кластер для обучения ИИ на сегодняшний день. Этот кластер будет расположен рядом с заводом по производству автомобилей Giga Texas и в настоящее время находится на стадии строительства (с задержками), при этом предусмотрена водяная система охлаждения.
На данный момент Tesla переносит серверные стойки с H100 GPU в только что завершённое расширение Giga Texas на юге. Кластер для обучения ИИ будет включать 2 000 графических процессоров NVIDIA H100 и 20 000 компьютеров AI5 от Tesla. В конечном счёте южное расширение Giga Texas разместит кластер из 50 000 графических процессоров NVIDIA H100, который поможет ускорить развитие технологии Full Self-Driving (FSD) от Tesla.

Рено (Спаркс), Невада
Tesla открыла дата-центр на своём заводе Gigafactory Nevada, который занимается производством литий-ионных аккумуляторов и компонентов для электромобилей в Спарксе, Невада, неподалёку от Рено, в округе Стори. Кроме того, Tesla является клиентом компании Switch, Inc. на кампусе Citadel, расположенном рядом с Gigafactory Nevada в Спарксе. Компания Switch также делит с Tesla солнечную электростанцию в этом районе.

Сан-Хосе, Калифорния
Tesla управляет суперкомпьютером Dojo в Сан-Хосе, Калифорния. Также компания планирует установить 7 ExaPOD в Пало-Альто, Калифорния, который является центром инженерных и научно-исследовательских работ Tesla. Это расширение, вероятно, увеличит вычислительные мощности Tesla до 8,8 эксафлопс (вместо текущих 1,1 эксафлопс).

Сакраменто, Калифорния
Tesla арендует дата-центр в Сакраменто, Калифорния, у NTT Global Data Centers, который ранее был освобождён компанией X Corp (бывший Twitter). Этот дата-центр используется для обработки рабочих нагрузок по машинному обучению, включая симуляции автономных автомобилей.

Шанхай, Китай
Tesla управляет дата-центром в Шанхае, Китай, чтобы соответствовать китайским нормативным требованиям, требующим хранения данных на местном уровне. Компания хранит все данные, связанные с продажами автомобилей на материковом Китае, локально, что позволяет удовлетворить требования китайских властей по безопасности данных.
Компания GDS Holdings, крупнейший оператор нейтральных дата-центров в Китае, заявила, что Tesla является одним из её клиентов. В общей сложности GDS управляет 28 объектами в Шанхае и районе дельты Янцзы.

Дата-центры X Corp (Twitter)

X Corp (ранее Twitter) использует дата-центры для хранения и обработки огромных объемов данных пользователей, включая твиты, прямые сообщения и загрузки медиафайлов. Эти дата-центры также поддерживают алгоритмы платформы для рекомендаций контента, анализа трендов и таргетинга рекламы, что позволяет сервису обрабатывать миллионы взаимодействий в реальном времени по всему миру.

С момента покупки Twitter Илоном Маском за $44 миллиарда в октябре 2022 года компания упрощает свою ИТ-инфраструктуру, выполняя следующие шаги:

Закрытие и сокращение числа дата-центров
Снижение серверных мощностей
Снижение расходов на облачные технологии

Несмотря на эти сокращения, X Corp увеличила мощность своих ускорителей высокопроизводительных вычислений. Компания недавно приобрела 10 000 графических процессоров NVIDIA для разработки ИИ, с целью создания кластеров суперкомпьютеров на базе GPU на своей территории.

В США X Corp управляет дата-центрами в нескольких ключевых локациях:

Атланта, Джорджия
X Corp арендует мощность в дата-центрах QTS Data Centers в районе Атланты, Джорджия. Одним из значимых объектов является дата-центр QTS Atlanta 1 DC1 и DC2.

Кроме того, в дата-центре QTS Atlanta 1 DC2, компания X Corp получила налоговые льготы в размере 10,1 млн долларов в течение 10 лет в рамках проекта стоимостью 700 млн долларов по развертыванию ИТ-оборудования и аппаратуры искусственного интеллекта на объекте.

Однако X Corp также недавно сократила штат нераскрытого предприятия в Атланте.

Портленд (Хиллсборо), Орегон
X Corp арендует более 50 мегаватт (МВт) мощности в дата-центрах, принадлежащих компании Digital Realty, в Хиллсборо, Орегон, западном пригороде Портленда. Орегон имеет избыточные гидроэнергетические ресурсы, что обеспечивает низкую стоимость (от $0.05 до $0.07 за кВт⋅ч) и экологически чистое электричество для дата-центров.

Сакраменто, Калифорния — Закрытие
В рамках рационализации своей ИТ-инфраструктуры X Corp покинула объект, принадлежащий NTT Global Data Centers, в Сакраменто, Калифорния, после окончания срока аренды. Позже Tesla заняла часть освободившегося пространства в этом дата-центре.

X Corp также закрыла другое предприятие в Сакраменто, принадлежащее Prime Data Centers. Ранее это предприятие было закрыто в сентябре 2022 года во время аномальной жары в Калифорнии.

В целом X Corp утверждает, что с закрытием своих дата-центров в Сакраменто сэкономила $100 миллионов в год. Закрытие освободило 48 МВт мощности и включало перемещение 5 200 стоек и 148 000 серверов.

Поставщики облачных услуг (CSPs)
X Corp заключила многолетние контракты с облачными сервисами, включая Amazon Web Services (AWS), Google Cloud и Oracle Cloud. Тем не менее, компания сообщила о 60%-ном сокращении своих ежемесячных затрат на облачные услуги благодаря репатриации рабочих нагрузок. Также была сокращена на 60% площадь облачного хранения данных и на 75% снизились затраты на обработку облачных данных.

Центры обработки данных xAI

xAI — это компания, занимающаяся искусственным интеллектом, основанная Илоном Маском в 2023 году с целью разработки передовых систем искусственного интеллекта для понимания истинной природы Вселенной. Компания стремится создать «хороший AGI» (общий искусственный интеллект) и выпустила чат-бота с искусственным интеллектом и языковую модель Grok.

В мае 2024 года xAI привлекла капитал в размере 6 миллиардов долларов, оценив компанию в 24 миллиарда долларов. Кроме того, Илон Маск в настоящее время добивается одобрения совета директоров Tesla на инвестиции в xAI в размере 5 миллиардов долларов.

xAI использует дата-центры для обеспечения вычислительной мощности и хранения данных, необходимых для обучения и работы своего чат-бота с искусственным интеллектом Grok. Эти дата-центры выполняют задачи, такие как обучение модели обработки естественного языка на данных пользователей X Corp (Twitter), выполнение выводов и хранение огромных объемов данных. Кроме того, Илон Маск упомянул о возможных возможностях интеграции Grok в программное обеспечение Tesla.

xAI выпустила Grok-1.5 и в настоящее время обучает Grok-2 с использованием 20 000 GPU NVIDIA H100. Илон Маск оценивает, что для Grok-3 потребуется 100 000 GPU. В связи с этим ближайшие планы xAI для дата-центров включают:

Развертывание обучающего кластера из 100 000 GPU NVIDIA H100 с жидкостным охлаждением до конца 2024 года
Добавление еще одного кластера из 300 000 GPU NVIDIA B200 (Blackwell), начиная с лета 2025 года

Мемфис, Теннесси
xAI планирует построить самый большой суперкомпьютер в мире, названный «Гигафабрика вычислений», в Мемфисе, Теннесси. Этот суперкомпьютер будет размещен в 150-мегаваттном (МВт) дата-центре, расположенном в промышленном парке рядом с рекой Миссисипи на юго-западе Мемфиса. Конкретно дата-центр займет бывший завод Electrolux площадью 750 000 квадратных футов в районе Бокстаун на юге Мемфиса.

Илон Маск планирует полностью ввести в эксплуатацию новый завод xAI к осени 2025 года, что представляет собой многомиллиардные инвестиции в Мемфисе. В рамках этого обязательства xAI планирует потратить 24 миллиона долларов на новую подстанцию и взяла на себя обязательства по вводу 150 МВт электроэнергии от Memphis Light, Gas and Water (MLGW) к концу 2024 года.

Известная также как Мемфисский суперкластер, система будет использовать единую сеть RDMA (Remote Direct Memory Access), чтобы подключить до 100 000 GPU NVIDIA H100. Серверы для суперкомпьютера xAI в Мемфисе поставляют Dell и Supermicro.

Поставщики облачных услуг (CSPs)
Oracle Cloud предоставляет значительную часть существующей инфраструктуры для обучения ИИ xAI:

В настоящее время xAI арендует около 16 000 GPU NVIDIA H100 в Oracle Cloud
xAI заключила контракт на 24 000 GPU NVIDIA H100 с Oracle Cloud для обучения Grok-2 В июле 2024 года xAI, как сообщается, прекратила переговоры о $10 миллиардном многолетнем расширении ИИ и закупке дополнительной мощности GPU/серверов у Oracle Cloud.

Кроме того, xAI использует облачные услуги от Amazon Web Services (AWS) и использует резервную мощность дата-центров X Corp (Twitter).

Если вам понравилась статья, то приглашаю Вас в свой telegram‑канал «охота за технологиями», там я пишу о технологиях, которые завоевывают признание миллионов людей. Я называю свой канал — пространство для стратегов и новаторов, для тех, кто меняет правила игры и готов пойти на риск ради будущего, разрушив старые стереотипы. Буду ждать Вас там!