Google Cloud анонсировала создание суперкомпьютера Compute Engine A3 для ИИ12.05.2023 12:46

Google Cloud объявила о создании суперкомпьютера Compute Engine A3 для нужд развития искусственного интеллекта. Он будет служить для обучения и обслуживания самых требовательных моделей ИИ.

Виртуальные машины A3 сочетают в себе графические процессоры Nvidia H100 с тензорными ядрами и передовые достижения Google. A3 — это первый экземпляр графического процессора, в котором используются специально разработанные IPU со скоростью 200 Гбит/с, при этом передача данных от одного графического процессора к другому осуществляется в обход узла ЦП и проходит через отдельные интерфейсы от других сетей виртуальных машин и трафика данных. Это обеспечивает до 10 раз большую пропускную способность сети по сравнению с виртуальными машинами A2.

При этом интеллектуальная сетевая структура центра обработки данных Jupiter масштабируется до десятков тысяч высокосвязанных графических процессоров и позволяет использовать реконфигурируемые оптические каналы с полной пропускной способностью, которые могут регулировать топологию по требованию. Почти для каждой структуры рабочей нагрузки достигается пропускная способность на уровне более дорогих готовых неблокирующих сетевых структур, что приводит к снижению совокупной стоимости владения.

Масштаб суперкомпьютера A3 обеспечивает производительность ИИ до 26 экзафлопс, что значительно сокращает время и затраты на обучение больших моделей машинного обучения.

Виртуальные машины также хорошо подходят для рабочих нагрузок логических выводов, обеспечивая 30-кратное повышение производительности логических выводов по сравнению с A2.

Вот основные особенности A3:

8 графических процессоров H100 с архитектурой Nvidia Hopper, обеспечивающие 3-кратную вычислительную производительность;
пропускная способность 3,6 ТБ/с пополам между 8 графическими процессорами A3 через Nvidia NVSwitch и NVLink 4.0;
масштабируемые процессоры Intel Xeon 4-го нового поколения;
2 ТБ оперативной памяти через модули DIMM DDR5 4800 МГц;
увеличенная в 10 раз пропускная способность сети благодаря аппаратным IPU, специализированному стеку межсерверной связи GPU и оптимизации NCCL.

Виртуальные машины A3 позволят компаниям обучать более сложные модели с высокой скоростью и создавать большие языковые модели и генеративный ИИ, отмечают в Google Cloud.

A3 можно развернуть на Vertex AI, комплексной платформе для создания моделей машинного обучения в полностью управляемой инфраструктуре.

Клиенты, желающие создать собственный программный стек, могут также развернуть виртуальные машины в Google Kubernetes Engine и Compute Engine.

Чтобы присоединиться к списку ожидания предварительного просмотра для A3, нужно зарегистрироваться.

Ранее компания объявила на конференции Google I/O 2023 о внедрении поддержки генеративного ИИ в Vertex AI для большего количества клиентов, а также представила новые функции и базовые модели. Также Google представила обновлённую модель искусственного интеллекта PaLM 2 и рассказала о внедрении ИИ в целый ряд своих продуктов.