NVIDIA собрала седьмой по мощности в мире суперкомпьютер за три недели
NVIDIA сообщила, что ей удалось спроектировать и собрать самый мощный промышленный компьютер в США всего за три недели во время пандемии. Система Selene должна обеспечить высокопроизводительные вычисления в центре обработки данных. Данный суперкомпьютер стал седьмым в мире по мощности.
Selene взаимодействует со своими операторами в Slack, имеет собственного робота-помощника и продвигает ИИ в автомобилестроении, здравоохранении и обработке естественного языка. В основе суперкомпьютера лежит открытая архитектура.
Аргоннская национальная лаборатория уже использует DGX SuperPOD для исследования способов остановить коронавирус. Университет Флориды будет использовать систему для создания самого быстрого суперкомпьютера по исследованию ИИ. Кроме того, она работает на такие компании, как Continental в автомобилестроении, Lockheed Martin в аэрокосмической отрасли и Microsoft в сфере услуг облачных вычислений.
Инженеры NVIDIA создали кластер SATURNV в 2016 году. Его основой служил графический процессор NVIDIA Pascal. Уже год спустя дебютировал более мощный графический процессор NVIDIA Volta. Впоследствии команда создала более крупные кластеры систем NVIDIA DGX-2 на базе V100, которые называются DGX POD. Они использовали 32, а затем 64 узла DGX-2, что привело к созданию 96-узловой архитектуры DGX SuperPOD. Система вышла в июне 2019 года и заняла 22-е место в списке самых быстрых суперкомпьютеров мира.
Система Selene включает 280 узлов. Инженеры создали модули из 20 узлов, соединенных относительно простыми «тонкими переключателями». Каждый из этих так называемых масштабируемых модулей можно было включить и протестировать перед добавлением следующего. Соотношение сетевых карт к графическому процессору удвоилось до 1:1. Пропускная способность узла увеличилась в 4 раза. Выросли емкость и пропускная способность каналов памяти и хранилищ.
Даже с учетом коронавирусных ограничений инженеры загружали до 60 систем в день — максимум, с которым могла справиться их площадка. Команда внедрила несколько уровней автоматизации. Так, Selene может общаться с персоналом по каналу Slack, где сообщает им о незакрепленных кабелях и изоляции неисправного оборудования. Робот Trip от Double Robotics, который работает на модуле NVIDIA Jetson TX2, регулярно использовался, чтобы позволить виртуально наблюдать за системой через камеру и микрофон.
Ранее Университет Флориды и NVIDIA опубликовали план создания самого быстрого в мире суперкомпьютера для исследований в области искусственного интеллекта. Университет получит HiPerGator 3 производительностью 700 петафлопс в начале 2021 года.
Это будет первая машина, построенная на архитектуре DGX SuperPOD. Суперкомпьютер будет включать 140 систем DGX A100, каждая из которых содержит 8 графических процессоров A100 Tensor Core. Один графический процессор поддерживает 54 миллиарда транзисторов, способных обеспечить производительность в 5 петафлопс на одном узле, а также обрабатывать 1,5 ТБ данных в секунду.
См. также: