Антон Чунаев, Selectel: о настоящем и будущем высокопроизводительных вычислений, видеокартах и рынке ML

23 Августа 2023 10:0023 Авг 2023 10:00 |
Поделиться

Российский рынок GPU Cloud относительно молод и переживает период бурного развития. Технологически речь идет о регулярном появлении новых видеокарт и облачных сервисов на базе GPU. С точки зрения решаемых задач рынок подстегивает повсеместное развитие ML и AI-технологий, в особенности голосовых и текстовых чат-ботов. Антон Чунаев, менеджер ML-продуктов Selectel, рассказал, какие сервисы на базе GPU предоставляет Selectel, для кого они актуальны и какие тенденции существуют на рынке.

О тенденциях на рынке GPU и дефиците видеокарт

Market.CNews: Что происходит с российским рынком видеокарт сегодня, какие технологии оказывают на него влияние?

Антон Чунаев: Одним из ключевых факторов развития мирового рынка GPU является бум LLM-моделей (Large Language Model, большие языковые модели), наиболее известной из которых является ChatGPT. В России уже есть компании, которые активно используют эту технологию в своем бизнесе или в настоящее время проводят пилотные проекты.

В основном в эту сферу идет крупный бизнес, у которого достаточно компетенций, вычислительных мощностей и финансовых ресурсов для внедрения подобных технологий. Кроме того, у таких компаний много текстовых данных и задач по их обработке, например, из клиентских запросов. Внедрение языковых моделей может снять нагрузку с сотрудников за счет автоматизации рутинных операций. Иными словами, для них развитие этого направления экономически целесообразно.

В то же время сейчас появляется множество open-source LLM-моделей, которые доступны каждому. Но серьезные эксперименты под силу только крупным компаниям. Дело в том, что перед созданием любой модели возникает дилемма: или это будет простая модель, которая будет давать средние результаты, но с небольшими затратами на инфраструктуру, или комплексная модель с хорошими результатами, но большими затратами на инфраструктуру. Под инфраструктурой следует понимать пул вычислительных серверов с видеокартами и всей сопутствующей оснасткой.

О тренде на LLM говорят и производители видеокарт. Так, последние модели GPU от AMD с объемом видеопамяти 192 Гб изначально позиционируются как ресурсы для решения LLM-задач. Аналогичный ответ ожидается и от NVIDIA в лице NVIDIA GH200 Grace Hopper.

Рад буду обсудить эти и другие тренды в нашем сообществе для ML- и MLOps-инженеров или на ежегодной конференции «MLечный путь», которая вновь пройдет в этом сентябре.

Market.CNews: Если говорить о клиентах, то что это за компании и есть ли градация в плане используемых графических ускорителей?

Антон Чунаев: Если говорить про Россию, то можно интерпретировать принцип Парето: 80% спроса на ресурсы с GPU создается 20% компаний. Реальные числа подсчитать сложно, но работа в этом направлении ведется (например, научно-исследовательскими организациями). Практически все решения касаются голосовых или текстовых роботов и сферы медицинских технологий. Наиболее крупные игроки не только решают свои внутренние задачи, но и создают сервисы для внешних клиентов — это, например, Яндекс, VK, Сбер.

Можно также разделить клиентов по сложности решаемых ими задач. Тут логично, что крупные игроки могут решать задачи более сложные и комплексные, чем малый и средний бизнес. Зачастую в крупных компаниях существуют сразу несколько подразделений, каждое из которых развивает отдельное ML-направление. Чем больше команд занимаются ML-разработкой и чем сложнее модели, которые они разрабатывают (сложность, в том числе, определяется количеством параметров ML-модели, которые могут исчисляться миллиардами), тем больше спрос на вычислительные ресурсы с GPU.

Простой пример: для обучения большой языковой модели одного из ведущих игроков российского рынка потребовалось использовать 800 видеокарт NVIDIA A100 в течение 65 дней. При этом модель училась на датасете размером в 1,7 Тб. Очевидно, что «потянуть» такую инфраструктуру может только крупная компания.

Новые версии LLM стараются делать с учетом сокращения необходимых для обучения вычислительных ресурсов, но даже с учетом этого требуемое для обучения количество GPU значительно превышает возможности подавляющего большинства компаний.

Маленькие и средние игроки стараются избирательно подходить к вычислительным ресурсам. Если для крупных компаний масштабировать вычислительную инфраструктуру серверами с восемью самыми производительными видеокартами — это нормальная практика, то остальные покупают их исходя из текущих потребностей. Очень часто в этом сегменте можно встретить R&D-команды, которые продают свою ML-экспертизу. Либо это нанятая команда в штат, либо это компания, занимающаяся outsource-разработкой. В их сценариях достаточно использования нескольких серверов с несколькими GPU под проект.

Market.CNews: Ожидаете ли вы дефицит видеокарт в России?

Антон Чунаев: На данный момент нет, поскольку удалось наладить новые каналы поставок. Конечно, видеокарты приходится бронировать заранее и цена несколько выше, но сам механизм работает. Если новых потрясений не будет, то проблем не ожидается. Однако они могут возникнуть, если что-то случится в Тайване, так как основное производство NVIDIA находится именно там.

Помимо NVIDIA стоит рассмотреть и других производителей. Хорошие видеокарты делает AMD, но уровень развития их программных компонентов пока уступает NVIDIA CUDA и смежным с ней. В скором времени GPU научатся делать и китайцы. Они уже выпускают достойные аналоги (например, MTT S80), но пока для них не хватает хороших драйверов, из-за чего их сейчас очень сложно использовать. В течение двух-трех лет, я полагаю, эта проблема будет решена. Впрочем, если компания умеет писать софт под «железо», то их можно использовать уже сейчас.

О преимуществах Selectel в сегменте GPU Cloud

Market.CNews: Отличается ли инфраструктура для GPU от инфраструктуры для CPU? Если речь заходит о выборе провайдера, то почему выбирают именно Selectel?

Антон Чунаев: Основное отличие заключается в производительности тракта передачи данных. CPU является универсальным вычислительным устройством и может выполнять любые операции, но медленно. GPU же специально «заточен» на очень быстрое выполнение определенного типа вычислительных операций.

Если хочется использовать всю производительность GPU, то придется подбирать подсистему хранения данных, объем и частоту оперативной памяти, сетевые каналы между хранилищем данных и серверами с GPU, специальные платформы для установки GPU и так далее. То есть важно сделать так, чтобы утилизация GPU была максимальной. Иначе вы покупаете дорогой ресурс, использовать все возможности которого нет физической возможности.

Если посмотреть на глобальных облачных провайдеров, то конфигурации серверов для тех же LLM просто пугающие, например, в AWS EC2 P5 Instance 640 Гб видеопамяти, 2 Тб оперативной памяти, 3200 Гбит/c пропускная способности сети. К тому же производители видеокарт в своих профессиональных линейках добавляют возможности настройки совместной работы нескольких GPU, что также необходимо учитывать.

Что касается выбора провайдера, то к нам приходят, в первую очередь, как к независимому провайдеру, для которого оказание облачных инфраструктурных услуг является главным и единственным направлением бизнеса. Selectel не является частью экосистемы: у нас нет и не может быть конфликта интересов с клиентами, поэтому размещать данные у нас безопасно и надежно.

Кроме того, мы предоставляем услуги на базе нескольких геораспределенных дата-центров, что позволяет клиентам построить отказоустойчивую инфраструктуру. В плане GPU мы предлагаем как самые современные видеокарты, так и более бюджетные модели, а сами GPU доступны не только в облачных, но и в выделенных серверах, а также в Managed Kubernetes и VDI.

Market.CNews: У большинства провайдеров один-два, максимум три вида GPU-карт. У вас их более десятка. С чем это связано? Какие видеокарты наиболее востребованы и почему?

Антон Чунаев: Нам интересен рынок GPU. Мы постоянно изучаем потребности клиентов и для этого держим широкий ассортимент видеокарт.

Разные заказчики привыкли к разным картам. На своих серверах или где-то в другом облаке они работали с той или иной моделью GPU. Конечно, можно их вынудить перейти на другую видеокарту, но миграция пройдет гораздо проще, если мы предоставим им ту модель GPU, с которой они уже работали.

Есть компании, которые предпочитают использовать самые дешевые — RTX A2000, Tesla T4 и A2. Для инференса лучше подходят A2, для обучения моделей — T4. Помимо этого, мы наблюдаем постоянный спрос на видеокарты A100 — на сегодняшний день из доступных это пока топовая модель, обладающая максимальным объемом видеопамяти. Но мы уже исследуем возможности закупки новой модели — NVIDIA H100.

В текущих условиях в сервер можно вставить максимум восемь видеокарт, поэтому многие компании арендуют их кратно этому числу. Если их сервис активно развивается и имеющиеся мощности используются, они берут в аренду еще восемь, чтобы получить запас для роста нагрузки.

Market.CNews: Среди услуг, оказываемых на базе GPU, вы перечислили облачные и выделенные серверы, Managed Kubernetes и VDI. В чем разница между ними и какие задачи клиенты решают с их помощью?

Антон Чунаев: Выделенные серверы с GPU — это отличное решение для крупных компаний с собственными ИТ-компетенциями и весьма сложными задачами. В этом продукте нет каких-то верхнеуровневых технических ограничений, поэтому спрос ограничен исключительно количеством комплектующих на нашем складе. Можно просто написать нам и получить несколько десятков серверов нужной конфигурации в оговоренный срок с доступом прямо из нашей панели управления. Бери и пользуйся!

Воблачных серверах значительно ниже требования к технической компетенции пользователя. Как и любой облачный провайдер, мы стремимся упростить сложные аспекты работы с железом, чтобы клиент больше уделял времени развитию своего проекта. На базе облачной платформы строятся сразу несколько продуктов Selectel:

  • Data Science Virtual Machine — облачные серверы с предустановленными драйверами, библиотеками и фреймворками для машинного обучения и анализа данных.
  • Data Analytics Virtual Machine — еще один тип облачных серверов с предустановленными драйверами, но уже с набором популярных open-source инструментов для сбора, обработки и визуализации данных.
  • ML-платформа — готовый преднастроенный кластер Kubernetes с GPU для командной работы над ML-экспериментами.

GPU в Managed Kubernetes актуален для многопользовательских и высоконагруженных решений. Конечно, если вы умеете разделять среды для разных приложений на уровне операционной системы, то можно обойтись облачными серверами. Но гораздо удобнее использовать оркестратор Kubernetes для контейнерной разработки ML и AI-решений.

GPU в VDI пользуется спросом среди девелоперов и дизайнерских компаний, где необходимо наладить удаленную работу сотрудников и избежать трат на мощные компьютеры для них. В таких решениях используются видеокарты, хорошо зарекомендовавшие себя в работе с 3D-графикой — это линейка Quadro или RTX с моделями A6000, A5000, A4000.

Market.CNews: А в плане GPU-серверов, какие пользуются большим спросом, облачные или выделенные?

Антон Чунаев: Крупные компании в основном работают напрямую с «железом», на котором они сами разворачивают свои платформенные сервисы.

Иная ситуация в малом бизнесе. Таким компаниям удобнее работать с облачными серверами и использовать их по своему усмотрению: кто-то учится и пока только разбирается в своей нише, другие тестируют и обучают нейронные сети, третьи уже выкатывают готовый продукт на рынок.

О нюансах применения GPU в инфраструктуре: как снизить затраты

Market.CNews: Облака славятся легкостью масштабирования. В случае с GPU все обстоит так же просто, как и в случае CPU?

Антон Чунаев: И да, и нет. В масштабировании одинаковых серверов сложностей обычно не возникает. Но они могут появиться при попытке масштабировать серверы со сложной конфигурацией. Под сложной конфигурацией я понимаю объединение нескольких GPU через NVLink, разделение видеокарт через технологию MIG или любые другие дополнительные действия с сервером. Чем более изощренные требования к серверу у клиента, тем меньше вероятность быстро получить требуемые ресурсы.

Мы проделали большую работу, чтобы пользователи могли быстро, по меркам рынка, получать нестандартные конфигурации серверов. А если рассматривать только облачные серверы, то мы создали запас ресурсов, чтобы можно было масштабироваться по нажатию пары кнопок в нашей панели управления.

Market.CNews: А где та граница, которая определяет, стоит компании идти в облако или выгоднее купить свой сервер и делать вычисления на нем?

Антон Чунаев: Этот вопрос можно перефразировать: хотите вы быть ИТ-компанией или нет? Если вы готовы администрировать сервер, обновлять железо, заниматься резервированием, брать на себя функции DevOps, при этом оставаясь прибыльным бизнесом, то можно рассмотреть покупку собственного оборудования.

Отдельно стоит рассмотреть вопросы соответствия 152-ФЗ. Запереть сервер за железной дверью не значит соответствовать требованиям законодательства по обработке и хранению персональных данных.

Стоит сказать, что некоторые заказчики боятся облаков, так как им кажется, что они не смогут полностью контролировать происходящие там процессы. При этом они считают, что сами смогут построить систему надежнее и дешевле. Шанс, конечно, есть, но придется потратить на это массу времени и ресурсов, замедляя при этом развитие своего бизнеса.

Если же ваша цель сфокусироваться на разработке и продаже конкретного ML или AI-продукта и не думать об инфраструктуре, то, конечно, выгоднее работать в облаке. Главное — не игнорировать этап анализа своих потребностей и задавать все волнующие вопросы провайдеру, чтобы он мог помочь с подбором необходимых решений. В Selectel для этого существует отдельная команда.

На мой взгляд, гибридный подход к инфраструктуре становится все популярнее. Если вам хочется иметь собственное «железо» для обработки чувствительных данных, то пожалуйста, но если появляется необходимость быстро нарастить ресурсы, проще это сделать в облаке. Хотя бы до того момента, пока не приедет заказанное оборудование.

Market.CNews: Использование видеокарт требует больших финансовых вложений как при on-premise вычислениях, так и у провайдера. Что Selectel как провайдер может предложить для оптимизации затрат?

Антон Чунаев: Можно выделить несколько основных подходов к снижению затрат на инфраструктуру с GPU:

  • использование более дешевых серверов и моделей GPU;
  • параллельное выполнение на одном сервере нескольких вычислительных задач;
  • специальные продукты облачных провайдеров с пониженными характеристиками доступности, но с большими скидками. Например, в Selectel есть прерываемые облачные серверы с GPU, которые стоят до 75% дешевле, чем обычные, но работают они не более 24 часов после создания и могут быть остановлены с нашей стороны в любой момент (например, если на виртуальном хосте не хватит ресурсов для других облачных серверов).

В любом случае от клиента потребуются дополнительные действия для адаптации своих процессов к схеме снижения затрат. Тем не менее в большинстве ситуаций можно найти приемлемый выход. Для этого рекомендую общаться с провайдером и описывать круг решаемых задач. Selectel всегда занимает партнерскую позицию по отношению к клиентам, мы готовы погрузиться в бизнес заказчика и предложить кастомное решение в зависимости от его потребностей.

Токен: Kra23p9ApРекламодатель: ООО «Селектел»ИНН/ОГРН: 7842393933 / 1089847357126Сайт: https://selectel.ru/

Полный текст статьи читайте на CNews