ЦОД без GeForce и Titan: в NVIDIA изменили лицензионное соглашение17.01.2018 16:20

Компания NVIDIA изменила лицензионное соглашение для драйвера, и теперь использовать графические процессоры GeForce и Titan в дата-центрах запрещено. Почему так получилось, кого коснутся изменения, и какие есть альтернативы, читайте под катом.

/ фото Fritzchens Fritz PD

Что изменилось

NVIDIA добавила в статью 2.1.3 пользовательского соглашения GeForce Software новое положение. Оно гласит: «No Datacenter Deployment. The SOFTWARE is not licensed for datacenter deployment, except that blockchain processing in a datacenter is permitted» и касается продуктов NVIDIA GeForce и Titan. Теперь запрещено использовать эти карты для любых задач, кроме работы с блокчейн-технологиями. Для работы с машинным обучением и моделирования в ЦОД теперь можно использовать только Tesla V100. Почему компания приняла такое решение расскажем далее.

В чем причина

Компания NVIDIA начинала свой путь как разработчик графических процессоров для игровой индустрии. Позднее эти ускорители стали использовать в исследовательских и бизнес-целях, в том числе в дата-центрах (о том, почему GPU лучше подходит для высокопроизводительных вычислений, мы уже писали здесь).

Однако, как заявляют представители NVIDIA, графические ускорители GeForce и Titan не предназначены для развертывания в дата-центрах. Работа ЦОДов связана с высокими требованиями к аппаратным и программным решениям в режиме 24×7. При этом нельзя гарантировать работоспособность этих карт в помещении с высокой плотностью оборудования в стойках и, соответственно, высокой температурой окружающей среды.

Взамен NVIDIA предлагает использовать Tesla V100 — графический ускоритель, разработанный специально для работы в условиях машинных залов и обладающий большей производительностью. Если говорить о 64-битных операциях с числами с плавающей запятой, Tesla гораздо мощнее GeForce: 7 терафлопсов против 0,355 терафлопсов (GTX 1080 Ti). Карты Tesla также превосходят GeForce на операциях с числами половинной и одинарной точности с плавающей запятой.

В NVIDIA также считают решение Tesla более стабильным, потому — более подходящим для бизнеса. Например, стабильность обеспечивает технология NVIDIA NVLink — компьютерная шина, которая служит для связи CPU и GPU и использует протоколы кеш-когерентности.

Кого коснется изменение

Архитектура параллельных вычислений CUDA от NVIDIA широко поддерживается библиотеками машинного обучения cuDNN, поэтому исследователи и разработчики систем искусственного интеллекта перешли на продукты NVIDIA, чем вызвали рост акций компании на 85% в 2017 году.

Например, университеты Флориды и Северной Каролины с помощью NVIDIA разрабатывают движок нейронной сети для моделирования в области квантовой механики.

Многие организации работают с картами GeForce и Titan из-за цены. GeForce GTX 1080 Ti стоила 699 долларов. Для сравнения, последняя карта Tesla V100, заточенная под ЦОДы, стоит около тысяч долларов. Добавленный пункт соглашения может стать препятствием для проведения исследований и разработки новых продуктов.

Но при всем при этом в NVIDIA отмечают, что изменения не коснутся тех исследователей и разработчиков, которые адаптируют продукты компании для некоммерческих целей и используют ускорители вне ЦОДов.

Альтернативные решения

Пользователи Reddit указывают на то, что запрет касается только софта, а не железа. Поэтому можно писать собственные драйвера и затем использовать видеокарты от NVIDIA легально. Однако это сложно осуществить на практике, потому что ИТ-гигант не предоставил соответствующих спецификаций для железа (часть пользователей убеждена, что это вообще невозможно, так как контроллеры на всех картах NVIDIA не поддерживают ничего, кроме фирменных драйверов).

Ещё один вариант — использовать старые драйвера, на которые не распространяются изменения в новом лицензионном соглашении. Но в этом случае придется смириться с ограниченным уровнем поддержки.

Также резиденты Reddit отмечают, что стоит обратить внимание на проект ROCm (Radeon Open Compute) — open-source-платформу для высокопроизводительных вычислений на графических процессорах, которая не зависит от языка программирования. Платформа позволяет работать практически с любой видеокартой, в том числе с продуктами NVIDIA.

Это возможно благодаря HIP (Heterogeneous-Computing Interface for Portability) — диалекту С++, который упрощает преобразование приложений CUDA в портируемый код на С++. Инструмент Hipify автоматизирует процесс конвертирования, что позволяет запускать HIP-код на «железе» AMD (с помощью компилятора HCC) и NVIDIA (с помощью компилятора NVCC).

P.S. Материалы по теме из нашего блога на Хабре:

Разреженные матрицы: как ученые ускорили машинное обучение на GPU
Первый суперкомпьютер DGX-1 на базе Tesla V100 применят в медицине

P.P. S. Материалы из Первого блога о корпоративном IaaS:

Решение распространенных проблем в облаке IaaS: низкая производительность
Топ-4 рекомендаций к модернизации СХД
Как справиться с пиковыми нагрузками при помощи IaaS