One more ПК для Machine Learning по цене RTX409020.09.2024 12:45

«Искусственный интеллект может стать лучшим или худшим, что когда-либо случалось с человечеством.» Стивен Хокинг

Привет всем! Сильно подогретая в последнее время тема шествия Искусственного Интеллекта (ИИ) по планете не только не угасает, но и каждый день привлекает всё больше внимания, не давая покоя никому и вызывая дискуссии и споры — от профессиональных до суеверных. LLM типа ChatGPT, Gemini, YandexGPT и другие модели совершенствуются, сервисы на их базе становятся всё более распространёнными и доступными, и появляется всё больше интересного, что можно сделать с их применением.

Уже появилось большое количество открытых обученных LLM моделей — запускай свой GPT на поводке, как говорится, и твори чудеса. Также, мне давно хотелось погонять как Стабильную (так и не очень) Диффузию. Кроме того, работа моя сейчас связана с программированием и обучением более простых сетей для предсказаний на временных рядах. Так что с моделями для экспериментов проблем нет, а вот с вычислительными ресурсами для обучения дела обстоят значительно хуже. Варианты с арендой серверов с видеокартами подходят для небольших краткосрочных экспериментов из-за высокой стоимости и, безусловно, могут быть вариантом для бизнеса, но для домашней экспериментальной лаборатории это не лучший выбор.

Короче говоря, решил я собрать свой ПК для запуска больших и малых, умных и не очень, но полностью искусственных моделей и вот что из этого получилось.

«Каша из топора»

Как в известной сказке, каша как бы вдруг появляется вокруг топора, так и ПК для машинного обучения появляется вокруг видеокарты. Выбор карты — самый важный шаг. Как я уже говорил, меня интересовали большие языковые модели, а это значит, что памяти много быть не может. Из доступных на рынке непрофессиональных игровых видеокарт — максимальный объем памяти, на который можно расчитывать — 24Gb.

Лидером сейчас является Nvidia RTX4090, которая выдает недостижимые другими результаты по производительности, имеет максимальный объем новой быстрой памяти GDDR6X, шустра как электровеник и красива как новый холодильник на распродаже. Обратной стороной всех ее выдающихся свойств является негуманная цена — ориентировочно от 200К рублей. Жаба, сидевшая внутри меня задушила мысли о совершенстве на этом этапе и заставила искать «трешку, но в Бутово». Рассматривал разные варианты, включая AMD, кстати, но все-таки они по целому ряду характеристик сильно уступают. В итоге выяснил что, несмотря на то, что Nvidia выпускает уже целую линейку серии 4ххх других карт с желаемым объемом памяти нет. Зато в предыдущем поколении 3xxx имеется вариант RTX3090. Эта карта, конечно уступает по производительности 4090, но существенно более доступна по цене и имеет 24Gb на борту.

А поскольку, я не гордый, и готов был на бу лошадку, обратил взоры свои на свежие объявления всем известного ресурса. И на первой же странице, бац, и звезды карты сошлись! MSI GeForce RTX 3090 Ti Gaming X Trio 24G всего за 80К рублей! То есть не просто RTX 3090, а еще и Ti. Тянуть не стал и мой топор для каши был у меня в руках уже в тот же день.

Под катом чуть-чуть про RTX3090Ti

Немного про главную звезду моей сборки — MSI GeForce RTX 3090 Ti Gaming X Trio 24G. Да, это не флагманская RTX 4090, но и стоит она значительно дешевле. Несмотря на то, что RTX 3090 Ti уступает новинке в производительности, она обладает рядом преимуществ, которые делают её отличным выбором для машинного обучения.

Почему RTX 3090 Ti?

24 ГБ видеопамяти: Позволяет работать с большими моделями и датасетами без необходимости прибегать к оптимизациям, снижающим качество.
Тензорные ядра: Версия Ti оснащена тензорными ядрами 3-го поколения, которые существенно ускоряют операции, связанные с машинным обучением и глубоким обучением.
Доступность: Цена 80 000 рублей (в моем случае) делает её более привлекательной по сравнению с RTX 4090, стоимость которой начинается от примерно 200 000 рублей.

Возможности RTX 3090 Ti

Машинное обучение: Тензорные ядра и большой объем памяти позволяют обучать сложные нейронные сети быстрее и эффективнее.
Генерация изображений: Работа со Stable Diffusion и другими моделями генерации изображений становится более комфортной и быстрой.
Обработка больших данных: Высокая пропускная способность и производительность ускоряют анализ и обработку больших объемов информации.

Сравнение NVIDIA GeForce RTX 3090 Ti и NVIDIA GeForce RTX 4090:

Характеристика	NVIDIA GeForce RTX 3090 Ti	NVIDIA GeForce RTX 4090
Архитектура	Ampere	Ada Lovelace
Техпроцесс	8 нм	5 нм
Ядра CUDA	10,752	16,384
Тензорные ядра	336	512
RT-ядра	84	128
Базовая частота	1,560 МГц	2,235 МГц
Boost-частота	1,860 МГц	2,520 МГц
Объем видеопамяти (VRAM)	24 ГБ GDDR6X	24 ГБ GDDR6X
Шина памяти	384-бит	384-бит
Пропускная способность памяти	1,008 ГБ/с	1,008 ГБ/с
Энергопотребление (TDP)	450 Вт	450 Вт
Рекомендованный БП	850 Вт	850 Вт
Версия PCIe	PCIe 4.0	PCIe 4.0
Тензорные ядра поколения	3-е поколение	4-е поколение
Цена (на момент релиза)	Около $1,999	Около $1,599

Обучение нейронных сетей: RTX 4090 демонстрирует прирост производительности от 50% до 100% по сравнению с RTX 3090 Ti в зависимости от конкретной модели и фреймворка.
Инференс моделей: Благодаря улучшенным тензорным ядрам, RTX 4090 обеспечивает более быстрый инференс, особенно при использовании новых форматов данных, таких как FP8.

Тензорные ядра и их роль:

RTX 3090 Ti оснащена 336 тензорными ядрами 3-го поколения, которые обеспечивают высокую производительность в операциях, связанных с машинным обучением и глубоким обучением.
RTX 4090 имеет 512 тензорных ядер 4-го поколения, которые предлагают еще более высокую производительность и энергоэффективность, а также новые функции, такие как ускорение алгоритмов Sparse Tensor и поддержка FP8.

Производительность в терафлопсах (FP16):

Графики производительности

Сравнение производительности RTX3090Ti vs RTX4090 от https://technical.city/

Преимущества RTX 3090 Ti

Доступность: С выходом RTX 4090, цены на RTX 3090 Ti могут снижаться, делая ее более доступной.
Объем памяти: Такой же, как у RTX 4090, 24 ГБ VRAM, что критично для больших моделей.
Совместимость: Проверенная временем архитектура Ampere с широкой поддержкой в различных фреймворках и драйверах.

Преимущества RTX 4090

Увеличенное количество ядер: Больше CUDA, тензорных и RT-ядер.
Новые технологии: Улучшенные тензорные ядра 4-го поколения и RT-ядер 3-го поколения.
Энергоэффективность: Несмотря на аналогичное TDP, новая архитектура предлагает лучшую производительность на ватт.

Выводы

RTX 3090 Ti все еще является мощной видеокартой для задач машинного обучения, особенно благодаря 24 ГБ VRAM, что позволяет работать с большими моделями и датасетами.
RTX 4090 предлагает значительное увеличение производительности и энергоэффективности, что делает ее предпочтительным выбором для тех, кто хочет максимизировать скорость обучения и инференса моделей, имеет бюджет и находит повод задушить свою жабу, а не наоброт.

Главное — не пересолить

С видеокартой в руках оставалось добавить в кашу остальные компоненты, способные раскрыть её (карты) потенциал.

Процессор

Я выбрал AMD Ryzen 9 7950×3D. Давно хотел попробовать AMD cpu вместо Intel, вот и пришло время. 16 ядер и 32 потока обеспечат высокую производительность в многопоточных задачах, что идеально для машинного обучения. Цена в 59 406 рублей показалась мне оправданной и более привлекательной по сравнению с Intel так же как и термопакет, кстати.

Материнская плата

Для такого мощного дуэта процессора и видеокарты нужна надежная основа. Выбор пал на ASRock X670E STEEL LEGEND DDR5 за 30 293 рубля. Слово «легенда» в названии вселяло уверенность, а поддержка DDR5 и PCIe 5.0 обеспечивала задел на будущее. Очень понравилось, что на ней можно установить 4 SSD типа M2 и три из них имеют хорошие радиаторы.

Оперативная память

Объем оперативной памяти критичен при работе с большими моделями. Я остановился на G.Skill Flare X5 DDR5 5200 МГц 2×32 ГБ за 18 722 рубля. 64 ГБ памяти позволяют комфортно работать с большими датасетами и моделями. Позже можно будет расширить дло 128ГБ материнка позволяет.

Система охлаждения

После нескольких неудачных попыток с другими кулерами я выбрал Deepcool LS520 WH за 10 464 рубля. Этот жидкостный кулер не только эффективно охлаждает процессор, но и стильно выглядит в белом цвете, в корпус вошла отлично! Сразу скажу, что Deepcool LS720 в корпус не войдет.

Хранилище

Для хранения данных я выбрал SmartBuy 1 ТБ SSD Stream P16 за 8 283 рубля. Это NVMe SSD обеспечивает высокую скорость чтения и записи, что важно при работе с большими объёмами данных и цена его вполне скромная.

Блок питания

От блока требуется выдавать не менее 850Вт! Иначе карта даже не заведется. С учётом энергопотребления карты и других компонентов с небольшим запасом выбрал блок питания Deepcool PQ1000M 1000W 80+ Gold за 13 844 рубля. Со своей задачей он справится на все 100 и обеспечит стабильную работу системы.

Корпус

Выбрал be quiet! PURE BASE 500DX за 11 449 рублей. Уже брал такой корпус для другого ПК, красивый и удобный при монтаже компонент, с хорошей вентиляцией и тихой работой — то, что нужно для мощной системы.

Финальная сборка и стоимость

Вот итоговая таблица компонентов:

Компонент	Модель	Цена (рублей)
Видеокарта	MSI GeForce RTX 3090 Ti Gaming X Trio 24G	80 000
Процессор	AMD Ryzen 9 7950×3D	59 406
Материнская плата	ASRock X670E STEEL LEGEND DDR5	30 293
Оперативная память	G.Skill Flare X5 DDR5 5200 МГц 2×32 ГБ	18 722
Охлаждение	Deepcool LS520 WH	10 464
Хранилище	SmartBuy 1 ТБ SSD Stream P16	8 283
Блок питания	Deepcool PQ1000M 1000W 80+ Gold	13 844
Корпус	be quiet! PURE BASE 500DX	11 449
Итого		232 461

Немного картинок

Заключение

В итоге я собрал мощный ПК, способный справиться с задачами машинного обучения, генерации изображений и другими ресурсоёмкими приложениями. Стоимость системы в итоге вышла сравнимой со стоимостью одной только RTX 4090.

Теперь я могу экспериментировать с большими языковыми моделями, обучать нейронные сети и работать с большими данными у себя дома. Надеюсь, мой опыт будет полезен тем, кто также задумывается о сборке собственного ПК для машинного обучения.

P.S. Если вы тоже стоите перед выбором видеокарты, помните, что не всегда стоит гнаться за флагманами. Иногда компромиссные решения могут стать отличным вариантом, особенно когда речь идёт о балансе между ценой и производительностью.

P.S. S. В продолжении приведу описание и скрипты для настройки Linux + CUDA.