«Убийца» ChatGPT получила крупное обновление: на что способна открытая ИИ-модель

художественное изображение ИИ-чипа
Источник: Unsplash

Нейросеть DeepSeek V3, разработанная китайской компанией DeepSeek, позиционируется как одно из самых мощных и доступных открытых решений на рынке. Модель уже успела привлечь внимание экспертов TechCrunch благодаря впечатляющим характеристикам и успешному соперничеству с лидерами отрасли.

скриншот поста о возможностях DeepSeek
Источник: X/Twitter

Основные возможности

DeepSeek V3 способна выполнять широкий спектр задач: от написания кода и перевода текстов до создания сложных аналитических материалов. По данным внутренних тестов разработчика, модель превосходит своих конкурентов как в открытом, так и закрытом сегментах. Особенно впечатляют ее результаты в программировании. На платформе Codeforces, популярной среди программистов, DeepSeek V3 продемонстрировала результаты выше, чем модели Llama 3.1 и OpenAI GPT-4o.

Скриншот сравнения модели DeepSeek V3 с аналогами
Источник: DeepSeek

Технические особенности

Ключевой элемент успеха DeepSeek V3 — ее масштаб. Модель содержит 671 миллиард параметров, что значительно превышает возможности большинства аналогов. Для ее обучения использовали колоссальный объем данных: 14,8 триллиона токенов, что эквивалентно миллионам страниц текста. Несмотря на огромные вычислительные требования, DeepSeek смогла оптимизировать процесс. Модель была обучена всего за два месяца на кластере из Nvidia H800 GPU.

Сравнение с конкурентами

На фоне таких гигантов, как OpenAI и Anthropic, DeepSeek V3 выглядит весьма достойно. Она не только выигрывает в производительности, но и остается более доступной благодаря открытой лицензии. Это значит, что разработчики могут адаптировать модель под свои нужды, что существенно расширяет её применение.

логотипы Claude и GPT-4o
Источник: Hi-Tech Mail

Сложности и ограничения

Однако DeepSeek V3 имеет свои недостатки. Большой объем параметров требует мощного оборудования, и для оптимальной работы модели может понадобиться банк высокопроизводительных GPU. Кроме того, как и многие китайские ИИ, она регулируется местными законами, что ограничивает ее свободу выражения на политически чувствительные темы.

Перспективы и значение

DeepSeek V3 является значительным достижением для китайской индустрии искусственного интеллекта. За короткое время компания смогла создать конкурентоспособное решение с минимальными затратами, потратив на разработку всего 5,5 млн долларов. Для сравнения, обучение GPT 5 стоит для OpenAI приблизительно 500 млн долларов. Это доказывает, что открытые модели имеют огромный потенциал и могут конкурировать с дорогими закрытыми решениями.

DeepSeek V3 не только демонстрирует технологический прорыв, но и подтверждает, что доступность и инновации могут идти рука об руку. Кстати, даже предыдущая модель этой ИИ набрала неплохой балл в исследовании умных поисковиков от Hi-Tech Mail.

©  HI-TECH@Mail.Ru