DeepSeek V3-0324. Что изменилось?

5aad60bb1068f81aba0b3611890c80c0.png

Все пишут, что Deep Seek V3–0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно?

Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике и 10 баллов в кодировании. Также официально заявлены некоторые улучшения в понимании фронтенда и вызова тулов. Напоминаю, речь идет о нерассуждающей версии — она не рассказывает о своих мыслях как DeepSeek R1, зато работает более быстро и стабильно.

Попробовать самостоятельно можно на OpenRouter. Дело лучше тысячи слов.

Системкарда еще нет. Все, что есть — отзывы благодарных пользователей в Twiter и Reddit. Также есть куцый ченжлог.

Я провел некое журналистское расследование и выяснил следующее.

Во-первых, OpenRouter безбожно тормозит и залипает при генерации сколько-то большого ответа. Пока что-то сгенерится, можно натурально скипятить чай. Но что вы хотели за халяву?

Во-вторых, стандартные тесты типа «напиши Сапёра» действительно выдают более длинный, детализированный и продуманный код, чем у предыдущей версии, или у актуальной Claude 3.7.

Она с первой же итерации учла все правила игры в Сапёр (типа отметки мин правой кнопкой мыши и таймера), про которые Claude не вспомнила без подсказки. У Claude интерфейс ломался от указания большого размера поля (это было не предусмотрено).

У DeepSeek размер поля сразу регулируется выпадашкой «сложность игры», а сам интерфейс адаптируется под количество ячеек и не ломается, потому что выполнен с фиксированной шириной и резиной внутри. DeepSeek даже добавила даже красивые анимации для выигрыша и проигрыша.

Поиграть в Сапёра можно здесь. Нажмите Skip Intro (это реклама от площадки Playcode), и играйте.

Посмотреть код Сапйра можно здесь. Заметьте, что это код первой итерации. Я ничего не подсказывал и не добавлял никаких других инструкций, кроме просьбы сделать Сапёра с красивым современным интерфейсом.

По субъективным ощущениям, сейчас это одна из лучших нерассуждающих моделек. Она не начала делать что-то из ряда вон выходящее. В смысле «воображения», по моим ощущениям, Claude намного лучше в задачах про «реальный мир», а ChatGPT — сильно лучше их обоих в задачах про код.

Бенчмарки, к сожалению, практически никогда не передают этих самых личных ощущений. Личные ощущения почему-то оказываются лучше и точнее. Если кто-то попробует продать вам идею, что нейронку нужно выбирать исключительно по скору — гоните его мокрыми тряпками.

Результат в Deep Seek V3–0324 получается очень объемным и детализированным. Как графика в современных играх — она может быть довольно топорной по смыслу, но крайне детализированной и высококачественной с точки зрения текстур и моделей.

Из минусов — говорят, новая DeepSeek активно жрёт токены. Мне это проверить не на чем.

Ну и да, размер вырос 671 до 685 миллиардов параметров. Но имхо, основная ценность DeepSeek не в его жирноте, а в том, как гениальные программисты умудрились мастерски оптимизировать техстек. Тренировка изначального DeepSeek-V3 могла стоить всего 5.576 миллионов баксов — из предположения, что аренда GPU H800 стоит около $2 в час. Если это действительно так, то они смогут выкатывать такие обновления регулярно и открыто выкладывать под лицензией MIT.

То есть, это не последняя новость в категории «никогда не было, и вот опять». Посмотрим, чем ответит им Tencent.

Telegram: @1red2black

© Habrahabr.ru