DeepSeek V3-0324. Что изменилось?

Все пишут, что Deep Seek V3–0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно?
Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике и 10 баллов в кодировании. Также официально заявлены некоторые улучшения в понимании фронтенда и вызова тулов. Напоминаю, речь идет о нерассуждающей версии — она не рассказывает о своих мыслях как DeepSeek R1, зато работает более быстро и стабильно.
Попробовать самостоятельно можно на OpenRouter. Дело лучше тысячи слов.
Системкарда еще нет. Все, что есть — отзывы благодарных пользователей в Twiter и Reddit. Также есть куцый ченжлог.
Я провел некое журналистское расследование и выяснил следующее.
Во-первых, OpenRouter безбожно тормозит и залипает при генерации сколько-то большого ответа. Пока что-то сгенерится, можно натурально скипятить чай. Но что вы хотели за халяву?
Во-вторых, стандартные тесты типа «напиши Сапёра» действительно выдают более длинный, детализированный и продуманный код, чем у предыдущей версии, или у актуальной Claude 3.7.
Она с первой же итерации учла все правила игры в Сапёр (типа отметки мин правой кнопкой мыши и таймера), про которые Claude не вспомнила без подсказки. У Claude интерфейс ломался от указания большого размера поля (это было не предусмотрено).
У DeepSeek размер поля сразу регулируется выпадашкой «сложность игры», а сам интерфейс адаптируется под количество ячеек и не ломается, потому что выполнен с фиксированной шириной и резиной внутри. DeepSeek даже добавила даже красивые анимации для выигрыша и проигрыша.
Поиграть в Сапёра можно здесь. Нажмите Skip Intro (это реклама от площадки Playcode), и играйте.
Посмотреть код Сапйра можно здесь. Заметьте, что это код первой итерации. Я ничего не подсказывал и не добавлял никаких других инструкций, кроме просьбы сделать Сапёра с красивым современным интерфейсом.
По субъективным ощущениям, сейчас это одна из лучших нерассуждающих моделек. Она не начала делать что-то из ряда вон выходящее. В смысле «воображения», по моим ощущениям, Claude намного лучше в задачах про «реальный мир», а ChatGPT — сильно лучше их обоих в задачах про код.
Бенчмарки, к сожалению, практически никогда не передают этих самых личных ощущений. Личные ощущения почему-то оказываются лучше и точнее. Если кто-то попробует продать вам идею, что нейронку нужно выбирать исключительно по скору — гоните его мокрыми тряпками.
Результат в Deep Seek V3–0324 получается очень объемным и детализированным. Как графика в современных играх — она может быть довольно топорной по смыслу, но крайне детализированной и высококачественной с точки зрения текстур и моделей.
Из минусов — говорят, новая DeepSeek активно жрёт токены. Мне это проверить не на чем.
Ну и да, размер вырос 671 до 685 миллиардов параметров. Но имхо, основная ценность DeepSeek не в его жирноте, а в том, как гениальные программисты умудрились мастерски оптимизировать техстек. Тренировка изначального DeepSeek-V3 могла стоить всего 5.576 миллионов баксов — из предположения, что аренда GPU H800 стоит около $2 в час. Если это действительно так, то они смогут выкатывать такие обновления регулярно и открыто выкладывать под лицензией MIT.
То есть, это не последняя новость в категории «никогда не было, и вот опять». Посмотрим, чем ответит им Tencent.
Telegram: @1red2black