DeepSeek — очередной квантовый скачек в развитии AI26.01.2025 17:00

深度求索, запомните эти слова.

Пока скептики в области ИИ продолжают размышлять о том, что ИИ никогда не обретет сознание и останется лишь имитатором интернета, небольшая китайская компания совершила прорыв. Они создали думающую модель всего за $6 млн (меньше, чем зарплата некоторых инженеров ИИ в Кремниевой долине, и 2% от стоимости ближайшего конкурента), которая не уступает OpenAI o1, являясь при этом открытой и доступной по цене — $2,50 за обработку миллиона токенов в самой дорогой модели ChatGPT против $0,14 у DeepSeek. Доступ к API не требует VPN и другого гемороя и обходится в разы дешевле, мы уже переключили часть проектов с других моделей на DeepSeek.

Попробуйте сами — эта модель настолько хороша, что вероятно, превзойдет в способности размышлять многих читателей этой статьи.

Всё это произошло, пока американские гиганты вроде Google и Meta ковыряли в носу (как и компании в Европе и у нас кстати тоже) тратили миллиарды, что вызвало панику в отрасли. DeepSeek добилась успеха, оптимизируя железо и позволив модели обучать себя самостоятельно.

Некоторые выражают опасения о приватности и реальной стоимости разработки, считая, что проект косвенно финансируется КПК. Пока доказательств нет, но я подозреваю, что в этом есть доля правды (читайте далее).

Этот скачок вызвал настоящую истерику в Кремниевой долине. Корпорации экстренно собирают совещания, ведь Китай неожиданно вышел в лидеры, обойдя санкции США, и гонка ИИ теперь в самом разгаре. Как я говорил ранее, США не могут позволить Китаю доминировать в ИИ. Учитывая, что нынешнее правительство США состоит из технократов вроде Маска, стоит ждать ответа, аналогичного запуску Спутника в СССР — триллионы долларов будут вложены в эту гонку.

Что известно о DeepSeek?

Акт 1. Ботаники, случайно накопившие GPU

История начинается не в гараже Кремниевой долины, а в мире финансов — где математики печатают деньги, пока мы спорим о биткоинах. High-Flyer Quant, китайский хедж-фонд, основанный в 2015 году Ляном Вэньфэном. В 2021-м, до санкций США, он закупил GPU «на всякий случай». Их использовали для анализа рынка, но большую часть времени мощности простаивали, и Лян решил занять их чем-то интересным.

К 2021-му у High-Flyer было 10 000 GPU — достаточно для съемок «Трансформеров» в реальной жизни. Говорят, глава NVIDIA прислал Ляну открытку с надписью: «Спасибо за яхту». Но вместо прогнозирования мемных акций Лян решил построить AGI.

В 2023-м High-Flyer выделил ИИ-направление в DeepSeek. Акционеры недоумевали («Мы вместо зарабатывания нам денег занимаемся чем???111»), но Лян настаивал:»Представьте ChatGPT, но дешевле… созданный теми, кто теми кто не покидает офиса».

Ранние дни DeepSeek — мастер-класс по хаосу. Офисная культура — сотрудники кодили по 18 часов в сутки, подпитываясь только bubble-tea и экзистенциальным страхом.

Найм сотрудников — «У вас есть PhD? Отлично. А Вы знаете, что такое work-life balance? Печально.

Финансирование — полностью за счет прибыли High-Flyer. Ничто так не кричит «стратегия», как ставка на AGI на деньги хедж-фонда.

Акт 2. Инженерная магия: как обойти санкции

Пока США спорили об этике AI, DeepSeek избрала подход «Подержите мой смузи»:

Прорыв в архитектуре: Multi-head Latent Attention (MLA) — метод, сокративший стоимость обучения на 90% за счет игнорирования 95% данных. Гениально или лениво?
Модели MoE: DeepSeek-V2 с 236 млрд параметров обошелся дешевле, чем сезон Stranger Things. Инженеры отметили это покупкой новых GPU (дядя Илон одобряет такой уровень упоротости).
Обучение с подкреплением: Модели серии R1 учили математику методом проб и ошибок, как дети с PhD. Результат? Уровень GPT-4, но на 95% дешевле.

В мае 2024-го DeepSeek шокировала ценами на API: 2 юаня за миллион токенов. Перевод: «Мы разорим ваш стартап за стоимость упаковки соевого молока».

Последствия:

Alibaba и Tencent режут цены быстрее, чем уличные торговцы убегают от проверок.
В Кремниевой долине — паника. OpenAI уже объявил что o3 mini будет включен в бесплатную подписку и тихо обновляет прайсы, бормоча «Это нечестно».

А что делает DeepSeek? Выпускает все в open-source. И это пока в Долине размышляют: «Лицензия MIT? А мы вообще можем это запатентовать?!». Ян Лекун назвал это »the most elegant middle finger to proprietary AI».

Конечный результат немного шокируют:

Акт 3. Споры

В интернете сразу появилась целая куча идиотов, которые сразу начали ныть, что DeepSeek использовать не стоит, потому что он предвзят. «Посмотрите — он не отвечает, кому принадлежит Тайвань» или «Посмотрите, он не отвечает на вопросы про Си Цзиньпина». Подобная слепота просто пугает. Их должно волновать только то, что именно китайцы разработали эту модель, иначе скоро всем нам самим придётся говорить, что Тайвань принадлежит Китаю и возможно даже на китайском (хотя мне лично это совершенно по барабану).

Так-же вызывает большое сомнение красивая история изложенная выше, что небольшой фонд с небольшими средствами смог сделать такой прорыв. Далеко не исключено что правительство Китая косвенно помогло компании. Но, в конечном итоге, это не важно, важен сам результат.

Эпилог: AGI or bust

Создаст ли DeepSeek AGI? Бог его знает, но они уже доказали: в гонке ИИ побеждает не тот, кто тратит больше, а тот, кто целеустремленнее и упоротее — как Маск уже неоднократно доказал в разных отраслях, типа ракетостроения и электромобилей. У нас уже кончаются бенчмарки для AI, чтобы доказать что он не способен думать, недавно даже ввели финальный бенчмарк.

Я думаю, что отрицание реальности уже более не является разумным курсом для нас.

Задавайте свои ответы в комментариях.

祝大家一切顺利！