Как дистилляция меняет индустрию искусственного интеллекта
Всем привет! Меня зовут Миша, я руковожу центром R&D Big Data в МТС Диджитал. В прошлый раз делился с вами подборкой книг по базам данных. Сегодня хочу обсудить, как дистилляция влияет на индустрию ИИ.
Крупнейшие компании в области ИИ, включая OpenAI, Microsoft и Meta, используют технологию дистилляции — это позволяет им задействовать меньше ресурсов для разработки мощных языковых моделей. Конечно, дистилляция не новинка. Но игроки ИИ-отрасли особенно заинтересовались ею, как только китайская компания DeepSeek создала с ее помощью производительные модели на основе открытых решений конкурентов.
Последствия проявились сразу. После анонса DeepSeek R1 фондовый рынок США потерял за несколько дней свыше 1 трлн $. О причинах тут уже писали — китайцы заявили, что на обучение ушло всего 5,6 млн $. Потом стали известны нюансы, и эту цифру поставили под сомнение. Но в любом случае успех DeepSeek привел к внимательному изучению технологий, используемых китайской компанией, игроками отрасли. Обо всем этом и поговорим в посте.

Что такое дистилляция и как она работает
На Хабре уже не раз и не два описывалась эта технология, поэтому кратко. Суть в том, что уже готовая большая языковая модель (Large Language Model, LLM), называемая «учителем» (teacher model), используется для обучения более компактной модели — «студента» (student model). Во время этого процесса учительская модель генерирует выходные данные (например, вероятностные распределения слов, скрытые представления или логиты), которые потом используются для обучения студенческой модели. Цель в том, чтобы «студент» научился воспроизводить предсказания учителя, но при этом работал с меньшими вычислительными затратами, сохраняя приемлемый уровень точности. Конечно, все очень упрощенно.

Метод позволяет разработчикам создавать компактные модели, которые требуют меньше вычислительных мощностей, дешевле в разработке и поддержке, но при этом сохраняют ключевые возможности «предков».
DeepSeek: китайский вызов для OpenAI, Microsoft и Meta
Яркий пример успешного создания ИИ-моделей посредством дистилляции — проекты китайской компании DeepSeek, которая взяла за основу открытые решения Meta и Alibaba. Оценки стоимости развертывания инфраструктуры и обучения R1 разнятся. Но это дела не меняет, ведь в итоге не слишком известный стартап внезапно стал одним из лидеров гонки ИИ-технологий. Глядя на этот успешный успех, они задумались о более масштабном использовании дистилляции и OpenAI, Microsoft вместе с Meta. И это правильно, ведь, как я уже писал выше, технология позволяет снизить затраты на разработку и повысить доступность ИИ для бизнеса и пользователей.
Для корпораций, какими бы богатыми они ни были, экономия — один из ключевых вопросов. Разработка и поддержка больших языковых моделей вроде GPT-4, Gemini или Llama требуют огромных объемов данных и вычислительных мощностей. Хотя компании не раскрывают точные затраты на обучение таких моделей, по оценкам экспертов, это сотни миллионов $.
А вот благодаря дистилляции компании могут разрабатывать мощные и продвинутые модели уже за миллионы $, а не десятки или сотни. Доступ к таким моделям обойдется конечному пользователю в гораздо меньшую цену, чем в случае того же ChatGPT. Это открывает путь для небольших стартапов и разработчиков приложений, которые могут встраивать искусственный интеллект в свои продукты без необходимости тратить миллионы $ на вычисления.
Крупный бизнес постепенно осознает преимущества такого подхода. Microsoft активно использует этот метод: ее инвестиции в OpenAI позволили создать линейку малых языковых моделей Phi, дистиллированных из GPT-4. Сейчас дистилляция уже не просто экспериментальная технология, а часть коммерческой стратегии крупнейших игроков индустрии.
Дистилляция не панацея
Несмотря на все преимущества, у технологии есть и недостатки. Компактные модели обычно специализируются на конкретных задачах и не обладают универсальностью своих «учителей». Например, малая модель может отлично справляться с резюмированием писем, при этом будет значительно хуже в решении сложных математических или логических задач. У обычных LLM такой проблемы нет — они хороши буквально во всем.
Как отмечает Ахмед Авадалла из Microsoft Research, уменьшение размера модели неизбежно приводит к сужению ее возможностей. Так создается ситуация, когда разработчикам приходится выбирать между желанием сэкономить и универсальностью модели. Крупные компании стараются снизить стоимость доступа к своим сервисам, ведь, если пользователи начнут отдавать предпочтение дистиллированным версиям, хотя и узкоспециализированным, это уменьшит общий уровень прибыли корпораций.
Сейчас идет тренд на разделение «рынка труда» для больших и малых моделей. По мнению Оливье Годемана из OpenAI, LLM будут оставаться востребованными в тех случаях, когда нужна высокая точность и надежность. К тому же именно большие модели позволяют открывать новые возможности, которые могут быть дистиллированы в более компактные узкоспециализированные версии.

Есть и еще одна проблема с дистилляцией. Вероятно, разработчики малых языковых моделей тренируют их на готовых данных LLM корпораций. Та же OpenAI обвинила DeepSeek в том, что китайцы применяли ее данные для дистилляции, а это нарушает условия использования. Пока что DeepSeek не дает официальных комментариев по этому поводу.
OpenAI отслеживает использование своих ИИ-систем и может блокировать аккаунты, замеченные в сборе большого объема данных для обучения конкурирующих моделей. Именно такие ограничения, по словам OpenAI, были применены к ряду аккаунтов, связанных с DeepSeek. Но эти меры часто принимаются постфактум, когда ущерб уже нанесен.
То есть возникла серьезная угроза для бизнеса лидеров рынка — корпорации, которые инвестируют миллиарды в разработку передовых моделей, сталкиваются с конкурентами, взявшими за основу своих проектов чужие технологии.
Открытые модели и влияние дистилляции на индустрию
Дистилляция стимулирует развитие движения за открытость технологий искусственного интеллекта. Та же DeepSeek сделала свои последние модели доступными для разработчиков. Проекты компании могут свободно использоваться и дорабатываться в соответствии с лицензией MIT, хотя данные для обучения не предоставляются. Этот тренд поддерживают игроки отрасли. Главный научный сотрудник Meta по ИИ Янн Лекун отметил, что дистилляция отлично вписывается в концепцию Open Source: «Вы получаете выгоду от работы всех, если процессы остаются открытыми».
Одновременно возникла проблема оправданности вложений миллиардов $ в масштабные проекты. Как отмечает Дэвид Кокс из IBM, современная индустрия ИИ движется с невероятной скоростью: можно вложить огромные суммы в развитие модели, а затем обнаружить, что конкуренты готовы предложить аналогичный продукт, потратив на порядок меньше.
Что в итоге? Технология хороша, она позволяет разрабатывать отличные модели за относительно небольшие деньги. Но в то же время создает вызовы для ведущих игроков рынка, ставя под угрозу их бизнес-модели. Гонка за превосходство в сфере ИИ становится еще более жесткой, и крупнейшим компаниям придется искать новые способы защиты разработок и удержания лидерства.
А что вы думаете о технологии дистилляции? Используете ли ее в своей собственной работе и считаете ли ее опасной для бизнеса? Пишите в комментариях.