Как дистилляция меняет индустрию искусственного интеллекта

Всем привет! Меня зовут Миша, я руковожу центром R&D Big Data в МТС Диджитал. В прошлый раз делился с вами подборкой книг по базам данных. Сегодня хочу обсудить, как дистилляция влияет на индустрию ИИ.

Крупнейшие компании в области ИИ, включая OpenAI, Microsoft и Meta, используют технологию дистилляции — это позволяет им задействовать меньше ресурсов для разработки мощных языковых моделей. Конечно, дистилляция не новинка. Но игроки ИИ-отрасли особенно заинтересовались ею, как только китайская компания DeepSeek создала с ее помощью производительные модели на основе открытых решений конкурентов.

Последствия проявились сразу. После анонса DeepSeek R1 фондовый рынок США потерял за несколько дней свыше 1 трлн $. О причинах тут уже писали — китайцы заявили, что на обучение ушло всего 5,6 млн $. Потом стали известны нюансы, и эту цифру поставили под сомнение. Но в любом случае успех DeepSeek привел к внимательному изучению технологий, используемых китайской компанией, игроками отрасли. Обо всем этом и поговорим в посте.

962b588fcfb22f2cbcb219173ab5a6c3.png

Что такое дистилляция и как она работает

На Хабре уже не раз и не два описывалась эта технология, поэтому кратко. Суть в том, что уже готовая большая языковая модель (Large Language Model, LLM), называемая «учителем» (teacher model), используется для обучения более компактной модели — «студента» (student model). Во время этого процесса учительская модель генерирует выходные данные (например, вероятностные распределения слов, скрытые представления или логиты), которые потом используются для обучения студенческой модели. Цель в том, чтобы «студент» научился воспроизводить предсказания учителя, но при этом работал с меньшими вычислительными затратами, сохраняя приемлемый уровень точности. Конечно, все очень упрощенно.

Упрощенная схема дистилляции (источник)
Упрощенная схема дистилляции (источник)

Метод позволяет разработчикам создавать компактные модели, которые требуют меньше вычислительных мощностей, дешевле в разработке и поддержке, но при этом сохраняют ключевые возможности «предков».

DeepSeek: китайский вызов для OpenAI, Microsoft и Meta

Яркий пример успешного создания ИИ-моделей посредством дистилляции — проекты китайской компании DeepSeek, которая взяла за основу открытые решения Meta и Alibaba. Оценки стоимости развертывания инфраструктуры и обучения R1 разнятся. Но это дела не меняет, ведь в итоге не слишком известный стартап внезапно стал одним из лидеров гонки ИИ-технологий. Глядя на этот успешный успех, они задумались о более масштабном использовании дистилляции и OpenAI, Microsoft вместе с Meta. И это правильно, ведь, как я уже писал выше, технология позволяет снизить затраты на разработку и повысить доступность ИИ для бизнеса и пользователей.

Для корпораций, какими бы богатыми они ни были, экономия — один из ключевых вопросов. Разработка и поддержка больших языковых моделей вроде GPT-4, Gemini или Llama требуют огромных объемов данных и вычислительных мощностей. Хотя компании не раскрывают точные затраты на обучение таких моделей, по оценкам экспертов, это сотни миллионов $.

А вот благодаря дистилляции компании могут разрабатывать мощные и продвинутые модели уже за миллионы $, а не десятки или сотни. Доступ к таким моделям обойдется конечному пользователю в гораздо меньшую цену, чем в случае того же ChatGPT. Это открывает путь для небольших стартапов и разработчиков приложений, которые могут встраивать искусственный интеллект в свои продукты без необходимости тратить миллионы $ на вычисления.

Крупный бизнес постепенно осознает преимущества такого подхода. Microsoft активно использует этот метод: ее инвестиции в OpenAI позволили создать линейку малых языковых моделей Phi, дистиллированных из GPT-4. Сейчас дистилляция уже не просто экспериментальная технология, а часть коммерческой стратегии крупнейших игроков индустрии.

Дистилляция не панацея

Несмотря на все преимущества, у технологии есть и недостатки. Компактные модели обычно специализируются на конкретных задачах и не обладают универсальностью своих «учителей». Например, малая модель может отлично справляться с резюмированием писем, при этом будет значительно хуже в решении сложных математических или логических задач. У обычных LLM такой проблемы нет — они хороши буквально во всем.

Как отмечает Ахмед Авадалла из Microsoft Research, уменьшение размера модели неизбежно приводит к сужению ее возможностей. Так создается ситуация, когда разработчикам приходится выбирать между желанием сэкономить и универсальностью модели. Крупные компании стараются снизить стоимость доступа к своим сервисам, ведь, если пользователи начнут отдавать предпочтение дистиллированным версиям, хотя и узкоспециализированным, это уменьшит общий уровень прибыли корпораций.

Сейчас идет тренд на разделение «рынка труда» для больших и малых моделей. По мнению Оливье Годемана из OpenAI, LLM будут оставаться востребованными в тех случаях, когда нужна высокая точность и надежность. К тому же именно большие модели позволяют открывать новые возможности, которые могут быть дистиллированы в более компактные узкоспециализированные версии.

Источник
Источник

Есть и еще одна проблема с дистилляцией. Вероятно, разработчики малых языковых моделей тренируют их на готовых данных LLM корпораций. Та же OpenAI обвинила DeepSeek в том, что китайцы применяли ее данные для дистилляции, а это нарушает условия использования. Пока что DeepSeek не дает официальных комментариев по этому поводу.

OpenAI отслеживает использование своих ИИ-систем и может блокировать аккаунты, замеченные в сборе большого объема данных для обучения конкурирующих моделей. Именно такие ограничения, по словам OpenAI, были применены к ряду аккаунтов, связанных с DeepSeek. Но эти меры часто принимаются постфактум, когда ущерб уже нанесен.

То есть возникла серьезная угроза для бизнеса лидеров рынка — корпорации, которые инвестируют миллиарды в разработку передовых моделей, сталкиваются с конкурентами, взявшими за основу своих проектов чужие технологии.

Открытые модели и влияние дистилляции на индустрию

Дистилляция стимулирует развитие движения за открытость технологий искусственного интеллекта. Та же DeepSeek сделала свои последние модели доступными для разработчиков. Проекты компании могут свободно использоваться и дорабатываться в соответствии с лицензией MIT, хотя данные для обучения не предоставляются. ​Этот тренд поддерживают игроки отрасли. Главный научный сотрудник Meta по ИИ Янн Лекун отметил, что дистилляция отлично вписывается в концепцию Open Source: «Вы получаете выгоду от работы всех, если процессы остаются открытыми».

Одновременно возникла проблема оправданности вложений миллиардов $ в масштабные проекты. Как отмечает Дэвид Кокс из IBM, современная индустрия ИИ движется с невероятной скоростью: можно вложить огромные суммы в развитие модели, а затем обнаружить, что конкуренты готовы предложить аналогичный продукт, потратив на порядок меньше.

Что в итоге? Технология хороша, она позволяет разрабатывать отличные модели за относительно небольшие деньги. Но в то же время создает вызовы для ведущих игроков рынка, ставя под угрозу их бизнес-модели. Гонка за превосходство в сфере ИИ становится еще более жесткой, и крупнейшим компаниям придется искать новые способы защиты разработок и удержания лидерства.

А что вы думаете о технологии дистилляции? Используете ли ее в своей собственной работе и считаете ли ее опасной для бизнеса? Пишите в комментариях.

© Habrahabr.ru