Есть ли «стеклянный потолок» в развитии генеративных моделей?
Привет, Хабр! Это Даша Волкова из МТС Диджитал. Последние несколько лет многие представители индустрии ИИ с оптимизмом рассказывали, что производительность новых моделей будет расти экспоненциально и едва ли не бесконечно. В последнее время этот оптимизм поубавился. Эксперты осторожно комментируют, что возможности LLM, обучаемых стандартными методами, вышли на «плато» и дальнейший прогресс возможен только в случае разработки новых технологий обучения. Бесконечно масштабировать то, что уже есть, не получится. Подробнее об этом — дальше.
Что происходит?
Orion (кодовое имя следующего поколения LLM от OpenAI) показывает меньший прирост производительности по сравнению с тем, что наблюдался между GPT-3 и GPT-4. В некоторых задачах новая модель не всегда лучше предшественника.
Почему так? OpenAI столкнулись с проблемой ограниченного количества высококачественных текстовых данных. Они критически важны для обучения крупных LLM. Большая часть информации уже обработана, так что поиск новых качественных источников усложняется. Все это замедляет прогресс в отрасли.
К тому же обучение новых моделей требует больше вычислительных ресурсов, а это увеличивает затраты на разработку и эксплуатацию LLM вроде Orion. В итоге может вырасти стоимость подписки на ИИ-сервисы для конечных пользователей. Вполне возможно, что в ближайшем будущем руководство компаний вроде OpenAI поставит под вопрос финансовую целесообразность разработки более продвинутых моделей.
В понедельник один из основателей OpenAI Илья Суцкевер отметил, что возможности традиционного предобучения LLM, скорее всего, достигли предела. В интервью Reuters он заявил: »2010-е годы были эпохой масштабирования, тогда дополнительные вычислительные ресурсы и тренировочные данные обеспечивали впечатляющий прогресс моделей». По его словам, ситуация изменилась, так что приходится искать новые технологии. «Сейчас мы снова вступаем в эпоху открытий и чудес. Все ищут следующий шаг. Правильное масштабирование имеет большее значение, чем когда-либо», — заявил он.
Кому как не OpenAI знать про обучение LLM, ведь именно специалисты этой компании еще в 2020 году разработали законы масштабирования (Scaling Laws) крупных языковых моделей. Всего их три:
Увеличение количества параметров. Чем больше их у модели (то есть весов в ее нейронной сети), тем больше ее способность к обучению. Это позволяет LLM лучше улавливать сложные зависимости в данных.
Рост объема тренировочных данных. Чем больше качественных данных используется для обучения, тем лучше модель понимает язык и решает задачи. Это позволяет улучшать такие аспекты, как понимание контекста, генерация текстов и решение прикладных задач.
Увеличение вычислительной мощности. Эффективное использование современных суперкомпьютеров и графических процессоров (GPU) позволяет проводить обучение моделей более крупных размеров за разумное время.
Оптимизм Microsoft и критика экспертов
Технический директор Microsoft Кевин Скотт не согласен с коллегами. Он уверен, что «законы масштабирования» продолжают работать и стимулировать развитие в области искусственного интеллекта.
«Я считаю, что мы еще не достигли стеклянного потолка. Прогресс есть, экспоненциальный рост продолжается. Но он не постоянный, ведь изменения происходят каждые несколько лет с выходом новой LLM. А разработчикам требуется время для обучения моделей и создания профильных суперкомпьютеров», — сказал Скотт.
Оптимизм CTO Microsoft контрастирует с мнением специалистов, утверждающих, что прогресс в LLM застопорился на уровне моделей класса GPT-4. Такое восприятие подкрепляется наблюдениями и результатами тестов Gemini 1.5 Pro от Google, Claude Opus от Anthropic и GPT-4o от OpenAI. Многие считают, что эти модели не продемонстрировали таких впечатляющих скачков, как предыдущие поколения LLM.
Подвергается сомнению и мощное положительное влияние ИИ-технологий на экономику. В своем исследовании «Простая макроэкономика ИИ» профессор Массачусетского технологического института (MIT) Дарон Аджемоглу утверждал, что влияние генеративного ИИ на бизнес гораздо ниже прогнозируемого уровня.
Дальше его пессимизм только усилился: он заявил, что «по-настоящему заметные изменения вряд ли произойдут в течение ближайших 10 лет». Аджемоглу считает, что способность генеративного ИИ влиять на глобальную производительность ограничена, поскольку «многие задачи, выполняемые людьми, многогранны и требуют взаимодействия с реальным миром. ИИ ничего не сможет существенно улучшить в ближайшее время».
Еще немного о перспективах
О проблеме недостатка новых качественных текстовых данных для обучения LLM выше уже говорилось. Скорее всего, создатели моделей использовали практически все «низко висящие плоды», то есть доступные массивы текстов из интернета и опубликованных книг.
Ученые из Epoch AI в своем докладе попытались количественно оценить эту проблему. Авторы документа сопоставили темпы роста объемов данных для обучения LLM с «предполагаемым запасом текстов, созданных человеком» и пришли к выводу, что языковые модели полностью израсходуют этот запас между 2026 и 2032 годами.
Некоторые компании, включая OpenAI, начали экспериментировать с обучением на синтетических данных (созданных другими моделями). Все бы хорошо, но и здесь проблема. Получившая синтетические данные LLM может начать генерировать однообразные шаблонные фразы или структуры. Это связано с тем, что модели при формировании ответов стремятся выбирать самые вероятные или часто встречающиеся словосочетания из своего обучающего набора. В итоге новичок теряет способность создавать оригинальные и нестандартные ответы. Как OpenAI собирается избежать этого, вопрос открытый.
Другие команды надеются, что будущие модели смогут масштабироваться за счет улучшения логических способностей, а не накопления знаний из новых данных. Но некоторые исследования показывают, что современные «модели рассуждений» легко сбиваются на ложных задачах. Также изучаются методы «дистилляции знаний», при которых крупные «учительские» нейросети могут обучать «студентов» с относительно небольшим набором информации.
Если же традиционные методы вышли или выходят на плато, решением проблемы может стать специализация. Например, Microsoft уже добилась успеха с так называемыми малыми языковыми моделями, которые фокусируются на определенных задачах. Возможно, будущее за ними.