Субъективный взгляд на перспективы Больших Языковых Моделей
Прошло около полугода после последней моей статьи о перспективах развития больших языковых моделей. Чтобы не утомлять долгим чтением, её краткое резюме:
Критика современных больших языковых моделей (БЯМ): они статичны, неэффективны в вычислениях и обучении, что ведет индустрию к технологическому тупику. Главные проблемы связаны с экспоненциальным ростом вычислительных мощностей, дефицитом качественных данных и ограничениями архитектуры.
Итак, можно подвести некоторые итоги, что же мы увидели за прошедшее время.
Прежде всего появление «думающих» моделей. Именно в кавычках, поскольку подобное «думание» по факту лишь имитация саморефлексии, а по сути — генерация разновидности расширенного промпта самой моделью, который, что вполне ожидаемо, увеличивает качество ответов. Можно ли это назвать прорывом? Если посмотреть на стоимость токена такой «генерации», то я бы скорее назвал это провалом. Ни о каком практическом применении такой технологии при таких ценах нет и быть не может, а потому OpenAI продолжает считать убытки. Зачем вообще было выпускать подобный продукт? Все просто: маркетинг. Инвесторы вложились и ждут новых продуктов, новых технологий и нужно кинуть им какую-то кость. Наследник GPT-4o где-то застрял по дороге, а конкуренты дышат в затылок и норовят обойти на повороте. В итоге на коленке ваяется поделка, которую любой уважающий себя девелопер за пару дней может сделать самостоятельно, и выдается за новое достижение.
Проблемы отрасли никуда не делись — новых качественных данных нет, принципиальных архитектурных прорывов тоже. Можно сказать, что отрасль от этапа бурного развития переходит к перевариванию достигнутого, модели оптимизируются, повышается качество данных, попутно производя много информационного шума и подковерного меряния результатами тестов.
Из положительных моментов можно отметить то, что технология достигла той стадии зрелости, когда на ее основе можно решать прикладные задачи: агентные системы различного назначения, RAG-системы и это действительно очень позитивно. Прежде всего тем, что мы, как цивилизация, начали новый этап автоматизации, теперь уже интеллектуального труда.
Из перспектив — грандиозный проект Stargate. Альтман видимо нашел нужные подходы и для удовлетворения своих амбиций готов переходить к освоению уже не десятков, а сотен миллиардов долларов. Есть ли технологическая база под такой проект? Мне видится, что нет, а вот желание распилить полутриллионный бюджет есть. Что и будет осуществляться в ближайшие 4 года. А там глядишь что-то еще придумают, что можно будет выдать за грандиозный прорыв. А пока прорыв будет у NVIDIA и энергетических компаний, главных бенефициаров. И если AMD решит свои программные проблемы, то может и ей что-то перепадет.
Обещанная технологическая сингулярность никак не наступает. Перефразируя старый анекдот: то энергии не хватает, то данные не подвезли.
Но это все лирика. Если же посмотреть в корень проблемы всех больших языковых моделей, даже не затрагивая архитектурных особенностей, то он прежде всего в том, что модели именно языковые. А что есть язык? Язык — это форма последовательного выражения состояния сознания. По сути — протокол передачи информации. Можно ли понять как работает сложное устройство и воссоздать его, изучая лишь его информационные протоколы сопряжения? Думаю вопрос риторический. Языковая модель обучается лишь на продукте сознания, она не думает, а имитирует мышление, обобщая и копируя паттерны рассуждений из доступных ей данных. Ведь не будем забывать, что искусственная нейронная сеть — это прежде всего великий аппроксиматор и это то, что она делает действительно хорошо.
Мы по прежнему не знаем и не понимаем, как работает наше сознание. Когнитивная психология, несмотря на все ее достижения, только в начале этого длинного и сложного пути. А без понимания работы сознания невозможно создать ни систему подобную ему, ни, тем более, превосходящую его. Сложность биологического нейрона на многие порядки сложнее его искусственного прототипа. И это даже не беря во внимание вопрос о возможных квантовых эффектах в нем, о чем до сих пор нет единого мнения у исследователей.
Все, что делает большая языковая модель — это строит модель всех возможных цепочек рассуждений, доступных ей в выраженной человеком форме. И если мы дадим ей задачу, прототипа которой не существовало и она не обучалась ее решать, то ее ожидает провал. Хотя человек, имея достаточно знаний и информации, ее решит. Потому что человек в своем мозгу строит модель мира, со всеми его проявлениями и свойствами и умеет этой моделью пользоваться.
Резюмируя все вышесказанное: AGI в ближайшее время не будет — расходимся. Будем улучшать и осваивать то, что есть, повышать производительность интеллектуального труда и избавляться от интеллектуальной рутины.
Господа прикладники — ваш выход!