[Перевод] Бум ИИ с открытым исходным кодом зиждется на подачках крупных технологических компаний. Как долго он продлится?

Возросший уровень доступности кода, лежащего в основе генеративных моделей, стимулирует инновации. Но если крупные компании начнут нервничать, лавочка попросту закроется.

ntdffdqpndiqb_ozvkywwia1rvu.png

Просочившийся в сеть меморандум, написанный Люком Сернау, старшим инженером Google, наконец озвучил то, о чем многие в Кремниевой долине, должно быть, шептались уже не одну неделю: свободный доступ к открытому исходному коду угрожает захвату ИИ большими технологическими корпорациями. Новые крупные языковые модели с открытым исходным кодом — альтернативы Bard от Google или ChatGPT от OpenAI, на основе которых исследователи и разработчики приложений могут изучать, строить и модифицировать — сыплются как конфеты из пиньяты. Это более компактные и дешевые версии лучших в своем классе моделей ИИ, разработанных крупными компаниями, и они уже (почти) соответствуют своим старшим товарищам по уровню производительности — к тому же распространяются бесплатно.
Компании вроде Google, которая на своей ежегодной выставке объявила, что использует генеративный ИИ во всех своих продуктах, от Gmail до Photos и Maps, слишком увлеклись подглядыванием друг за другом, чтобы разглядеть своих настоящих конкурентов, пишет Сернау: «Пока мы ссорились, соседи тихо доедали наш обед».

Во многих отношениях это даже хорошо. Увеличение доступности разных моделей помогло стимулировать инновации —, а заодно обнаружить проблемы и недоработки. ИИ не сможет развиваться, если их приберут к рукам лишь несколько мега-богатых компаний.

Однако этот бум открытого исходного кода весьма рискован. Многие open source проекты по-прежнему опираются на гигантские модели, создаваемые большими фирмами с глубокими карманами. Если OpenAI и Meta (запрещенная на территории РФ организация) решат, что пора прикрыть лавочку, бум может превратиться в пшик.

К примеру, многие подобные модели построены на основе LLaMA, крупной языковой модели с открытым исходным кодом, выпущенной Meta AI (Meta — запрещенная на территории РФ организация). В других используется огромный массив публичных данных под названием Pile, собранный некоммерческой организацией EleutherAI. При этом EleutherAI существует лишь благодаря тому, что открытость OpenAI позволила группе кодеров отреверсить GPT-3, а затем создать свою собственную, с перламутровыми пуговицами.
«Meta AI проделала действительно колоссальную работу по подготовке и распространению моделей среди исследовательского сообщества», — говорит Стелла Бидерман, исполнительный директор и руководитель исследовательского отдела компании EleutherAI, а также представитель консалтинговой фирмы Booz Allen Hamilton. Сернау также подчеркивает исключительную роль Meta AI в своей служебной записке Google. (Google подтверждает, что служебная записка была составлена одним из ее сотрудников, но отмечает, что та не является официальным стратегическим документом).

Всё может измениться в одночасье. OpenAI из опасения по поводу конкуренции уже пересмотрела свои либеральные взгляды. А Meta (запрещенная на территории РФ организация) наверняка захочет снизить риск того, что соперники сделают с ее открытым кодом что-то нехорошее. «Я искренне считаю, что сейчас это правильно», — говорит Джоэль Пино, управляющий директор Meta AI, об открытии кода для посторонних.» Будем ли мы придерживаться этой стратегии в течение следующих пяти лет? Я не знаю, ведь ИИ развивается чрезвычайно быстро».

Если тенденция к ограничению доступа продолжится, то на мель сядут не только приверженцы open source, но и те, кто решит последовать за ними: не исключено, что следующая волна ИИ-прорывов случится в стенах крупных лабораторий, и двигать ее будут далеко не любители-энтузиасты.

Настал переломный момент, который во многом определит, как будет создаваться и использоваться ИИ в будущем.

Процветание ПО с открытым исходным кодом


Программное обеспечение с открытым исходным кодом существует в мире не один десяток лет. Именно на нем и держится Интернет. Но в силу высокой стоимости разработки мощные ИИ-модели долгое время не могли попасть в руки сообщества. Однако теперь они быстро стали приносить прибыль.

Только взгляните на события последних месяцев. 25 марта Hugging Face, стартап, выступающий за свободный и открытый доступ к ИИ, представил первую альтернативу ChatGPT, вирусного чат-бота, выпущенного OpenAI в ноябре, с открытым исходным кодом.

Чатбот Hugging Face, HuggingChat, построен на базе крупной открытой языковой модели, адаптированной для общения, под названием Open Assistant. Она была обучена при участии около 13 000 добровольцев и выпущена месяц назад. Однако сам Open Assistant построен на LLaMA компании Meta (запрещенная на территории РФ организация).

А вот еще StableLM, крупная языковая модель с открытыми исходниками, выпущенная 19 марта Stability AI, компанией, создавшей Stable Diffusion. Спустя всего неделю, 28 марта, Stability AI представила StableVicuna, версию StableLM, которая, подобно Open Assistant или HuggingChat, оптимизирована для общения. (Считайте, что StableLM — это ответ Stability на GPT-4, а StableVicuna — ответ на ChatGPT).

Новые открытые модели пополнили ряды прочих, выпущенных за последние несколько месяцев, включая Alpaca (от команды из Стэнфордского университета), Dolly (от компании Databricks) и Cerebras-GPT (от компании Cerebras, занимающейся проблемами искусственного интеллекта). Большинство из этих моделей построены на LLaMA или на наборах данных и моделях от EleutherAI; Cerebras-GPT использует схему, разработанную DeepMind. Можете не сомневаться, их станет еще больше.

Для некоторых открытость исходного кода — это вопрос принципа. «Это глобальная попытка сообщества дать мощь разговорного ИИ всем и каждому… чтобы вырвать ее из рук горстки крупных корпораций», — говорит исследователь ИИ и ютубер Янник Килчер в видео, представляющем Open Assistant.

«Мы никогда не откажемся от борьбы за ИИ с открытым исходным кодом», — написал в Твиттере Жюльен Шомон, соучредитель компании Hugging Face.

Для других компаний это вопрос прибыли. Stability AI надеется повторить с чат-ботами тот же трюк, что и с изображениями: разжечь интерес, а затем извлекать выгоду из всплеска новаторства среди разработчиков, использующих ее продукты. Компания планирует взять все лучшее от этих инноваций и превратить это в продукты, предназначенные для широкого круга клиентов. «Мы провоцируем инновации, а затем выбираем лучшие», — говорит Эмад Моста, генеральный директор Stability AI. «Это самая выгодная бизнес-модель в мире».

В любом случае, огромное количество бесплатных и открытых языковых моделей позволяет миллионам людей по всему миру использовать эту технологию, вдохновляя их на создание новых инструментов и исследования.» Сейчас эти технологии стали доступными, как никогда прежде», — говорит Бидерман.

«Невероятное количество способов применения этих технологий просто поражает воображение», — считает Амир Гави, юрист компании Fried Frank, представляющий интересы ряда фирм, работающих в области генеративных ИИ, в том числе Stability AI. «Мне кажется, это проявление творческого начала в чистом виде, и в этом весь смысл открытого исходного кода».

Плавящиеся графические процессоры


Но обучать большие языковые модели с нуля —, а не создавать или модифицировать их — сложно. «Подавляющему большинству людей это все еще не под силу», — говорит Мостак. «Создавая StableLM, мы изжарили целую кучу графических процессоров».

Первый релиз Stability AI, модели преобразования текста в изображение Stable Diffusion, работал не хуже, если не лучше закрытых аналогов, таких как Imagen от Google и DALL-E от OpenAI. Она не только была бесплатной в использовании, но и запускалась на обычном домашнем компьютере. Stable Diffusion сделала для развития интереса к ИИ больше, чем все ее конкуренты вместе взятые.

d0lqr3vsqpvo1py00oibpmkutv0.png

На сей раз, однако, Моста стремится управлять ожиданиями: StableLM даже близко не сравнится с GPT-4. «У нас еще много работы», — говорит он. «Это не то же самое, что Stable Diffusion, когда вы сразу же получаете что-то суперполезное. Языковые модели гораздо сложнее обучать».
Другая проблема заключается в том, что чем больше становится модель, тем сложнее ее обучить. Это связано не только с расходами на вычислительные мощности. Процесс обучения чаще нарушается и требует перезапуска, что делает процесс еще более затратным.

По словам Бидерман, на практике существует верхняя планка количества параметров, обучение которых может позволить себе большинство организаций. Это объясняется тем, что большие модели приходится обучать на множестве различных графических процессоров, а соединить их в единое целое довольно сложно. «Успешное обучение моделей такого масштаба — это новейшая область исследований в области высокопроизводительных вычислений», — говорит она. С развитием технологий граница отодвигается, на текущий момент, по словам Бидерман, она пролегает в диапазоне от 6 до 10 миллиардов параметров. (Для сравнения, GPT-3 имеет 175 миллиардов параметров; LLaMA — 65 миллиардов.) Возможно, здесь нет прямой зависимости, но в целом, большие модели работают гораздо лучше.

Бидерман ожидает, что шквал активности вокруг больших языковых моделей с открытым исходным кодом, не утихнет еще долгое время. Но главным направлением будет расширение или адаптация нескольких существующих предварительно обученных моделей, а не продвижение вперед фундаментальной технологии. «Всего нескольким организациям под силу предварительное обучение этих моделей, и я предполагаю, что в ближайшем будущем ситуация не изменится».
«А я не сторонница открытого кода», — говорит Маргарет Митчелл, главный специалист по этике Hugging Face. «Я знаю причины, по которым закрытый подход имеет огромный практический смысл».

Митчелл указывает на порнографию, изготовленную без согласия, как на один из примеров негативных последствий широкого доступа к мощным моделям. По ее словам, это едва ли не одна из главных сфер применения искусственного интеллекта для создания изображений.
Митчелл, ранее работавшая в компании Google и ставшая одним из основателей ее команды по этичному ИИ, прекрасно осознает противоречия. Она выступает за то, что она называет «ответственной демократизацией» — подход, подобный подходу Meta AI, когда модели выпускаются под контролем в соответствии с их потенциальным риском причинения вреда или неправильного использования. «Я очень ценю идеалы открытого исходного кода, но я думаю, что полезно иметь какие-то механизмы ответственности», — говорит она.

OpenAI также планирует перекрыть краник. В прошлом месяце, когда компания анонсировала GPT-4, новую версию большой языковой модели, на которой работает ChatGPT, в техническом отчете было поразительное предложение: «Учитывая конкурентную среду и последствия для безопасности таких крупных моделей, как GPT-4, этот отчет не содержит дальнейших подробностей об архитектуре (включая размер модели), аппаратном обеспечении, вычислениях для обучения, построении набора данных, методе обучения и т.п.».

Эти новые ограничения отчасти обусловлены тем, что OpenAI теперь является коммерческой компанией, конкурирующей с Google. Но они также отражают изменение взглядов внутри коллектива. Соучредитель и главный научный сотрудник Илья Суцкевер заявил в интервью The Verge, что прежняя открытость его компании была ошибкой.

«Искусственный интеллект, вероятно, станет движущей силой организации общества в ближайшие десятилетия», — говорит Гави. «Я думаю, что обширная система обеспечения прозрачности гораздо лучше, чем концентрация власти в одних руках».

Бидерман соглашается: «Я определенно не думаю, что существует какая-то моральная необходимость в том, чтобы все делали открытый исходный код», — говорит она. «Но, в конце концов, очень важно, чтобы люди, разрабатывающие и проводящие исследования в этой технологии, не были финансово заинтересованы в ее коммерческом успехе».

Тем не менее, она четко осознает важность происходящего. «На самом деле я гораздо менее критична к OpenAI, чем многие предполагают», — говорит она. «Существует реальный риск, связанный с публичным выпуском этой технологии, реальная потенциальная опасность».
OpenAI утверждает, что пытается действовать осторожно. «Дело не в том, что мы считаем, что прозрачность — это плохо», — говорит Дейв Уиллнер, руководитель группы доверия и безопасности OpenAI. «Скорее, мы пытаемся понять, как совместить прозрачность с безопасностью. И по мере того, как эти технологии становятся все более мощными, на практике возникает определенное противоречие между этими вещами».

«Многие нормы и представления в области ИИ были сформированы академическими исследовательскими сообществами, которые ценят сотрудничество и прозрачность, чтобы люди могли опираться на работу друг друга», — говорит Виллнер. «Возможно, это должно немного измениться по мере развития этой технологии».

idd_l2fbzubhdomu96nqv8lb8wa.png

© Habrahabr.ru