[Перевод] Будущее индустрии ИИ стоит на бесплатной базе данных простого учителя школы

Кристоф Шуманн

Кристоф Шуманн

Перед небольшим загородным домом на окраине Гамбурга в северной Германии на почтовом ящике карандашом нацарапано единственное слово — «ЛАЙОН». Это единственный признак того, что этот дом принадлежит человеку, стоящему за огромными усилиями по сбору данных, и без которого тот бум искусственного интеллекта, который во всю силу происходит сейчас, мог бы и не случиться.

Этот человек — школьный учитель Кристоф Шуманн, а LAION (Large-scale AI Open Network «Крупномасштабная открытая сеть ИИ»), можно сказать, его хобби. Днём Шуманн преподает физику и информатику немецким подросткам, а вечером и по выходным — работает с небольшой командой добровольцев над созданием крупнейшего в мире бесплатного набора данных для обучения ИИ. Эта база уже активно используется в генераторах изображений по текстовому описанию, таких как Google Imagen и Stable Diffusion.

Генеративные ИИ полагаются на такие базы данных, как LAION, для получения огромного количества визуального материала, используемого для деконструкции и создания новых изображений. Сейчас это самые динамично развивающиеся технологии в мире. В то же время смена парадигмы создала много этических и юридических вопросов. В течение последних месяцев против компаний, занимающихся генеративными ИИ, были поданы крупные иски за нарушения авторских прав. А критики — бьют тревогу по поводу слишком жестоких или сексуализированных картинок, которые выпускаются тоннами. Со всем этим тоже теперь приходится разбираться школьному учителю.

Скромные начала

40-летний учитель и бывший актер основал LAION два года назад — после посиделок на сервере Discord для энтузиастов ИИ. Как раз только выпустили первая итерация DALL-E от OpenAI. Ему стало понятно, что за этим будущее. Кристоф был очень вдохновлен, но одновременно и обеспокоен тем, что это заставит крупные технологические компании делать ещё больше данных закрытыми. А это значило бы, что чем крупнее конгломерат — тем более сильное преимущество он получит над всеми остальными. Получился бы прямой путь к монополиям.

«Я сразу понял, что если это всё будет сосредоточено в руках одной, двух или трех компаний, это будет иметь очень плохие последствия для всего остального общества», — говорит Шуманн.

Чтобы это предотвратить, он и другие участники дискорд-сервера решили создать набор данных с открытым исходным кодом, который бы помогал в обучении моделей генерации изображений из текста. Это многомесячный процесс, аналогичный обучению кого-то английскому языку с помощью миллионов карточек вида «птица — это bird». Группа использовала HTML-код, собранный калифорнийской некоммерческой организацией Common Crawl, для поиска изображений в Интернете и связывания их с описывающим их текстом. На этом этапе они не использовали никакого ручного или человеческого курирования, просто пытаясь собрать самую большую базу из возможных.

?utm_campaign=733338&utm_source=habrahab

В течение нескольких недель у Шуманна и его коллег было 3 миллиона пар изображение-текст. Еще через три месяца они выпустили набор данных с 400 миллионами пар. А сейчас это число уже превышает 5 миллиардов пар, что делает LAION крупнейшим бесплатным набором данных об изображениях в мире.

Все эти два года команда работала бесплатно, получив в 2021 году разовое пожертвование от компании Hugging Face, занимающейся машинным обучением. Но по мере роста популярности и репутации LAION их небольшой дискорд-чатик пытались купить разные организации. И вот однажды туда зашел бывший менеджер хедж-фонда, Эмад Мостак, и написал Кристофу личное сообщение.

Он предложил покрыть расходы на вычислительную мощность их проекта (а это тысячи долларов) без каких-либо условий. Эмад хотел запустить собственный бизнес в области генеративного искусственного интеллекта, тоже с открытым исходным кодом. И очень хотел использовать LAION для обучения своего продукта. Сначала команда не поверила его предложениям, приняв его за очередного интернет-чудака.

«Поначалу мы были очень скептичны, — сказал Шуманн, —, но примерно через четыре недели мы получили доступ к графическим процессорам в облаке, которые обычно стоили бы около 10 000 долларов».

3300f72a091052bd0fe365a429e0068c.png

Через полгода, летом 2022-го, Эмад Мостак запустил свой проект: Stability AI. Он использовал данные LAION для создания Stable Diffusion, своего флагманского генератора изображений. Теперь, меньше года спустя, компанию Эмада оценивают в 4 миллиарда долларов, во многом благодаря данным, предоставленным LAION. Со своей стороны, Шуманн не получил никакой прибыли от LAION и говорит, что не заинтересован в этом. «Я все еще простой учитель средней школы. Я отклонял предложения от самых разных компаний, потому что хотел, чтобы мы оставались независимыми».

Новая нефть

Многие изображения в таких базах данных, как LAION, лежат в Интернете у всех на виду, часто в течение десятилетий. Потребовался бум ИИ, чтобы раскрыть истинную ценность этой информации. Оказалось, что чем больше и разнообразнее набор данных и чем выше качество изображений в нем, тем четче и точнее будет картинка, сгенерированная ИИ.

Осознание этого, в свою очередь, подняло ряд юридических и этических вопросов о том, можно ли использовать общедоступные материалы для наполнения таких баз данных. И если да, то следует ли платить что-то создателям этих картинок.

f32a974a0dd2dd76fb6ea5ba270852a9.jpg

Чтобы сделать базу LAION, основатели брали визуальные данные с серверов таких компаний, как Pinterest, Shopify и Amazon. А ещё — миниатюры YouTube, изображения с платформ портфолио, таких как DeviantArt и EyeEm, фотографии с правительственных веб-сайтов (даже Министерства обороны США) и контент с новостных сайтов, например The Daily Mail и The Sun. Пока что все эти организации молчат по поводу того, нарушает ли такое использование контента их правила. То есть, они не разрешают, но и не запрещают работу LAION.

Если вы спросите Шуманна, он скажет, что, по его мнению, всё, что находится в общем доступе в Интернете, является свободным контентом, который можно использовать. Но такую позицию разделяют не все. Сейчас в Европейском Союзе, где он проживает, нет регулирования ИИ. А предстоящий Закон об ИИ, который огласят в начале этого лета, не станет определять, могут ли материалы, защищенные авторским правом, включаться в наборы Big Data. Законодатели пока что только обсуждают, нужно ли требовать от компаний, стоящих за ИИ-генераторами, раскрывать, какие материалы вошли в наборы данных, на которых обучались их продукты.

Правда, если этот закон примут — это уже даст создателям материалов возможность принимать меры. Они будут иметь подтверждение, что их работы были использованы в конкретном наборе Big Data.

Ожидается, что такое регулирование не будет проблемой для Stability AI, но может стать проблемой для других, более современных генераторов преобразования текста в изображение. «Никто не знает, что на самом деле Open AI использовали для обучения своей DALL-E 2», — говорит Шуманн. — «То же самое с Google». Большинство технологических компаний очень неохотно рассказывают, какими данными пользуются и откуда они их берут. Но по мере роста индустрии это почти наверняка будет меняться.

b60c9fc9c7286d10e7fd09e3f596f015.png

«В этой области стало традицией просто предполагать, что вам не требуется согласие. И что вам не нужно информировать людей, у которых вы берете изображения, они даже не должны знать об этом. Есть ощущение, что у всех есть все права на то, что есть в сети. И всё это вы можете просто просканировать и разместить в своем наборе данных», — говорит Абеба Бирхане, старший научный сотрудник в движении Trustworthy AI от Mozilla Foundation, которые тоже исследовали LAION.

Хотя на LAION пока не подали в суд напрямую, Шуманн уже фигурирует в двух судебных процессах. В одном из них Stability и Midjourney обвиняются художниками в использовании их картинок для обучения своих моделей. В другом Getty Images обвиняет Stability в том, что 12 миллионов их изображений были собраны LAION и использовались для обучения модели Stable Diffusion. Пока что оба этих дела находятся на рассмотрении. Их результаты, учитывая методы прецедентного права, могут похоронить всю индустрию или, по крайней мере, выгнать её за пределы юрисдикций США и Европы.

Поскольку LAION имеет открытый исходный код, невозможно узнать, какие ещё компании использовали их набор данных. По крайней мере, пока те сами об этом не расскажут. Google недавно призналась, что использовала LAION для обучения своих моделей Imagen и Parti AI. Шуманн считает, что почти все другие крупные компании потихоньку делают то же самое — просто пока не раскрывают этого.

Всё худшее в Сети, что попало в мои сети

a3f3396f5b1ee153e831530f1933568b.jpg

Шуманн сравнивает LAION с «маленькой исследовательской лодкой», плывущей на вершине «большого цунами информационных технологий». Она берет образцы того, что находится под водой, чтобы показать это миру.

«Мы только крошечная часть того, что общедоступно в Интернете. Это правда легко получить, потому что даже мы, с начальными бюджетами в 10 000 долларов от донатов, смогли это сделать.

Но то, что общедоступно, не всегда законно. И помимо фотографий кошек и пожарных машин набор данных LAION содержит миллионы изображений порнографии, насилия, детской наготы, расистских мемов, различных символов ненависти, защищенных авторским правом произведений искусства, работ с частных сайтов компаний. Шуманн заявляет, что ему ничего не известно о какой-либо детской наготе в данных LAION, но он признает, что не просматривал эти данные очень подробно. По его словам, если его уведомят о таком контенте, он немедленно удалит ссылки на него. Но пока что вручную проверять миллиарды картинок у них возможностей нет.

Шуманн проконсультировался со знакомыми юристами и за свои деньги запустил автоматизированный инструмент для фильтрации нелегального контента — ещё до того, как он начал собирать базу данных. Но этот инструмент не идеален. А чем меньше информации будет в свободной базе, тем хуже она покажет себя в сравнении с результатами крупным компаний.

Пока что школьный учитель больше заинтересован не в удалении из базы «лишних» данных, а в извлечении уроков из их существования:

Мы могли бы отфильтровывать насилие, скажем. Но решили этого не делать — потому что это ускорит разработку программного обеспечения для обнаружения элементов насилия. То же самое и с другими видами «запрещенных» данных: модели ИИ нужно на них натренировать, чтобы они потом понимали, как с этим бороться.

Чтобы избежать проблем с законом, LAION теперь предоставляет форму запроса на удаление отдельных фотографий. Любой пользователь, которого что-то оскорбило, может подать просьбу об удалении конкретного контента из базы. Но набор данных общедоступен и уже был загружен тысячи раз. Так что его распространение по Интернету уже не остановить.

Например, оскорбительный контент, извлеченный из LAION, уже, похоже, был интегрирован в Stable Diffusion. И теперь, несмотря на недавно усиленные фильтры, пользователи легко создают поддельные фотографии с обезглавливанием тел (в стиле ИГИЛ, только с известными лицами) или «фотографии» происходящего Холокоста — как если бы их делали немцы на смартфоны в 1945-м. Расистских и порнографических изображений тоже уже успели создать с избытком.

И, естественно, Stable Diffusion и DALL-E 2 уже активно критикуют за «расовую предубежденность». Если, например, попросить у них создать изображение человека, бегущего от полиции, они с большой долей вероятности сгенерируют там чернокожего. И наоборот: если попросить сгенерировать «богатого человека» или «умного человека», на картинке почти всегда будет белый, какими бы эпитетами после этого вы не воспользовались.

Именно из-за таких предубеждений (и потенциальных угроз для своего бренда) Google и решила не выпускать Imagen, который тоже был обучен на LAION.

Когда к Stability AI обратились за комментариями, они заявили, что обучили свою модель Stable Diffusion на специально отобранном подмножестве базы данных LAION. Мол, они пытались удалить оттуда весь «контент для взрослых, используя фильтр NSFW LAION». Вышло или нет — другой вопрос.

7c5dca1a934c25fa92561e8550f660bc.jpg

Может показаться, что всё это очередные глупости canceling-культуры, неженок и «белых рыцарей» Твиттера. Кому какое дело, есть ли в какой-то базе данных обнаженка и трупы? Но на самом деле это действительно важно. Даже сторонники искусственного интеллекта с открытым исходным кодом предупреждают о последствиях его обучения на «токсичных» БД.

По словам Ясин Джернит, который возглавляет проект машинного обучения в Hugging Face, генеративные инструменты ИИ, основанные на испорченных данных, будут отражать эти предубеждения. «Модель является очень прямым отражением того, чему она обучена». А если эти ИИ станут основой нашей новой цифровой эпохи, они принесут все свои предрассудки даже в это будущее. Открывая путь для предубеждений и противоречий.

Джернит добавляет, что введения ограждений после того, как продукт уже запущен, недостаточно. Пользователи всегда найдут способ обойти меры безопасности. Поэтому обучение «хорошего и доброго» ИИ должно начинаться с правильного набора данных. А иначе «происходит то, что мы видим: вы берете модель, обученную подражать тому, что люди делают в Интернете. И она воссоздает то, чему её научили. Можно потом сказать: «Мы запрещаем тебе делать это и это». Но люди все равно найдут способ заставить её делать то, что они захотят».

Гил Эльбаз, основатель некоммерческой организации Common Crawl, создающей и поддерживающей открытый репозиторий данных веб-сканирования, сравнивает ИИ с художником. Только с таким, который регулярно ходит в музеи за вдохновением, но не имеет собственной креативности и глубины. В итоге он создает реплики произведений искусства или что-то очень похожее на уже существующие шедевры. И, по словам Гила, это не изменить. Вместо этого он говорит, «для общества сейчас важно решить, какие из этих реплик являются законными, а какие — незаконными. Где проходит эта грань».

Регулирующие органы в Европе уже разрабатывают законодательство для управления использованием ИИ. Сейчас они пытаются бороться с тем фактом, что данные, которые используются для нынешнего бума ИИ, в течение многих лет добывались в правовой «серой зоне». И она только сейчас подвергается серьезному анализу и пересмотру. Предстоит определить, какие данные в Интернете свободные, а какие — не очень.

Но Шуманн считает, что регулировать нужно не открытые наборы данных. По его мнению, наихудший сценарий для ИИ — это тот, при котором крупные компании вытеснят всех остальных разработчиков, обладая огромными массивами информации и приспособив свои инструменты к существующей нормативно-правовой базе. «Если мы попытаемся замедлить ход событий и всё это регулировать, — предупреждает он, — существует большая опасность того, что в конечном итоге только несколько самых больших корпораций смогут позволить себе выполнять все формальные требования. Тогда весь генеративный ИИ останется в их руках. Открытые наборы данных в Интернете призваны этого не допустить».

© Habrahabr.ru