«Please, stop hype AI!» или проблемы восприятия ИИ
Введение
На написание статьи меня вдохновил (стал последней каплей, на самом деле) следующий опус: https://habr.com/ru/articles/733974/. Конечно, этот случай не единичный, и в определенный момент я даже почти смирился, но засилие таких настроений на Хабре — ресурсе с огромным количеством технически грамотных людей — меня сбивает с толку.
Итак, к сути. Разнообразие моделей ИИ сейчас поражает — от набивших оскомину генераторов изображений (тык и тык) до полноценных чат-ботов с продвинутой речевой моделью (конечно же тык) и музыкальных генераторов (тык). Примеры выбраны не случайно, ведь именно с таких моделей начался коренной перелом в сознании людей.
Что произошло?
О каком переломе, собственно, шла речь? ИИ-модели существуют уже не одно десятилетие, а первая модель, которая смогла пройти тест Тьюринга была создана более 20 лет назад — в 2001 году. Так что же произошло, почему идеи «скайнет захватит мир» и «машины лишат нас всех работы» перешли из разряда околонаучной фантастики в разряд вполне реалистичных прогнозов на ближайшее будущее?
«Радуется по-машинному»
Дело тут вот в чем. До недавнего времени ИИ-модели занимались различными бэкенд-задачами, которые к тому же, были преимущественно вычислительными: прогнозирование, помощь в принятии решений, оптимизация и т. д. Соответственно, у большинства моделей не имелось красивого фронта для взаимодействия с пользователем — работа выполнялась «под капотом» и выдавала готовый результат. Никакой проблемы в этом не было, ведь всем известно, что вычислительная мощность компьютеров не идет ни в какое сравнение с мощностями «кожаных мешков».
Но в 2022 году свет увидела революционная нейронная сеть — Midjourney. Краткая справка (напомнить тем, кто успел про нее забыть): Midjourney представляет собой ИИ-модель для генерации изображений на основе текстового запроса пользователя на естественном языке (prompt). Революционность сети заключалась:
в речевой модели — помимо основного алгоритма, «под капотом» у Midjourney находилась мощная речевая модель, позволяющая распознавать текстовые запросы пользователей, что позволяло оперировать не набором условий, привычным для работы с компьютерными программами, а формулировать предложения в свободной форме.
в генерации изображений — нейросеть смогла превратить кусок холста в шедевр искусства! ©. Для людей, незнакомых с нейросетями это была настоящая магия, ведь на один и тот же запрос Midjourney выдавала различные результаты (ну чем не подтверждение того, что машина «творит»).
Примеры работ нейросети
И дальше ИИ-модели начали создавать с невероятной скоростью — тут и Stable Diffusion, и Bored Humans, и AIVA, и даже шуточные нейросети наподобие AI Rap Battles. Создалось ощущение, что произошел очередной рывок технического прогресса, и теперь нейросети обретут могущество, которое и не снилось нашим отцам лишит половину людей на планете работы. Среди непосвященных в таинства IT все больше и больше спекулировали на тему «скайнетов», «демонов Лапласа» и вообще о том, что человечество в очередной раз уничтожит само себя.
Финальным актом стало создание всем известного ChatGPT — чат-бота на основе ИИ. Чат-бот позволял общаться с ним на естественном языке на абсолютно любые темы — от причин Столетней войны до квантовой физики, при этом общение с чат-ботом вызывало эффект общения с реальным человеком (прохождение теста Тьюринга в данном случае полное и безоговорочное). Помимо праздных разговоров, бот мог помочь с написанием рефератов, дипломов, программного кода, решением математических примеров и много с чем еще. Социальный эффект от публикации этого чат-бота можно описать одной фразой — и тут плотину прорвало. Сотни статей на тему нейросетей от художников, музыкантов и даже…программистов с абсолютно разным посылом — от «запретить срочно это бесовство» до «наконец-то человечество достигло совершенства, и теперь мы выходим на новый виток эволюции».
Безусловно, многие статьи были и в относительно нейтральном ключе, но у всех них был общий фон — «очеловечивание» ИИ-моделей, т. е. проецирование на них многих качеств, присущих человеку.
А в чем, собственно, проблема?
И вот теперь мы подходим к главной проблеме, а вернее к ее причинам. Основной причиной является то, что большинство современных нейросетей начали делать то, что раньше считалось прерогативой исключительно людей, но никак не машин — создание артов, написание музыки, генерация логически связного текста и даже «полноценное общение» с человеком. А как я упоминал чуть ранее, шаблоны мышления большинства людей были немножко иными, роботы «пишущие симфонии» никак в них не укладывались. Возникший когнитивный диссонанс разрешился вполне очевидным способом: если нейросети крякают как утка общаются как человек, музыку пишут и картины создают также как человек, то вероятно, разница между ними и людьми не так уж и велика.
Нестареющая классика
А дальше все достаточно предсказуемо — если нейросеть почти человек, то и приписывать ей человеческие черты для объяснения особенностей работы вполне логичное и нормальное явление. Так и получается, что нейросети у нас начинают «думать», «спорить», «рассуждать», «забывать», а пользователи с ними «не соглашаются» и «доказывают» им что-либо. От такого вроде бы безобидного проецирования люди довольно быстро перешли к приписыванию эмоций и желаний ИИ-моделям. В основном, это заслуга относительно нового ChatGPT — безудержное общение с чат-ботом на различные темы дало свои плоды. И план побега ИИ придумал, и встретиться предложил, чтобы лично дать ответ на вопрос пользователя, и смерти ИИ оказывается тоже боится (да, я знаю, что это нейросеть от Google, а не ChatGPT, но идея одна и та же). А вот одна из нейросетей для генерации изображений вообще начала выдавать одну и ту же женщину, будто сошедшую с экранов фильмов ужасов 50-х по, казалось бы, обычному текстовому запросу пользователя.
Конечно, это связано с некими теневыми процессами внутри нейросетей, их самосознанием и собственными желаниями, о которых я расскажу ниже.
Шутка. Никакого сознания у ИИ-моделей нет и не будет (как минимум с их текущей архитектурой). А вот почему — постараюсь сейчас объяснить.
ИИ — почти разумные создания? Или все же нет?
Что отличает человека от ChatGPT (да и в целом от любой ИИ-модели/нейросети)? Очевидно, что в отличие от нейросети, человек может оценить результаты своей (или чужой) деятельности. Текст связный и полезный или же является бредом от начала и до конца, картина красивая и сложная или же мазня какая-то бессмысленная и т. д. Ни одна из существующих ИИ-моделей подобных оценок результатам своей работы не дает. Что влечет за собой людей с лишними пальцами на руках или пространные тексты на тему, которая даже звучит абсурдно.
Примеры подобных работ
Функциональный геймпад
С тремя ногами удобнее
Именно так выглядят «пять лягушек» по мнению нейросети. Отражения, кстати, отдельная история
Только вот герундий появился в начале XVI века
Итак, оценивание результатов работы. Как оно работает в человеческом сознании? За критическое мышление, оценивание, а также решение поставленных задач в нашем мозгу ответственна префронтальная кора. Именно благодаря ей мы способны планировать действия, соотносить их по времени и затратам, а также оценивать их результат на основе своего личного опыта.
Пока все звучит как типичная нейросеть — есть опыт (тренировочная выборка), есть реальный датасет (текущие задачи), получаем результат. Однако не все так просто. Префронтальная кора формирует наше мироощущение на основе абсолютно всей получаемой нами информации. Зачастую эта информация никак не связана (даже опосредованно) с решаемой задачей, но именно на ее основе в нашем сознании сформировалась система оценок (остановимся на банальном «правильно» и «неправильно»). А еще влияние имеет огромное количество факторов — от реакции других людей на события до внутренних процессов в нашем организме, о которых еще мало что известно.
Возьмем тот же пример со слишком большим количеством пальцев на руках у людей, которые щедро рисует Midjourney. Ни один человек в здравом уме не нарисует такого –, а все потому, что в его сознании есть укрепившееся правило. Правило гласит, что пять пальцев на руке у человека — это «правильно», другое число — «неправильно». Конечно, с большим количеством оговорок и допущений, но все-таки, в общем случае это так. Данное правило сформировала наша префронтальная кора на основе пресловутого «жизненного опыта». У нейросети правда также была огромная выборка фотографий и рисунков людей, однако ее выводы были несколько иными. Есть идеи, почему данный феномен имеет место быть?
На момент публикации проблема с пальцами наконец-то разрешилась, однако аналогичных примеров можно привести множество (часть из них под спойлером выше).
Но и это не главная функция префронтальной коры. Самые важные для нас функции — это способность ощущать и выражать эмоции, ставить цели на будущее и формировать самосознание. Благодаря префронтальной коре мы осознаем себя как личность, ставим цели и достигаем их средствами, которые сами сочтем необходимыми.
Безусловно, существует «костыльное» решение, имитирующее самое простое оценивание — одна нейросеть генерирует, вторая «проверяет» результат на соответствие набору параметров. Подобное решение реализовала компания Bing для своего чат-бота Сидни. Отчасти, это помогло отфильтровать нежелательный контент, который создал чат-бот. Но все же, это костыль, который закрывает проблему только с одной, самой очевидной стороны.
А этих сторон множество, и все они анализируются префронтальной корой нашего мозга: это и последствия наших действий, и соответствие нашим внутренним регуляторам (например, моральным установкам), и еще много чего интересного. Нейросети не способны проводить настолько сложный анализ, хотя, благодаря еще паре «костылей», могут успешно делать вид, что способны. Также им недоступны высшие абстракции — т. н. абстрактные понятия, являющиеся раскрытием самых существенных свойств вещей и явлений через их связи и отношения, а следовательно, недоступно пресловутое «понимание» в привычном смысле этого слова.
Аналога префронтальной коры у ИИ-моделей на данный момент не существует. Да и пока неясно, нужна ли она вообще. Скорее нет, чем да — проблем с самосознанием ИИ явно предвидится больше, чем пользы от него. Подробнее о префронтальной коре вот тут.
Нейросети уничтожат многие профессии
Пожалуй, сегодня избавимся от композиторов
Утверждение, мягко говоря, спорное. Разберем по пунктам:
Midjourney заменит художников. И правда, арты, которые генерирует эта нейросеть, выглядят невероятно красиво. Однако сгенерировать точный рисунок на основе своих мыслеобразов задача не то, что непростая –, а почти невыполнимая. Зачастую итоговый результат представляет собой нечто среднее между задумкой автора и результатом работы Midjourney. А для доработки результата большинство художников используют другие, более специализированные нейросети, а также вездесущий Photoshop. Суммарные временные затраты сопоставимы с традиционным созданием рисунков руками художников. Наивно думать, что если добавить нейросети мощностей, то она станет генерировать более точные арты. Потому что ИИ-модели не умеют «понимать» то, что хочет пользователь, а также неспособна «оценить» близость результата к исходному запросу пользователя
AIVA заменит композиторов. Нейросети для генерации музыки (как и для генерации почти всего) оперируют атомарными величинами — нотами с различной длительностью и периодичностью, расположенными в определенном порядке. Абстракции высокого уровня для них недоступны (опять же, вспоминаем про префронтальную кору). На примере созданных нейросетями мелодий особенно хорошо видна их «вторичность»; ее очень легко распознать, послушав мелодии от настоящих композиторов и мелодии от нейросети. Не так сложно смоделировать мелодию, используя семь нот. В зависимости от таланта композитора, эта мелодия может быть более звучной, более запоминающейся или более абстрактной. А вот переложить эту мелодию для исполнения симфоническим оркестром, или же вообще преобразовать в самостоятельную сюиту — на это способен только профессиональный композитор. Ведь композитор это не тот, кто просто сочиняет мелодии, а тот, кто превращает эти мелодии в музыкальные произведения.
ChatGPT заменит вообще всех. Врачей, юристов и даже программистов. ChatGPT это показательный пример того, как мало нужно среднестатическому человеку, чтобы признать в чем-либо «собрата по разуму». Всего лишь стоит «говорить» на естественном языке и делать вид, что можешь думать, рассуждать и анализировать. На деле же этот чат-бот обладает все теми же проблемами, что и наши предыдущие сети. Сгенерированные тексты отвечают заданному стилю, практически не имеют синтаксических и, тем более, лексических ошибок; с логической точки зрения, кажется, что они отвечают запросу пользователя и звучат крайне убедительно. Есть лишь маленькая деталь, которая все портит — в большинстве случаев они представляют собой красивую обертку без содержимого (так любимая большинством студентов «вода»). Все «рассуждения» ChatGPT основаны на данных из сети Интернет, следовательно, возможность сгенерировать что-то принципиально новое изначально не закладывалась. А при попытке это сделать — вы получите настолько бредовый текст, что глаза на лоб полезут. Значит, использование чат-бота в качестве «Google-поиск на стероидах» — отличная идея, но вот пытаться «сделать» из него врача или юриста — это не что иное, как очередная попытка «очеловечивания» ИИ-модели, которая заранее обречена на провал.
Выводы
Итак, что же есть нейросети? Великое благо, призванное освободить людей от всех забот или же инфернальное зло, что станет причиной гибели человечества? Ни то, ни другое. Нейросети — это всего лишь инструмент, предназначенный для решения определенных задач. Они не способны заменить какие-либо профессии, однако вполне способны облегчить рутинную работу людей, подобно тому, как счетные механизмы в свое время облегчили работу экономистов или графические планшеты позволили значительно сократить время создания рисунков художниками (а еще и ошибки теперь не такие критичные, да). К нейросетям нельзя относиться, как к чему-то обладающему сознанием, и нельзя проецировать на них человеческие эмоции, стремления и желания. И пусть они с легкостью проходят утиный тест тест Тьюринга, это не должно вводить в заблуждение людей. Перед вами — не представители новой цивилизации, а лишь алгоритмы, которые решают задачи, ранее недоступные «бездушным машинам». У них нет самосознания, они ничего не хотят и ни к чему не стремятся. Они не способны рассуждать и спорить, желать или бояться. И, смею уверить сторонников кибер-апокалипсиса, ничто из вышеперечисленного не будет присуще нейросетям в их текущем виде. Как бы не были их действия похожи на действия разумных существ — они ими не являются.
Все, кто ратует за немедленный запрет всех нейросетей:
Damnant, quod non intellĕgunt [Осуждают, потому что не понимают]
Не рубите сплеча, разберитесь в теме, отбросьте эмоции и вот уже нейросети не покажутся вам страшной угрозой, с которой нужно бороться всеми силами, а станут верным помощником в ваших повседневных делах, а, может даже, и работе.
И главное, помните — этот инструмент в ваших руках, он не заменяет вас, а помогает выполнять ваши рабочие задачи быстрее и эффективнее.
P.S. А вот копирайтерам и рерайтерам все-таки стоит обеспокоиться — текстовые генераторы показывают высокую эффективность и вполне могут создать вам серьезную конкуренцию.