[Перевод] Не стоит ждать, что в обозримом будущем системы ИИ полностью овладеют человеческим языком18.08.2021 16:46

Представьте себе: при помощи SkillFactory вы стали инженером машинного обучения или специалистом в Data Science. Это далось вам нелегко, даже тяжело, и вы часто слышали нотки недоверия в словах ваших друзей и знакомых, но, несмотря ни на что, решились. А через несколько лет в искусственном интеллекте произошёл прорыв, после которого смысл вашего труда почти сошёл на нет, ваша зарплата упала, а все перспективы исчезли.

Простые и ясные примеры этого материала рассказывают, почему ничего подобного не случится ни сегодня, когда у знаменитой GPT-3 появились превосходящие её конкуренты — LaMDA и MUM, — ни в обозримом будущем, то есть ИИ останется мощным вспомогательным инструментом, которому для работы необходимы люди.

В последние годы мы стали свидетелями бурного развития языковых моделей на базе искусственного интеллекта. Конечной целью таких систем является получение способности общаться и понимать язык на человеческом уровне.

В прошлом году мир узнал об уникальных возможностях GPT-3 (Generative Pre-trained Transformer 3) — третьего поколения алгоритмов обработки естественного языка от OpenAI. Некоторые восторженные комментаторы стали называть такие алгоритмы «интеллектуальными», «понимающими» и даже «наделёнными разумом». В этом году на ежегодной конференции Google I/O компания Google представила две сверхмощные языковые модели — LaMDA и MUM. Эти модели способны поддерживать разговоры, неотличимые от разговоров человека с человеком, и выполнять сложные поисковые запросы.

Но не стоит заблуждаться и принимать шумиху, поднятую вокруг этих систем искусственного интеллекта, за окончательную победу. Ведь существует чётко определённый барьер, который такие модели, пытаясь овладеть языком, всё-таки преодолеть не могут. Ни GPT-3, ни LaMDA, ни MUM, ни любые другие их будущие варианты полного успеха достичь, увы, не в состоянии.

В этой статье я расскажу, что умеют такие системы, а чего не умеют, что это за барьер, который они не в состоянии преодолеть, и почему единственным вариантом движения впёред является изменение доминирующей парадигмы ИИ.

Современные языковые модели: GPT-3, LaMDA и MUM

GPT-3 — вершина исследовательских разработок OpenAI

Модели GPT — это шаг к достижению цели, определяемой следующей гипотезой: можно создать метаобучаемую языковую модель с неуправляемым обучением. Если модели с возможностями метаобучения «скормить» несколько контекстуальных примеров, такая модель сможет обучиться выполнению различных задач, с которыми ранее ей никогда сталкиваться не приходилось.

Реальным доказательством осуществимости такой возможности стала модель GPT-3, представленная в мае 2020 года. После того как OpenAI представила бета-версию API-интерфейса для взаимодействия человека с системой ИИ, мы увидели, насколько изобретательно GPT-3 проявляет себя в самых разных ситуациях, иногда совершенно запредельных. Тут и в самом деле задумаешься, а не обрела ли действительно машина человеческий разум. Модель может сочинять стихи и песни, говорить от имени исторических личностей, писать программный код по словесному описанию или размышлять о будущем.

Узнать больше о модели GPT-3 можно в статье: «Что такое GPT-3, как работает модель, ошеломительные результаты, громкая шумиха, потенциальная опасность и критические отзывы».

LaMDA — революция чат-ботов

Google продемонстрировала, как система искусственного интеллекта, обученная диалогу, способна понимать нюансы человеческого разговора. Модель LaMDA, первый представитель нового поколения чат-ботов, способна вести разговоры с человеком, реагируя на любые, даже самые внезапные повороты и изменения в разговоре, чего не может ни одна другая система ИИ.

В демонстрации чат-бот поддерживал разговор от имени планеты Плутон, бумажного самолётика и отвечал на вопросы разработчиков Google. Он продемонстрировал рассудительность (его ответы были осмысленными), конкретность (не давал общих или обтекаемых ответов), высказывал интерес к разговору, и его ответы содержали фактическую информацию (на что не способна модель GPT-3).

Узнать больше об алгоритме LaMDA, что он может и как работает, можно из этой статьи. Пока информации не так много, но я убеждён, что после того, как Google откроет доступ к системе, чтобы пользователи смогли оценить её возможности, они будут просто визжать от восторга.

MUM — мозг поисковой системы

С самого начала, когда Google ещё только создавала собственную поисковую систему, она пыталась сделать общение с ней более похожим на человеческое. Результатом её усилий стала система MUM. Эта система способна, например, обрабатывать запросы такого вида: «Я поднялся на гору Адамс. Теперь хочу подняться на гору Фудзи. Как мне подготовиться к новому восхождению?». MUM найдёт ключевую информацию, выберет из неё нужную и даст разумный и лаконичный ответ.

Система способна понимать 75 языков, она многозадачная (способна искать и подбирать ключевую информацию, отвечать на вопросы, переводить с языка на язык, формировать ответы…) и мультимодальная (способна объединять изображения и текст, что превосходит возможности аналогичных систем ИИ).

О возможностях алгоритмов MUM и о том, каким мощным конкурентом они могут стать для алгоритмов оптимизации в поисковых системах (SEO), я написал отдельную статью. Повторюсь: пока Google не раскрывает все возможности MUM, но, когда эта модель будет интегрирована в поисковую систему, мы, несомненно, увидим всю её мощь.

Языковым моделям не хватает понимания

Сверхмощные системы ИИ достигли определённой степени владения человеческим языком. Они отлично разбираются в синтаксисе и семантике. Они овладели формой и структурой языка. Если завести с ними разговор, во многих случаях просто невозможно будет понять, с кем вы говорите — с машиной или человеком. В своём деле они, бесспорно, хороши. Однако не всё так радужно, как может показаться. Такие системы, если рассуждать с человеческой точки зрения, иногда просто не понимают текст, генерируемый ими самими.

Понимание приходит благодаря соединению формы со смыслом. Если я произнесу фразу: «Сегодня утром я съел яблоко», вы прекрасно поймёте, что она означает без всяких уточнений (то есть без дополнительных слов). Вы знаете, что поедание чего-либо — это действие, мы едим, когда голодны, и оно необходимо для выживания. Вы знаете, что яблоко — это фрукт, оно сладкое и что, если я запущу в вас яблоком, вам будет больно. Из этой фразы можно сделать заключение, что я, вероятно, позавтракал и, возможно, выпил чашку кофе.

Система искусственного интеллекта никогда не ела, не трогала и не нюхала никаких яблок, она не понимает, что такое бодрящая утренняя чашка кофе. Она, конечно, может сочинить фразу: «Сегодня утром я съел яблоко», но у неё не будет настоящего эмпирического, субъективного понимания, что именно означают эти слова.

Но, можете сказать вы, пусть система ИИ не в состоянии понять, каково это — съесть яблоко, но она всё равно сможет применить это предложение с человеческой точностью и рассудительностью. Разве это не владение языком? Не совсем. Поясню это на этом же примере, немного его изменив, и вы поймёте, что для ИИ понятие поедания яблока не имеет никаких смысловых оттенков.

Предположим, я говорю: «Сегодня утром я съел яблоко. Я зашёл в магазин, взял его, съел и ушёл». Пример очень похожий, поэтому можно предположить, что ИИ по-прежнему так и скажет. Однако в этом предложении скрыто нечто такое, что могут понять только люди, потому что у нас, людей, есть истинное понимание того, что произошло: съев яблоко, я украл его! Эта информация содержится не в самих словах, а в более широком контексте, в котором мы живём; это прагматическая информация.

Непреодолимый барьер: прагматика

Прагматика — отрасль лингвистики, изучающая проблемы влияния контекста на смысл. Джордж Герберт Мид, известный прагматик XIX века, утверждал, что общение — это нечто большее, чем используемые нами слова: «Оно включает в себя все важные социальные знаки, которыми люди обмениваются друг с другом во время общения».

Вот один пример из исследования Американской ассоциации речи, языка и слуха, который мы, люди, способны прекрасно понять, но системы искусственного интеллекта понять не могут:

«Вы пригласили друга на ужин. Ваш ребёнок видит, как ваш друг тянется за печеньем, и говорит: «Не надо его брать, а то станешь ещё толще». Вам становится стыдно за грубую выходку ребёнка».

С семантической точки зрения ребенок просто констатирует, что от поедания печенья человек набирает вес. Однако, если принять во внимание прагматический аспект (в данном случае социальный контекст), ребёнок фактически называет вашего друга толстяком, а это уже предосудительно. Система искусственного интеллекта упустила бы эту важнейшую часть смысла, стоящего за таким взаимодействием. Она не смогла бы сделать вывод о социальной значимости этого предложения, так как неспособна осознать последствия того, что ребёнок назвал кого-то толстым.

Ещё один пример Лингвистического общества Америки:

Парень и девушка — Пэт и Крис — знакомятся на первом свидании. Если вечером после первого свидания Крис скажет Пэт: «Ты мне очень нравишься», Пэт, скорее всего, будет довольна тем, как начали развиваться их отношения. Но представьте, что Пэт и Крис встречаются уже несколько недель, и Пэт спрашивает: «Ты меня любишь?» Теперь, если Крис скажет: «Ты мне очень нравишься», реакция Пэт, скорее всего, будет совсем другой, так как заявление Криса будет ею воспринято как отрицательный ответ!

Два предложения совершенно одинаковы. Однако более широкий контекст радикально меняет фактический смысл фразы. И меняет его настолько, что в первом случае смысл фразы становится положительным, а в другом — отрицательным. Система ИИ между этими двумя ситуациями разницы не почувствует.

Так как же система ИИ, размещающаяся внутри компьютера, может получить доступ к контекстной информации? Основная проблема заключается в том, что в систему ИИ поступают «голые» слова, не содержащие никакой прагматической информации. Такую информацию мы извлекаем из этих слов сами. Прагматика живёт в общих знаниях людей о том, как устроен мир. Люди могут выразить больше, чем передать словами, потому что мы живём в общей для всех реальности. Но системы ИИ не живут с нами в этой реальности. И именно это положение дел мы должны изменить.

Как системы ИИ могут лучше понимать язык

В последнее десятилетие доминирующее положение занимают системы ИИ на основе нейронных сетей. Люди полагают, что, чем больше данных вводить в системы, чем крупнее и сложнее создавать сети и чем интенсивнее их обучать, тем быстрее будет расти общий уровень развития искусственного интеллекта. В основе этой идеи лежат принципы глубокого обучения, в последнее время занимающие прочные позиции и, похоже, не собирающиеся их уступать. GPT-3, LaMDA и MUM — самые свежие примеры, не говоря уже о бесчисленном множестве других популярных систем, созданных с использованием этой парадигмы.

Однако у такого подхода есть и авторитетные опровергающие его противники. Философ Юбер Дрейфус критиковал современные подходы к созданию систем ИИ, утверждая, что большую часть своего опыта человек набирает в форме неявных — опытных и интуитивных — знаний, которые нельзя передавать непосредственно или в виде особого кода, и поэтому такие знания недоступны для виртуальных систем ИИ. Языковый опыт в этом смысле ничем не отличается от общечеловеческого, и именно прагматическое измерение часто переплетается с неявным знанием.

Дрейфус утверждал, что лишённые материальной оболочки машины никогда не смогут обрести интеллект и понимание, потому что для этого им придётся выйти в мир и взаимодействовать с ним. Познавая мир, мы развиваем неявные знания и постигаем скрытую в языке прагматическую информацию. Чтобы овладеть языком, системам ИИ придется внедрить себя в ту же реальность, в которой живём мы, и взаимодействовать с ней так же, как и мы.

По словам Рагнара Фьелланда, профессора Бергенского университета, «пока компьютеры не повзрослеют, не примкнут к какой-либо культуре и не станут действовать в реальном мире, они никогда не обретут подобный человеческому интеллект». То же можно сказать и о приобретении человекоподобных языковых способностей. Но, по всей видимости, в ближайшее время этого не произойдёт.

Выводы

В последние годы мы стали свидетелями ошеломительного прогресса технологий ИИ, интегрируемых в системы автоматической обработки естественного языка (NLP), например GPT-3. Такие языковые системы уже способны выполнять языковые задачи на человеческом уровне. Их возможности никто не отрицает. Это очень мощные системы, и со временем они будут становиться ещё мощнее.

Однако они не способны по-настоящему понимать генерируемые ими слова и фразы. Они не смогут идеально овладеть языком независимо от количества введённых в них параметров и объёма данных, на которых обучаются.

Причина заключается в том, что им недоступна контекстуальная информация — прагматическое измерение языка, в котором происходит человеческий разговор. Они не видят смысла за словами. Системы ИИ не живут в нашем мире. Они не понимают нашу реальность. Именно поэтому в обозримом будущем у них не разовьются языковые способности, подобные человеческим.

То же самое, конечно же, верно и для других данных, с которыми работает ИИ, поэтому вы можете смело начинать карьеру в области искусственного интеллекта, например на нашем курсе «Machine Learning и Deep Learning» или двухлетней специализации в Data Science. Также вы можете узнать, как начать развиваться или прокачать навыки в других направлениях:

Data Science и Machine Learning

Python, веб-разработка

Мобильная разработка

Java и C#

От основ — в глубину

А также: