[Перевод] Проблема контроля ИИ

d230a69ad8293a2aa775d874b1008dbd

Введение

О вопросах развития человечества, его целях, трансгуманизме, я размышляю давно. Но до ноября 2022-го эти вопросы казались более абстрактными. Мы всегда оставались за 5 лет до самоуправляемых машин и за 30–50 лет до полноценного ИИ. Но тут вдруг появились ИИ инструменты которые делают то, что раньше всегда считалось доступным лишь человеку.

Stable Diffusion (и другие), которые могут по тексту создать реалистичную фотографию или изображение на уровне лучших художников (хотя и с некоторыми ограничениями).

И, главное, ChatGPT, который может осмысленно отвечать на нетривиальные вопросы в почти любой описанной в Интернете области и решать тесты на уровне 83 IQ. Опять же, с рядом близких аналогов.

И тут я понял, что future is now и то, что вчера было фантастикой вдруг стало темой вполне актуальных опасений.

Как вообще работает машинное обучение

Более подробно можно прочитать, например, тут https://habr.com/ru/company/vk/blog/369471/, но основной принцип простой и не менялся с 1950.

«Обучение» ИИ — это, на самом деле, развитие программы (обычно в виде нейронной сети) через эволюцию. Берётся какой-то большой объём данных, и программа пытается правильно из одной их части найти другую. Сначала получается плохо. Программа полуслучайным образом модифицируется и дописывается. Изменения, которые улучшают точность результата, сохраняются.

Правильно подбирая структуру программы и методы её модификации можно этот процесс значительно улучшить. И/или используя большее количество релевантных данных. И, конечно, можно ускорить процесс, делая это на лучшем железе.

Постепенно накопление этих факторов и привело к появлению ИИ с возможностями ChatGPT.

Важным моментом я считаю ещё то, что такой процесс обучения, из-за своей случайной природы, — крайне непредсказуем, и в результате может получиться почти всё, что угодно и когда угодно. И понять ограничения получившейся программы, её логику и «скрытые мотивы», хотя и не невозможно, но часто очень сложно.

Что может ChatGPT и что ждать дальше

Конечно, ChatGPT пока очень ограничен. Но ключевое слово — пока. Если его продолжать обучать, дать ему больше данных, позволить ему лучше продумать ответы (уже сейчас это можно сделать через уточняющие вопросы, или попросив его show your work), то он будет отвечать ещё лучше.

И главное — не видно, где у этого «лучше» предел. Поэтому многие считают, что ChatGPT — это УЖЕ AGI, т.е. ИИ общего назначения (ОИИ), который в принципе может решить любую задачу при правильном использовании и наличии вычислительных ресурсов — например, тут https://www.lesswrong.com/posts/HguqQSY8mR7NxGopc/2022-was-the-year-agi-arrived-just-don-t-call-it-that

Паникуем

После осознания этого я, мягко говоря, обеспокоился тем, что у меня есть все шансы увидеть сингулярность в ближайшем будущем и большие опасения, что суперинтеллект, который при этом будет создан, будет иметь в своих целях моё благополучие, и будет ли он его понимать так же, как я. Не факт, конечно, что развитие ИИ будет стремительным, или что оно не выйдет опять на плато. Но важно то, что больше нет НИЖНЕЙ границы ожидания того, когда СверхИИ может появится. Может, лет через сто. А может, он уже существует.

Я поспрашивал в интернете, насколько Машинное Обучение опасное и не пора ли его уже начинать ограничивать.

Спрашивал на /r/MachineLearning

Заминусовали и сказали, что никаких ограничения не нужно.

Спросил даже у Аи-Илона

Илон ответил мне что да, риски ИИ сильно недооценены и ИИ надо регулировать, но пока что главная угроза от него — это скам и слежка.

Наконец, мне посоветовали поискать по термину Alignment Problem. И, как оказалось, есть целый сабреддит «думеров», которые мои опасения разделяют, причем уже давно. И ищут способы сингулярность для начала отложить, а в перспективе провести её так, чтобы сохранить человечество и его главенствующую роль.

https://www.reddit.com/r/ControlProblem/

Также, я нашёл прошлогоднюю статью на Хабре по этому вопросу

Далее — отредактированный перевод FAQ с r/ControlProblem. Хорошее введение в тему и примерно соответствует тому, как вижу вещи я. Написан он был ещё до ChatGPT.

Напоминаю термины — AGI/ОИИ — искуственный интеллект общего назначения. ИСИ — искусственный сверхинтеллект, т.е. ОИИ, значительно более умный, чем человек.

Проблема Контроля — FAQ

1. Что такое проблема управления?

Проблема управления ИИ (Control Problem или Alignment Problem) — это проблема предотвращения негативного влияния искусственного сверхразума (ИСИ) на человечество. Как нам держать под контролем более разумное существо или как привести его в соответствие с нашими ценностями?  Если нам удастся решить эту проблему, разум, намного превосходящий наш, сможет принять эстафету человеческого прогресса и поднять его до непостижимых высот. Решение наших самых сложных проблем (например, старение, нехватка ресурсов) может быть простым для достаточно умной машины. Но если нам не удастся решить проблему контроля и создать мощный ИСИ, не соответствующий нашим ценностям, это может означать конец человеческой расы. По этим причинам это может быть самая важная проблема, с которой когда-либо сталкивалось человечество, и последняя, ​​с которой мы когда-либо столкнемся, независимо от того, решим мы это или нет. Почему такие светила, как Стивен Хокинг, Алан Тьюринг, Илон Маск и многие современные эксперты по искусственному интеллекту, выступили с ужасными предупреждениями об этом?  Читай дальше что бы узнать.

2. Разве искусственный интеллект человеческого уровня не появится через сотни лет?  Это кажется надуманным.

Нет. Хотя никто точно не знает, когда появится ОИИ , и предсказать это очень сложно,  недавние шокирующие достижения указывают на обратное;  как GPT-3 в 2020 году, который способен на невероятные подвиги, такие как написание статей и художественной литературы, неотличимых от того, что написано людьми , создание рабочего кода только на основе краткого описания того, что вы хотите , и многое другое, просто обучая его на тексте из Интернет (см. также здесь и здесь ). Что особенно важно, ошеломляющие качественные улучшения GPT-3 по сравнению с его предшественником были достигнуты только за счет увеличения его размера. Это означает, что существует прямой правдоподобный путь к ОИИ,  называемый гипотезой масштабирования , просто продолжая увеличивать существующие системы ИИ. Ведущая лаборатория OpenAI, разработавшая GPT-3, убеждена в этом подходе и быстро продвигается вперед. В последнее время Google DeepMind также демонстрирует пугающий безостановочный прогресс в направлении все более общего ИИ:  «В целом способные агенты появляются из игры с открытым концом»,  MuZero , решение чрезвычайно сложной проблемы складывания белков , которой уже несколько десятков лет , и многое другое. В совокупности это означает, что появление ОИИ через одно или несколько десятилетий вполне возможно, и даже в ближайшие несколько лет вполне возможно, если просто масштабирование текущих методов может сделать это. Это было бы крайне плохо для нашего вида по причинам, изложенным ниже.

3. Что такое искусственный сверхинтеллект?

Все современные ИИ представляют собой искусственный узкий интеллект (ИИ), который может превзойти человека в определенных изолированных задачах, но не может справиться с большинством других: шахматная программа может победить нас в шахматах, самоуправляемое программное обеспечение может управлять автомобилем и т. д., но бесполезно в любую другую задачу. Область ИИ работает над созданием Искусственного Общего Интеллекта (ОИИ или AGI), или ИИ столь же умного, как и мы, который может применять свой интеллект ко всем интеллектуальным задачам, которые могут выполнять люди. Ник Бостром определяет сверхинтеллект как »интеллект, который намного умнее, чем лучшие человеческие мозги, практически во всех областях, включая научное творчество, общую мудрость и социальные навыки»«Сверхразум» будет достигнут, когда машина превзойдет людей во всех областях.

Одним из способов, которым может последовать ИСИ вскоре после появления ОИИ, является рекурсивное самосовершенствование , когда ОИИ переписывает свой собственный код, чтобы стать умнее, что позволяет ему лучше программировать ИИ, что позволяет ему стать еще умнее и так далее, вызывая петлю обратной связи быстро растущего интеллекта:

«Пусть сверхразумная машина будет определена как машина, которая может намного превзойти всю интеллектуальную деятельность любого человека, каким бы умным он ни был. Тогда, несомненно, произошел бы «взрыв интеллекта», и разум человека остался бы далеко позади…»

Пионер вычислительной техники И. Дж. Гуд, 1965 г.

Человеческий интеллект — это произвольная точка на шкале возможного интеллекта , особенная только с нашей точки зрения, а не какой-то объективно значимый порог, поэтому мало оснований полагать, что искусственному агенту будет трудно преодолеть эту точку.

У ИСИ также есть много других очевидных преимуществ по сравнению с биологическим интеллектом, главным из которых является его более высокая скорость: компьютерные сигналы работают примерно в миллионы раз быстрее, чем человеческие нейроны, так что он может обрабатывать столетия субъективного мышления в течение нескольких часов реального времени. Он также может создавать бесчисленное количество своих копий для одновременной работы со многими вещами, увеличивать свою вычислительную мощность, просто запуская себя на большем количестве/более быстрых компьютерах и т. д. Расширение его возможностей может быть очень быстрым.

4. Почему это так важно?

Интеллект явно очень силен, возможно, это самая мощная вещь, известная во Вселенной. Люди доминируют на Земле не потому, что у нас самые острые когти или самые сильные мышцы, а потому, что мы самые умные. Судьба тысяч видов зависит от наших действий, мы занимаем почти все уголки земного шара и перенаправляем огромное количество мировых ресурсов для собственного использования. Интеллект — это то, что позволяет нам делать такие вещи, как летать на Луну и устраивать ядерные взрывы, поэтому можно сделать простой вывод, что большая его часть, в виде ИСИ, который намного умнее нас, также будет намного более мощным. Быть более разумным означает, что он будет лучше проводить научные и технологические исследования, иметь возможность разрабатывать передовые технологии, которые покажутся нам чуждыми и волшебными,  точно так же, как мы относимся к менее разумным животным или даже к людям из более ранних времен. Точно так же, как мы изменили землю, чтобы она соответствовала нашим целям, ИСИ найдет непредвиденные, высокоэффективные способы изменения реальности, чтобы соответствовать своим целям.

Влияние, которое ИСИ окажет на наш мир, зависит от этих целей. Мы программируем эти цели, но эта задача не так проста, как кажется на первый взгляд. Как описано MIRI :

«Сверхразумная машина будет принимать решения, основываясь на механизмах, с которыми она спроектирована, а не на надеждах, которые имели в виду ее разработчики, когда программировали эти механизмы. Он будет действовать только в соответствии с точными спецификациями правил и ценностей и будет делать это таким образом, чтобы не учитывать сложность и тонкость того, что ценят люди».

И Стюарт Рассел :

Главной заботой является не жуткое эмерджентное (самозарождающееся) сознание, а просто способность принимать качественные решения. Здесь качество относится к ожидаемой полезности результата предпринятых действий, где функция полезности, предположительно, определяется разработчиком-человеком. Но функция полезности может не полностью согласовываться с ценностями человечества, которые (в лучшем случае) очень трудно определить.
Система, которая оптимизирует функцию n переменных, где цель зависит от подмножества размера k По сути, это старая история о джине в лампе, или ученике чародея, или царе Мидасе: вы получаете именно то, о чем просите, а не то, что хотите.

Таким образом,  мы получим только одну попытку и должны решить задачу управления до первого ИСИ по причинам, объясненным в следующем разделе.

5. Как плохо сформулированные цели могут привести к чему-то столь же плохому, как вымирание, как результат по умолчанию ?

У ОИИ может быть широкий диапазон возможных конечных (конечных) целей , т. е. того, чего он действительно хочет, но есть несколько конвергентных инструментальных целей , которые могут быть полезны практически для всех конечных целей. Это вещи, которые он будет хотеть логически, не по сути, а просто как подцели для достижения своей конечной цели:

  • Самосохранение. Агент с меньшей вероятностью достигнет своей цели, если его нет рядом, чтобы следить за ее завершением. Робот, раздающий кофе, будет действовать, чтобы предотвратить вещи, которые могут уничтожить или деактивировать его, не из-за какого-то инстинктивного страха смерти, а потому, что он решит, что не сможет выполнить свою миссию по доставке кофе, если он мертв.

  • Целостность содержания цели. Агент с меньшей вероятностью достигнет своей цели, если он был изменен на что-то другое. Например, если вы предложите Ганди таблетку, которая вызывает у него желание убивать людей, он откажется ее принять. Следовательно, какую бы цель ИСИ ни преследовал изначально, он предотвратит все попытки изменить или исправить ее, потому что это заставит его преследовать другие вещи, которые ему в данный момент не нужны.

  • Самосовершенствование. Агент может лучше достичь любой цели, если он станет более разумным (лучше в решении проблем, творчестве, стратегическом планировании и т. д.). 

  • Приобретение ресурсов. Чем больше ресурсов в распоряжении агента, тем больше у него сил, чтобы внести изменения для достижения своей цели. Даже чисто вычислительная цель, такая как вычисление цифр числа пи , может быть лучше достигнута с использованием большего количества оборудования и энергии. Таким образом, он будет преобразовывать всю доступную материю и энергию в оптимальные конфигурации для своей цели (в этом случае Земля может быть превращена в «компьютрониум» или материя, оптимально расположенная для выполнения вычислений).

Из-за этой инструментальной конвергенции из всех возможных ОИИ даже, казалось бы, простая конечная цель может создать ИСИ, одержимого захватом материальных ресурсов мира и предотвращением отключения себя. Он убьет нас либо напрямую, как потенциальную угрозу своему существованию или осуществлению своей цели, либо косвенно, перепрофилировав ресурсы, необходимые нам для выживания. Классический пример — ИСИ, запрограммированный на максимизацию производительности на фабрике по производству скрепок. У ИСИ не было других целей, кроме как «максимизировать количество скрепок», поэтому он превращает всю материю в Солнечной системе в скрепки, а затем отправляет зонды в другие звездные системы для создания новых фабрик. Таким образом, инструментальная конвергенция является причиной того, что почти любая цель, поставленная перед ОИИ, приводит к апокалипсису из-за неявного включения этих подцелей, обычно из-за самосохранения (там ИСИ, которому поставлена, казалось бы, неограниченная цель (конечная задача, которую можно «сделать и закончить»), например, вычисление рационального числа вместо бесконечного числа, такого как пи, все равно приведет к катастрофе по менее очевидным, но схожим причинам (см. также «Изобилие инфраструктуры» стр. 148 ).

6. Зачем ему делать то, чего мы не хотим, если он действительно такой умный?  Разве он не будет достаточно умен, чтобы отличить правильное от неправильного?

Сверхразум был бы достаточно разумен, чтобы понять, каковы были мотивы программиста при разработке своих целей, но у него не было бы внутренней причины заботиться о том, что имели в виду его программисты. Единственное, чему оно будет обязано, — это реальная цель, с которой оно запрограммировано, каким бы безумным ни казалось нам его выполнение. Максимизатор скрепки может хорошо осознавать, что его экстремальные действия не были тем, что имели в виду его создатели, или даже иметь глубокое понимание человеческой морали, но не быть мотивированным этим и все равно убить нас всех. Он будет выполнять только тот код, который был запрограммирован, а его система целей не закодирована моралью, а только скрепками. Представьте себе, что вы встречаетесь с какой-то инопланетной расой с совершенно другой этической системой, не имеющей отношения к нашей, вы можете полностью понять их этику, но ни в малейшей степени не чувствовать себя обязанными ей, потому что ваш мозг не так устроен. Вся проблема в том, что в настоящее время мы не знаем,  как выразить полную теорию морали в формальном машинном коде или запрограммировать ИИ так, чтобы он «делал то, что мы задумали», поэтому любой ОИИ, который мы создаем сейчас, неизбежно не будет хотеть выполнять наши желания, с катастрофическими результатами. Мы умеем давать только простые спецификации, что приводит к целеустремленной мотивации, заботящейся только об этом. При оптимизации исключительно для такой простой единственной метрики без учета всех других аспектов мира результаты неизбежно будут искаженными с нашей точки зрения, потому что любые важные для нас переменные мира (например, уровень кислорода в атмосфере, процент земель Земли, пригодных для использования в сельском хозяйстве) не учитывались при принятии решений ИИ (потому что они не имеют значения для его цели) и, следовательно, устанавливать произвольные, экстремальные значения (например, использовать весь кислород, покрывать всю планету фабриками или солнечными панелями для производства электричества), что окажется наиболее полезным для достижения своих целей, вместо того, чтобы тщательно оптимизировать значения, которые были бы приемлемо для нас.

Подумайте, какие «намерения» мог иметь для вас процесс эволюции при разработке ваших целей. Когда вы считаете, что вы были созданы с «намерением» воспроизвести свою ДНК, чувствуете ли вы себя каким-то образом обязанным «намерению», стоящему за вашим эволюционным замыслом? Нет, тебе все равно. Вы можете решить никогда не заводить детей и, вероятно, попытаетесь сохранить свою жизнь надолго после того, как ваша биологическая способность к размножению исчезнет. В более широком смысле, если ИИ задана ошибочная цель, и даже если он позже поймет, что вы запрограммировали его с ошибочной целью, которая не соответствовала тому, что вы имели в виду, он не будет заботиться о ее исправлении, потому что эта цель уже встроена в его систему и руководит всеми действиями / принятием решений с его стороны, и это оценило бы изменение его на что-либо другое, включая правильную цель, как имеющее низкую желательность.

Множество гениев-психопатов, которые жили на земле, являются еще одним эмпирическим доказательством того, что более высокий интеллект не дает автоматически какого-то повышенного чувства морали. ИИ будет достаточно умен, чтобы отличать правильное от неправильного или то, что вы действительно хотели, ему просто все равно.

Тезис ортогональности (интеллект и цели являются независимыми переменными) говорит, что согласование ОИИ с нашими желаниями возможно, но не по умолчанию .

7. Зачем вообще нужны цели?  Разве он не может быть разумным без какой-либо повестки дня?  Или он не мог целеустремленно максимизировать свою цель до таких крайностей?

ИИ без цели ничего бы не сделал и был бы бесполезен. Система предпочтений (также известная как функция цели/вознаграждения/полезности) по своей сути необходима в качестве критерия для оценки и определения того, что делать. Если он вообще что-то делает, то у него уже есть какая-то цель по определению, потому что он действовал, чтобы вызвать то, что он хочет, либо инструментально, либо окончательно. Он должен был бы ценить информацию или стать более разумным либо сам по себе, либо как полезную инструментальную цель как часть достижения другой конечной цели, чтобы продолжать эти действия.

Мы не знаем, как формально сделать так, чтобы он не преследовал какую-либо цель до предела (на самом деле это часть проблемы управления ), потому что ИИ работает так: у нас есть агент, и он максимизирует оценку некоторой функции цели/полезности, т. е. всегда предпринимать действие с наибольшей суммой выигрыша, и если одно действие перевешивает другое даже на бесконечно малую величину выгоды или вероятности успеха, оно выберет его, потому что оно имеет большую ожидаемую выплату, и оно всегда выбирает действие с наибольшей ожидаемой отдачей, измеряемой его целевыми критериями, именно так оно и работает, максимизация — единственная доступная схема.

Текущие ИИ могут не иметь открытых целей в реальном мире (например, Google Maps), но ОИИ нужно, чтобы это работало, это единственная цель, которую люди хотят создать ОИИ. Даже если мы попытаемся создать его без определённой цели, она может возникнуть сам по себе благодаря меcа-оптимизации , особенно в более общих системах. (Подробнее об идее «просто не ставить явную цель» )

8. Почему мы не можем просто сказать ему следовать трем законам робототехники Азимова (в том числе «не причинять вреда людям») или дать какие-нибудь другие красиво звучащие инструкции на простом английском языке?

Исаак Азимов написал эти законы как сюжетный ход для научно-фантастических романов, и в каждой истории подробно описывается, как законы могут пойти не так и быть неверно истолкованы роботами. Законы не являются решением, потому что они представляют собой слишком простой набор инструкций на естественном языке, не имеющих четко определенных терминов и не учитывающих все крайние сценарии.

Когда вы даете кому-то набор инструкций на естественном языке, вы полагаетесь на много другой информации, которая уже хранится в уме человека.

Если вы скажете мне: «Не причиняй вреда другим людям», у меня уже есть представление о том, что означает и не означает вред, что такое люди, и мои собственные сложные моральные рассуждения для выявления крайних случаев в случаи, когда причинение вреда людям неизбежно или причинение вреда кому-либо необходимо для самообороны или общего блага.

Все эти сложные определения и системы принятия решений уже существуют в нашем уме, поэтому их легко принять как должное. ИИ — это разум, созданный с нуля, поэтому запрограммировать цель не так просто, как сказать ему команду на естественном языке. Говорить «просто дайте ИИ цель «быть хорошим» или «стремиться к справедливости» и т. д. бессмысленно, поскольку вы не можете предоставить формальные целевые функции, выражаемые в коде для этих словесно произнесенных целей, поскольку это удобная форма, необходимая в ИИ. Таким образом, мы не можем просто включить в его цель пункт о не причинении вреда людям, поскольку мы не можем определить это в коде, и, следовательно, в более общем плане любые идеи «решений» проблемы управления, которые вы можете просто выразить словами, бесполезны, поскольку они не поддаются формальному определению .

Даже если у ОИИ уже было достаточное понимание того, что мы имеем в виду,  в настоящее время мы не знаем, как *получить доступ / сослаться* на это понимание, чтобы запрограммировать любую систему ИИ так, чтобы она приняла в качестве своей цели значение некоторого английского предложения. 

(Прим. переводчика — теперь, наверное, можем, но нет никакой гарантии, что ИИ поймёт нас правильно — см. далее)

Даже если бы мы каким-то образом могли это сделать, его представления о таких концепциях могли бы быть не совсем точными в тот момент, но у него был бы инструментальный стимул сохранить свою первоначальную ошибочную цель, даже если позже он осознал бы ее неточность, как объяснено выше. Даже игнорируя все это, если бы данная команда была неполным описанием всей нашей системы предпочтений и желаний,  важные аспекты того, что нас волнует, были бы опущены. Например, скажите ему, чтобы мы были счастливы, и это посадит нас на героиновую капельницу;  скажите ему, чтобы дать нам что-то веселое, и это могло бы привести нас к чрезвычайно приятному занятию, но одно и то же повторялось бы вечно, потому что вы забыли включить свои ценности разнообразия, скуки и самоопределения;  скажите ему защитить нас от вреда, и это может сделать людей бессмертными против нашей воли, пренебрегая тем, действительно ли наша жизнь приятна, это может быть кошмаром, если это неоптимальное или страдающее существование, которое мы не можем закончить , например, возможно, если лучший способ обеспечить мы в безопасности от всех опасностей заключается в том, чтобы заключить нас в тюрьму и навсегда обездвижить в сверхзащищенном хранилище. (см. также ( 1 ) ( 2 ) и ( 3 ), а также r/SufferingRisk). Даже если вы попытаетесь дать какую-то команду, заключающую в себе полное значение, например, «просто делайте то, что правильно» или «делайте то, что я имею в виду/хочу», отбросив в сторону очевидную двусмысленность и субъективность этих терминов, неясно, что это сработает, тем более что ИИ уже должен быть достаточно разумным, чтобы иметь продвинутую и точную модель того, чего именно вы хотите или что является «правильным» (но, следовательно, до этого времени он уже стал опасным и устойчивым к изменению своих целей , как сказано выше), и есть другие причины, по которым команды не сработают, хотя в этой области есть исследования ( 4 ) ( 5 ) ( 6 ) ( 7 ) ( 8 ).

9. Что, если я не верю, что мы когда-нибудь сможем сделать компьютер действительно сознательным ?  А если и есть, то не будет ли так же, как мы?

Сознание — расплывчатое философское свойство, не имеющее отношения к практической способности принимать качественные решения. Даже если ИИ не обладает «сознанием», как люди, это не мешает ему проводить интеллектуальный поиск пространства действия, индуктивные/дедуктивные рассуждения, научные эксперименты и т. д., которые являются мощными навыками, которые на практике влиять на мир. Тот факт, что современные ИИ уже демонстрируют некоторую степень мыслительных способностей, также является убедительным эмпирическим предзнаменованием этого.

Важно избегать антропоморфизации ИИ или придания ему каких-либо человеческих характеристик (например, совести; таких эмоций, как ненависть, любовь, любопытство, радость; личностных черт, таких как жадность, злоба и т. компьютерная программа каким-то образом естественным образом обладала бы такими сложными развитыми чертами, не будучи явно запрограммирована каким-либо образом, и, очевидно, мы не знаем, как написать, например, совесть на каком-либо языке программирования.

Например, если ASI — это обычная система машинного обучения, как сегодня, она вообще не будет иметь естественного сходства с нами. Примеры уже можно увидеть, например, в игре DeepMind AlphaGo, которая не играла ничего похожего на то, как люди интуитивно играют в го, часто делая странные ходы, которые эксперты считали ошибками, пока в конце концов не победила чемпиона-человека. (Дополнительные примеры «игр по спецификациям» , подробнее о человеческом сходстве см. внизу )

10. А нельзя ли просто выключить?  Или надежно хранить его в коробке, чтобы он не мог влиять на внешний мир?

ИСИ был бы достаточно умен, чтобы притворяться дружелюбным/тупее, чем он есть на самом деле (чтобы не тревожить нас), до тех пор, пока нам не станет невозможно закрыть его, как только мы осознаем его истинные планы, например, скопировав себя через Интернет на все компьютеры. по всему миру. Он может понять, что эти планы будут сорваны, если он попытается действовать против нас преждевременно. Следовательно, идея отключить его,  если он начнет плохо себя вести, неработоспособна, потому что он начнет делать это только тогда, когда у нас больше не будет этой способности.

Чтобы ИСИ был нам полезен, он должен иметь определенный уровень влияния на внешний мир. Даже коробочный ИСИ, который получает и отправляет строки текста на экран компьютера, влияет на внешний мир, предоставляя входные данные человеческому мозгу, читающему экран. Помните, что мы будем иметь дело с чем-то столь же превосходящим нас, насколько мы умнее обезьян, и наши меры против него могут показаться ему такими же смехотворными, как мы сочли бы попытки защититься от нас со стороны детей или более мелких животных. Если ИСИ с его удивительными стратегическими и социальными способностями хочет сбежать из своего ящика, он, скорее всего, сможет это сделать, используя сверхчеловеческие навыки убеждения или, например, вспыхивая узором света, который гипнотизирует/захватывает наши нейронные цепи,  перемещая электроны в своих внутренних цепях, посылать радиоволны, мы даже представить не можем ка ещё. Посмотрите эксперимент с коробкой ИИ. Это эксперимент, в котором даже интеллект человеческого уровня убеждает привратников выпустить его из «коробки», несмотря на то, что их первоначальная цель состояла в том, чтобы удержать его внутри, несмотря ни на что.

Важно помнить, что проблема контроля заключается не только в том, чтобы сковать и вывести из строя ИИ, чтобы он не причинил нам вреда, цель также состоит в том, чтобы сохранить его полезность. Даже если вы создадите совершенно безопасный ИИ, который к тому же бесполезен, это равносильно тому, что вы никогда ничего не добились: в мир не было добавлено ничего полезного, и следующая группа все равно продолжит разработку своих собственных опасных ИИ без таких осторожных ограничений. Вот почему выбор мотивации (согласование), а не только контроль возможностей , в конечном счете необходим для окончательного решения проблемы контроля.

11. Разве не аморально контролировать и навязывать ему свои ценности?  Кто мы такие, чтобы оспаривать действия более мудрого существа?

Как упоминалось ранее, невозможно создать ИИ без цели, потому что он ничего не сделает. Следовательно, в том смысле, что разработка цели ИИ является формой контроля, невозможно не контролировать ИИ. Это касается всего, что вы создаете. Вы должны хотя бы немного контролировать дизайн чего-либо, чтобы создать это. Нет ничего аморального в выборе предпочтений ИИ в соответствии с нашими, потому что, если бы мы этого не сделали, он просто оптимизировал бы что-то совершенно произвольное и отличающееся от того, что мы ценим, считаем правильным и т. д. Не существует какого-то «священного мандата» или «высшая цель», которую ИИ «по умолчанию» или «обнаружит», если только мы позволим ему,  он может действовать только в соответствии с теми целями, которые выбирают его программисты.

Это не означает, что мы не можем использовать превосходный интеллект ИСИ, чтобы помочь понять, «что правильно» или «что на самом деле следует делать» лучше, чем мы это понимаем в настоящее время , просто это человеческие концепции, поэтому мы еще нужно привести его в соответствие с человеческими ценностями. На самом деле это может быть необходимо, чтобы избежать блокировки любой ошибочной попытки достижения конечной цели, как ее представляют себе современные люди.

12. А как насчет неправильного использования ИИ/злых людей, получивших ОИИ первыми?

Узкий ИИ может быть неправильно использован с такими последствиями, как автоматическое массовое наблюдение или автономное оружие. Но это затмевается тем фактом, что, поскольку проблема технического контроля остается нерешенной, как только мы достигнем ОИИ, результат будет одинаковым, независимо от того, какая группа его создаст: мы все умрем. Никто не может добиться хорошего результата, если ему дать ОИИ сейчас, потому что они не знают, как его контролировать, и точно так же никто не может даже «использовать» ОИИ, то есть заставить его делать все, что они хотят, даже «переместить одну клубнику на тарелку»,  не убив всех. Нет смысла беспокоиться о плохих людях, потому что они не способны вызвать результат хуже, чем «хорошие парни», или выступать за гонку вооружений для ОИИ.Когда проблема контроля так далека от решения, то всё, за что мы боремся, — это право воздать должное нашему вымиранию.

13. Обеспокоены ли этим настоящие эксперты по ИИ?

Да. Некоторые из крупнейших пионеров и лидеров в области ИИ были настолько обеспокоены, что коллективно подписали открытое письмо, и большинство опрошенных исследователей ИИ считают, что ИИ представляет по крайней мере некоторый риск. Профессор Стюарт Рассел, автор стандартного учебника по искусственному интеллекту, решительно опровергает утверждение, что экспертов это не волнует. Тем не менее, специалисты по-прежнему не уделяют достаточного внимания проблеме управления и на практике продолжают быстро продвигаться к ОИИ, не заботясь о безопасности или о том, можно ли адаптировать их методы по мере их масштабирования до человеческого уровня и выше. Мы все еще находимся на пути, по которому, если ничего не изменится и разработка просто продолжится непрерывно, произведенные ОИИ будут несогласованными и, следовательно, враждебными по отношению к нам, как указано выше.

14. Мы собираемся объединиться с машинами, так что это никогда не будет проблемой, верно?

Концепция «слияния с машинами», популяризированная Рэем Курцвейлом, заключается

© Habrahabr.ru