Как воссоздают человека при помощи ИИ?
Помимо нейросетей и моделей машинного обучения, основанных на перцептронах, существуют и так называемые когнитивные архитектуры — они нацелены на имитацию человеческого интеллекта, как его себе представляют когнитивные науки через призмы разнородных теорий познания и гипотез.
Для психологии именно здесь скрывается человечность и тот сильный искусственный интеллект, AGI, симулирующий все способности человека. Но как работают архитектуры наподобии ACT-R или SOAR, и подойдут ли они для продвижения общего интеллекта? — в нашей статье.
Когнитивные технологии да и когнитивистика в целом — это про наши умственные способности. Психология, нейронаука, искусственный интеллект, лингвистика, философия и антропология — когнитивные науки — это не направление, а целая концепция понимания «психики» человека. Если мы представим себе другие психологии — они зачастую будут содержать в себе дополнительные инстанции, которые нам не особенно нужны.
Та же структура Эго у Фрейда, которая может лишь «намекать» на себя… Когнитивистика такого избегает и оттого становится амбассадором научного знания в области психологии.
Восприятие связано с тем, как люди интерпретируют сенсорную информацию из окружающего мира. Внимание исследует, как мы выбираем и концентрируемся на определенной информации, игнорируя другие раздражители. Память демонстрирует, как информация сохраняется и извлекается из нашего разума.
Язык исследует, как мы понимаем и производим речь, а также как язык структурирует наши мысли. Мышление включает в себя процессы логического рассуждения, решения задач и принятия решений. Воображение связано с нашей способностью представлять вещи, которые не присутствуют непосредственно перед нами.
Важно, что когнитивная наука больше связана с сенсорикой, интерпретацией и переработкой информации — она, прежде всего, про разум. В отличие от условного психоанализа со своим бессознательным — когнитивистика стремится генерировать научное знание с точки зрения критериев проверяемости, прозрачности.
Еще с 70ых ученые пошли по пути не только разработок теории познания на основе поведения испытуемых — они начали формировать архитектуры симуляции когнитивных способностей человека.
Простые эксперименты сохраняют ключевую проблему психологии — черного ящика.
Зная результаты, мы не можем знать их причины. Нельзя залезть к людям в голову.
Мы получили много архитектур и все они решают разные задачи: проблему ошибок, языка, формирования визуальных представлений — сегодня мы поговорим про симуляцию памяти по теории адаптивного контроля рационального мышления и реализацию SOAR по концепции USP (операциональной архитектуры с целеполаганием).
Рисунок 0. Простая классификация когнитивных нейросетей.
Как исследователи разбили человеческий интеллект на модули?
(Adaptive Control of Thought-Rational) или ACT-R. Из названия следует: контроль над рациональным размышлением. Плюс рационального размышления для разработчиков — оно укладывается в последовательные логические цепочки, подчинено какой-то структуре.
Разработчики ACT-R и других архитектур приводят все знания, восприятия модели в понятный информационный вид.
Здесь не будет и слова о классических языковых играх, неопределенности смысла. Задача архитектуры исследовательская. Какой бы нейронная сеть ни была, она остается упрощением, но таким, что позволяет нам сопоставлять результаты исследований.
Разработанная Джоном Р. Андерсоном и его коллегами в Карнеги-Меллоновском университете, ACT-R стремится формализовать понимание того, как ум организует и использует знания для выполнения различных задач (например, Ханойская башня, заучивание списка слов, понимание языка, общение, управление самолетом…).
Исследователи создают модели которые, помимо учета точки зрения ACT-R на познание, добавляют свои собственные предположения относительно конкретной задачи.
Эти предположения можно проверить, сравнив результаты модели с результатами людей, выполняющих те же задачи. Таким образом, исследователи пытаются подстроить данные под реальные эмпирические результаты. Кстати, результаты оценивают по времени выполнения задания, уровню точности и неврологическим данным по FMRI.
Численные оценки нужны для объективации результатов.
Исследователи могут регулировать число фактических и практических знаний, чтобы представить, сколько человеку нужно операций и фактов в голове, чтобы адекватно водить машину и не потерять права в первый день своего заезда…
Но ACT-R — это не просто программка для симуляции экспериментов, а вполне конкретная теория памяти, по которой реализовали нейросеть.
Ключевая цель подобных систем — не точная передача человеческой организации ума, а помощь в интерпретации исследований и «приближении» к пониманию интеллекта человека… ACT-R, как и SOAR не стремятся к воссозданию «разума» в полной мере.
ACT-R реализует одну из теорий познания, которая необязательно истинна и переносима на человека полноценно.
ACT-R зародилась как модель человеческой памяти и лишь затем превратилась в единую теорию познания.
Рисунок 1. Визуализация работы архитектуры ACT-R
Структура у нейронки простая: она состоит из нескольких модулей, буферов и «сопоставителя шаблонов».
Буферы из своего названия служат интерфейсом для взаимодействия с модулями. содержимое буфера показывает исследователям, как архитектура работает в данный модель. Это временно схваченная информация из модулей памяти, визуального восприятия.
Буфер — это срез когнитивных процессов в real-time.
На рисунке 1. Хорошо видно, что из окружения мы получаем некоторые данные через сенсорные, например, модули. Информация хранится в буфере перед передачей в другие модули — их мы можем просмотреть.
Эти у буферов есть свои характеристики, например, насколько быстро затухает память, что передается от зрения к познанию и какие действия можно выполнять между буферами.
Хотя буферы становятся своего рода интерфейсом и срезом изымаемых данных из имитации визуальной системы человека — они еще и перекодируют импульсы, позволяя взаимодействовать с условным модулем памяти на своем языке
Декларативная память. В этом модуле хранятся фактические знания и воспоминания в виде ячеек памяти. Декларативная память содержит информацию, которую можно осознанно вспомнить и описать, например, факты или события.
Примеры декларативных знаний: «Париж — столица Франции», или воспоминания о событиях, таких как «Вчера я был в кино». У ячеек памяти есть определенные характеристики, которые определяют, насколько легко можно извлечь эту информацию из памяти.
Чем чаще и в более релевантных контекстах используется ячейка памяти, тем выше ее степень «легкости» активации, и, следовательно, тем легче она доступна для использования в когнитивных процессах.
Процедурная память. Этот модуль содержит правила производства, которые определяют, как использовать декларативные знания для выполнения конкретных действий и решений задач. Мы задаем, например, нашей машине правила печати буквы Q или сложения чисел.
Но, чтобы вообще эти знания были применимы — должна быть имитация сенсорной системы, ведь именно она обеспечивает связь с миром. Соответственно в модели есть два модуля: моторный и визуальный.
Этот компонент отвечает за обработку визуальной информации, поступающей из окружающей среды. Например, при чтении текста зрительный модуль идентифицирует буквы и слова, а рабочая память использует эту информацию для понимания прочитанного.
Модуль двигательных навыков. Этот компонент координирует выполнение физических действий, таких как движения рук, ног, глаз и других частей тела.
Модуль двигательных навыков получает команды от центральной продукционной системы и преобразует их в конкретные моторные действия, обеспечивая точное выполнение физических задач — тут мы и говорим про робототехнику.
Тут важно подметить, что ACT-R работает не в одном формате: например, к сенсорным модулям, помимо визуальных, могут добавлять даже слуховые.
Рисунок 2. Здесь проведена параллель между мозговыми центрами и модулями ACT-R
Но должен быть и центр принятия условных решений?
Внешний мир проходим через ряд восприятий/вызовов памяти, которые отправляют данные из внешнего мира, собственной библиотеки (как в случае с памятью) и прогоняют через процедурный модуль — он же сопоставитель шаблонов или Pattern Matching.
Субсимволическая структура — набор массово-параллельных процессов, которые можно суммировать с помощью ряда математических уравнений. И это важная составляющая последнего элемента архитектуры — Pattern Matcher.
Рисунок 3. Связь символичских параллельных вычеслений и связи шаблонов.
Представим, что у нас есть задача: необходимо определить, как человек решает арифметическую задачу, такую как сложение чисел 3 и 4.
В памяти человека, по теории ACT-R, хранится множество продукций — простых правил, которые определяют, что делать в различных ситуациях.
Продукция может выглядеть примерно так: «Если я вижу числа A и B, и мне нужно их сложить, тогда я выполню операцию сложения».
Pattern Matcher отвечает за выбор подходящей продукции из множества возможных, хранящихся в памяти, и активизацию соответствующего правила.
На начальном этапе Pattern Matcher получает текущую информацию из рабочей памяти, которая включает в себя числа 3 и 4 и цель их сложить. Затем он сопоставляет эту информацию с условиями различных продукций.
Важно понимать, что каждое условие продукции представляет собой шаблон, который должен соответствовать текущей ситуации. Шаблон может включать различные элементы: конкретные значения, типы данных или более абстрактные характеристики. Например, в нашем случае шаблон может включать числа и операцию сложения.
Процесс сопоставления проходит на основе привычной нам активации, где наиболее подходящие продукции получают наивысшую степень активации.
Активация определяется несколькими факторами: частотой использования продукции, ее недавнюю актуальность и контекстную пригодность.
Продукция, которая была недавно использована или часто применяется, имеет больше шансов быть выбранной.
После выбора подходящей продукции, Pattern Matcher инициирует выполнение действия, описанного в правиле. В нашем примере это действие: операция сложения чисел 3 и 4, результатом которой станет 7. Этот результат затем может быть записан в рабочую память для дальнейшего использования или проверки.
Рисунок 4. Развернутая схема работы ACT-R
Однако важным аспектом работы Pattern Matcher является его способность обучаться и адаптироваться. С течением времени и накоплением опыта, частота и контекст использования продукций могут изменяться, что влияет на процесс сопоставления и выбора.
Например, если человек часто сталкивается с задачами сложения, продукция, связанная с этой операцией, становится более активной и ее выбор происходит быстрее и с большей точностью.
Субсимволические механизмы также отвечают за большинство процессов обучения в ACT-R. Таким образом, в ACT-R познание разворачивается как последовательность производственных импульсов.
Эти импульсы изменяются в модулях, а буферы становятся перекодировщиками между органами познания, где информация дозировано по требованию поступает в исполнительный орган. (Pattern Matching).
Главное отличие условной ACT-R от обычного перцептрона — мы обучаем модель сопоставлять шаблоны, а не отыскивать скрытые закономерности в данных.
Хотя никто не говорит о невозможности использовать в перспективе ACT-R в ансамбле с генеративными нейросетями и трансформерами, хотя до такого синтеза еще далеко.
Но можно было бы рассматривать путь синтеза когнитивных архитектур, робототехники и классических ИИ как путь к общему искусственному интеллекту. Хотя бы в перспективе.
Так, благодаря сенсорной информации, декларативной и процедурной памяти через буферы под контролем исполнительного органа выполняем конкретную когнитивную задачу.
Рисунок 5. Практическое применение ACT-R: компьютерные, когнитивные и нейронауки, а также образование
К слову, ACT-R применялся не только в когнитивных науках: тесты UI интерфейсов, работа с образованием, нейропсихология, робототехнике. Очевидный плюс таких нейронок — они могут помогать нам создавать маркетинговые продукты. Возможно, когда-то мы увидим реализацию подобного в условной рекламе «Колгейта»…
Но, как мы уже сказали, теория познания лишь теория и ACT-R не единственная архитектура принятия решений. С ее точки зрения основной источник решений когнитивных операций — использование шаблонов к определенным паттернам информации.
Как мы видим тарелку с супом — так сразу бежим за ложкой; как мы видим квадратичную функцию — так сразу бежим за теоремой Виета.
Но мы решили не останавливаться лишь на одной когнитивной системе.
Операциональная когнитивная система — SOAR?
Когнитивная архитектура SOAR, разработанная Алленом Ньюэллом, Джоном Лэрдом и Полом Розенблумом, представляет собой многофункциональную платформу — она также имитирует принципы когнитивных операций.
Как и ACT-R — система реализует определенную концепцию когнитивной психологии. Но если в предыдущей архитектуре мы больше работали с поиском и соединением шаблонов в соответствии с ситуацией, т.е готовых паттернов и решение.
Тут мы работаем по системе Universal Problem Space, UPS — она говорит нам о простых вещах: у человека есть цели, он ищет решения под цели и поразбивает цели на маленькие цели. UPS базируется на концепции продукционных систем.
Есть проблема — есть решение. Между проблемой и решением есть ряд операций. На этом все.
Рисунок 6. Процедурные правила: решение-действие.
Знания представлены в виде продукционных правил: «Если то и то, тогда я сделаю то и это.»
Математически, процессы в SOAR можно описать в теории графов и логики предикатов; формализовать как логические выражения, где условие представляется в виде логической формулы, а действие — в виде операторов изменения состояния.
Логика предикатов — та же аристотелевская логика с модификациями. Предикат — это то, что можно высказать об объекте.
Например, правило может выглядеть так: «Если я вижу свет на светофоре, и он зеленый, тогда я иду». Эти продукционные правила хранятся в долговременной памяти и активируются в зависимости от ситуации, в которой находится система.
Эти правила позволяют системе принимать решения на основе текущего состояния и наличия определенных условий. Но к принятиям решений мы еще вернемся.
Прежде чем вообще мы бы могли принимать решения и строить наши невероятные логические цепочки — нам важно взять откуда-то знания.
Как работает долговременная память в SOAR?
Рисунок 7. Схема долговременной памяти.
Долговременная память — это хранилище. В отличие от ACT-R, где наша кладезь информации строится по разделению на навыки и фактические знания, SOAR выстраивает систему памяти чуть сложнее: она делится на рабочую и долговременную.
Хотя, как мы увидим, различие в системах гораздо тоньше, чем кажется.
Можно сравнить долговременную память с библиотекой, где хранятся книги (знания и опыт), которые можно брать и возвращать по мере необходимости: продукционные правила, эпизодическая память, семантические связи и даже оценка процессов извлечения информации.
Те самые правила «если-тогда» (если условие выполнено, тогда сделать что-то) также хранятся в долгосрочной памяти, но ею не ограничиваются.
Семантическая память хранит общие знания и факты о мире. Это можно представить как словарь или энциклопедию, где записаны понятия, определения и взаимосвязи между ними. Мы бы назвали это терминологической памятью.
Чтобы знать, что нужно сделать с ложкой — вам бы неплохо понимать «что это такое…»
Например, семантическая память будет содержать знания, что яблоко — это фрукт, что оно растет на дереве — оно съедобное.
Эпизодическая память, с другой стороны, хранит информацию о конкретных событиях и переживаниях, которые происходили в прошлом.
Это похоже на дневник или фотоальбом, где записаны все важные моменты и события вашей жизни. Например, эпизодическая память будет содержать воспоминание о вашем последнем дне рождения: кто был там, что вы делали, какие подарки получили.
Когда система сталкивается с новой задачей или проблемой, она «идет» в долговременную память и «ищет» соответствующие продукционные правила или знания, которые могут помочь решить эту задачу.
Например, если система должна решить математическую задачу, она извлекает правила и знания, связанные с арифметикой, из долговременной памяти и применяет их к текущей задаче.
Когда система получает новый опыт или знания, они также добавляются в долговременную память.
Например, если вы выучили новый телефонный номер или научились готовить новое блюдо, эти знания будут сохранены в долговременной памяти и могут быть извлечены при необходимости.
Поэтому долговременная память становится здесь динамическим элементом системы: в ней создаются новые правила, возможности решения для задач и даже вносятся терминологические поправки.
Этот процесс называется chunking. Например, если вы несколько раз успешно запомнили телефонный номер, система может создать новое правило, которое упрощает этот процесс в будущем.
Оперативная (working) память в SOAR?
Рисунок 8. Абстрактная схема рабочей памяти.
Начнем с того, что наша рабочая память не может работать без долгосрочной памяти — она выступает центральным звеном, связывающим актуальную сенсорную информацию и долгосрочные знания.
Основные элементы рабочей памяти в Soar включают состояния (states), цели (goals), и временные структуры данных, которые используются для управления процессом решения проблем.
Состояния (states) в рабочей памяти представляют собой описание текущей ситуации или контекста задачи, над которой работает система.
Например, если задача заключается в приготовлении чая, состояние может включать информацию о наличии воды, чайника, чайных пакетиков и электричества. Короче говоря, states — положение вещей в данный момент времени.
Естественно, что в долгосрочной памяти у ИИ хранятся семантические и процедурные знания, которые как бы отвечают на вопрос:
«А что это да такое ваша вода и причем тут чайные пакетики?!»
Цели (goals) представляют собой желаемые результаты или конечные состояния, которых система стремится достичь. В случае приготовления чая, цель может быть сформулирована как «приготовить чашку чая».
Рисунок 9. Принцип проведения операций из исходного состояния (state) и постепенное приближение к желаемому через передвижение (move) кубиков к конечной цели (goal).
Вообще для когнитивной психологии нюанс целеполагания важен: у любого действия есть цели и субцели. Но мы пока не говорим про глобальные желания робота стать художником и нарисовать для этого миллион картин…
Цели помогают системе фокусироваться на конкретных задачах и направляют последовательность действий для их достижения.
Процесс работы с рабочей памятью в Soar начинается с загрузки начального состояния и постановки цели.
Далее система использует продукционные правила, хранящиеся в долговременной памяти, чтобы определить, какие действия необходимо предпринять для достижения цели.
Например, одно из правил может быть: «Если вода в чайнике, а чайник подключен к электросети, тогда включить чайник».
Эти подцели управляются иерархически и могут быть вложены друг в друга, что позволяет системе последовательно решать более сложные задачи, разбивая их на более простые этапы.
Working Memory постоянно обновляется. Например, когда вода в чайнике закипела, состояние обновляется с «вода в чайнике» на «вода кипит». Это обновление позволяет системе корректировать свои действия на основе текущей ситуации.
Рисунок 10. Общая схема SOAR
Кстати, в архитектуре SOAR тоже есть своего рода буфер, где хранится аудиовизуальная информация, перцептивная — Perceptual Short-Term Memory, Perceptual STM.
Она собирается с GPS, датчиков и локаторов с применением детекоров и классификаторов.
По итогу мы имеем простую и человечную систему:
Цель, оценка положения вещей через «восприятие», выбор процедурного действия для нашего частного случая, действие, обновление рабочей памяти, выбор другого процедурного действия. И так до момента, пока цель не будет достигнута. Затем мы закрепляем результат в долгосрочной памяти.
На уровне кода и математической реализации SOAR использует множество алгоритмов и структур данных. Основная рабочая память представлена в виде графа, где узлы содержат информацию о текущих состояниях, а ребра — о возможных действиях.
Алгоритмы поиска формализуются как процедуры обхода графов с использованием различных стратегий оценки стоимости путей.
Помогут ли когнитивные архитектуры AGI?
Как ACT-R, так и SOAR — две симуляции, отражающие два разных подхода к человеческому сознанию. Но оба отталкиваются от памяти. Система USP или принятия решений через целеполагание — вполне принятая концепция в области всей когнитивистики. Их разница больше состоит в реализации и вопросов о субцелях. В ACT-R мы видим прямолинейного робота, который решает задачи на ходу, в SOAR — планирующего робота.
Очевидно, что для модулей перцепции или простого человеческого воприятия используются ИИ-детекторы вплоть до моделей классификации и рспознавания объектов.
Безусловно, подобные модели в реализации ансамбля с современными классическими ИИ могли быть показать интересные результаты и гибкость Но, к сожалению, подобные системы подходят для обучения простым роботизированным действиям.
Тут нет и речи о смыслообразовании, что бы это ни значило. Не учитываются эмендженертные свойства сознания, нет намека на саморефлексию — лишь алгоритмизированные и операциональные действия: стимул-подумать-реакция. И то самое «подумать» все же в статусе черного ящика.
И хотя некоторые читатели могут намекнуть на Leabra и Becca с эмедженертным подходом, но лишь к специфически представляемым знаниям, исходя из внешнего наблюдения и моделирования без «погружения» в нейронные системы человека — в контексте когнитивистики мы смотрим на феномены, проявления уникальных свойств человека извне.
Подобные проблемы вызываны самой методологией когнитивной психологии: она смотрит на поведение, но не может познать внутренние процессы, вызывающие их.
Хотя еще грубее проблема стоит с точки зрения функционала — все предлагаемые когнитивные архитектуры узконаправленны для решения конкретнызх задач. Мы можем задать болванку моторно-двигательной системы андроида, но синтезировать с архитектурой эмедженертности сознания нет.
ACT-R и SOAR показали себя в робототехнике, изучении пользовательских интерфейсов, выявлении проблем в учебе у студентов, проверке исследований. Как нам кажется, это уже неплохо. Перед AGI лежит слишком много вызовов, чтобы ограничиваться применением простейших когнитивных архитектур.
Тем более, мы наблюдаем успехи в поиске механзмов человеческого мышления через эксперименты и эмендженетрный (случайный) подход, применяемый к самим сетям.
В прошлом году ученые опубликовали два исследования. Выяснилось, что физическая активность мозга совпадает с работой нейросети, разработанной по системе «самонаблюдаемого обучения».
Рисунок 10. Визуализация Grid Cells
Второе исследование показывает, что в ходе работы одного из ИИ, которому поставили задачу разработать навигацию, выработала что-то очень похожее на grid cells. Это типы нейронов, которые открыли в 2005 году. Считается, что именно они отвечают за навигационные способности некоторых животных и людей в том числе.
Возможно, что реализация AGI и вообще человеческого сознания лежит не в области конструирования ума, сколько порождения его из подходящих условий — тут все упирается лишь в достаточные вычислительные мощности и трудности оптимизации.