Бегущий в лабиринте: роботы, нейроны и резервуарные вычисления03.11.2021 17:16

Как бы сильно писатели или сценаристы не старались создать образ сверхумных и сверхсильных роботов, в реальности же до глобального доминирования им еще очень и очень далеко. В чем их проблема? А в том, что мыслят они совершенно не так, как люди. Можно даже сказать, что современные роботы не мыслят, а выполняют вычислительные процессы. Мозг человека также выполняет эту задачу, но на гораздо более высоком и сложном уровне. Еще одним важным отличием является наше умение обучаться чему-то новому посредством периодического повторения выполняемой задачи. Другими словами, практика и еще раз практика. В отличие от роботов, никто не вкладывает в наше сознание навыки, как это происходит в повести «Профессия» Айзека Азимова. Получается, чтобы сделать роботов умнее (если это хорошая идея), необходимо научить их учиться. Группа ученых из Американского института физики (США) придумали, как обучить маленького робота преодолевать лабиринт, используя при этом самые настоящие нервные клетки мозга человека. Какие принципы лежат в основе разработки, насколько быстро обучался робот и удалось ли ему в итоге преодолеть лабиринт? Ответы на эти вопросы мы найдем в докладе ученых. Поехали.

Основа исследования

Идея обучить робота находить выход из лабиринта звучит забавно и даже очень интересно, но она ничего не стоит, если не подкреплена чем-то существенным. Фундаментом в этом случае выступают PRC (physical reservoir computing), т.е. резервуарные вычисления, когда в физической системе (например, в фотонной системе, в магнитном материале, в механическом роботе или в нейронной сети) внутренняя нелинейная динамика используется в качестве вычислительного ресурса или резервуара.

Недавние исследования охарактеризовали богатую динамику пространственно-временной нейронной активности как источник нейронных вычислений, иногда как резервуар, и показали наличие PRC в живых нейронных культурах. Однако PRC, который генерирует когерентный выходной сигнал от спонтанно активной нейронной системы, как правило, с хаотической динамикой, по-прежнему является чем-то малоизученным и не до конца понятным.

В качестве подспорья для решения проблем с PRC в искусственной нейронной сети ученые предложили использовать обучение в сопряжении с алгоритмом FORCE («Generating Coherent Patterns of Activity from Chaotic Neural Networks»), позволяющий уменьшить число ошибок и управлять ими. В добавок к FORCE ученые решили использовать живые клетки.

Изображение №1

Полученный вариант PRC был охарактеризован как имеющий линейное считывание нервной активности (1а) и существенно отличался от традиционного варианта воплощения живой нейронной культуры (на базе тележки Брайтенберга*), в которой сенсорно-моторная связь была оптимизирована посредством обучения Хебба. В ходе практических опытов ученые пытались показать, что согласованный выходной сигнал может служить гомеостазоподобным свойством воплощенной системы, что может привести к развитию способностей к решению проблем.

Тележка Брайтенберга* — концепция, в которой движение транспортного средства напрямую контролируется некоторыми датчиками, но возникающее поведение может показаться сложным или даже интеллектуальным.

Ученые отмечают, что обучение Хебба — это нейронный механизм для создания ассоциативной памяти, которая напрямую изменяет отношения ввода-вывода в экспериментах по воплощению, тогда как гомеостаз — это механизм для поддержания внутреннего состояния живой системы. Объединение этих двух систем может стать ключом для решения проблем с обучением в нейронных системах.

В итоге была разработана замкнутая система для генерации когерентного сигнала от спонтанно активной живой нейронной культуры, внедренная в подвижного робота (1b). Для измерения внеклеточных сигналов нейронная культура была специально выращена на матрице микроэлектродов (MEA от microelectrode array).

Событие «спайка» (потенциала действия) было свернуто с полугауссовым ядром для сглаживания сигналов, а взвешенная сумма сигналов использовалась как результат обучения FORCE. Эта структура вывода линейных считываний из резервуара (то есть живой культуры нейронов) была фундаментальной особенностью PRC. Сигналы обратной связи генерировались фотоактивным «скованным» глутаматом* (RuBi-глутаматом), который возбуждал нейронные клетки, когда освобождался.

Глутамат* (ион глутаминовой кислоты) — наиболее важный возбуждающий нейротрансмиттер в биохимических процессах в нервной системе позвоночных.

Скованные соединения* — это молекулы, активность которых контролируется светом. Они временно инактивируются из-за связывания с химической группой (т.е. сковываются). Разрыв этой связи с помощью видимого или инфракрасного света приводит к «освобождению» молекул и их активации.

Для освобождения использовался синий лазер с длиной волны 473 нм, а длительность освещения регулировалась в соответствии с выходными данными FORCE обучения. При обучении FORCE веса были скорректированы с помощью рекурсивного метода наименьших квадратов (RLS от recursive least squares), так что выходной сигнал стал целевым постоянным сигналом. Ошибка, то есть отклонение между выходом и целью, использовалась для управления роботом. Если ошибка была равна нулю, робот двигался вперед. В противном случае он поворачивал вправо или влево. Когда робот сталкивался с препятствиями или когда его цель находилась за пределами 90° перед ним, к культуре применялась электрическая стимуляция от электрода. При этом специально разработанная программа на C++ обрабатывала данные о спайках для выполнения FORCE обучения и двунаправленного обмена данными с роботом. Программа также модулировала продолжительность освещения в соответствии с результатом FORCE обучения.

Структура робота была достаточно проста. Подложку вокруг MEA электродов покрывали 0.05% полиэтиленимином, а затем ламинином (0.02 мг/мл). Диссоциированные клетки коры помещали в область вокруг MEA электродов. Клетки питались модифицированной MEM (минимальная среда*) средой с добавлением 10% лошадиной сыворотки, 0.25% GlutaMax и 1% пирувата натрия.

Минимальная среда* — среда, содержащая только те вещества, которые необходимы для роста и репродукции прототрофных, но не ауксотрофных микроорганизмов. Прототрофы не требуют для своего развития каких-либо готовых витаминов, аминокислот или других факторов роста, в отличие от ауксотрофов.

MEA массив состоял из 59 электродов из TiN для записи и одного электрода для сравнения с промежутком 200 мкм. Все электроды были круглой формы с диаметром 30 мкм, а располагались по схеме сетки 8×8 (за исключением углов). Частота дискретизации записи составляла 25 кГц. Захваченный сигнал подвергался полосовой фильтрации в диапазоне 1–3000 Гц с помощью аналогового фильтра. Затем он усиливался и преобразовывался в цифровой с помощью 16-битного аналого-цифрового преобразователя. Потом сигнал подвергался цифровой полосовой фильтрации на частотах 100–3000 Гц. Возможные артефакты подавлялись с помощью алгоритма SALPA, а спайки обнаруживались с помощью алгоритма LimAda. Температура помещения во время тестов поддерживалась на уровне 30–36 °C.

Как уже говорилось ранее, для реализации передачи результатов FORCE обучения обратно в корковую культуру использовалась оптическая стимуляция с применением скованного глутамата, который в концентрации 100 мкМ разводили в культуральной среде. Когда глутамат активировался с помощью лазера с диодной накачкой 473 нм, он активировал и нейроны.

Настроенный лазерный луч падал на цифровое микрозеркальное устройство (DMD от digital micro-mirror device). Когда это устройство было включено, луч отражался на две выпуклые линзы (F2: фокусное расстояние f2 = 40 мм, F3: фокусное расстояние f3 = 60 мм) и, наконец, на оптическую систему вертикального микроскопа. Если же устройство было выключено, луч виньетировался за пределами оптической системы.

Две используемые линзы позволяли отрегулировать точку формирования изображения. Выпуклая линза внутри микроскопа была названа линзой F1 с фокусным расстоянием f1 = 170 мм. Положение линзы F3 было отрегулировано так, чтобы фокальная плоскость совпадала с поверхностью микрозеркального устройства. Положение линзы F2 было отрегулировано в соответствии со следующим уравнением:

где L — расстояние между линзой F1 и поверхностью микрозеркального устройства (226.3 мм); d — расстояние между линзой F1 и линзой F2 (1c).

В этих условиях изображение от DMD, направлялось в фокальную плоскость линзы объектива микроскопа, которая регулировалась на поверхности MEA. DMD использовался для регулировки области и продолжительности освещения на участке MEA массива. Поскольку покрытие нейронов ограничивалось областью электродов, почти все нейроны освещались одновременно. Общее количество спайков в культуре увеличивалось с продолжительностью работы DMD.

Вычисленный FORCE выход модулировал мощность освещения. В соответствии с выходным сигналом модулировалось время, на которое DMD был включен. Такая регулировка интенсивности обратной связи производилась каждые 100 мс. В ходе опытов целевой сигнал был задан как постоянный, а его значение каждый опыт выбиралось случайно.

Робот E-puck

В качестве испытуемого использовался робот E-puck, управление которым осуществлялось в соответствии с ошибкой между выходным и целевым сигналом. Если ошибка была равна нулю, выходной сигнал подчинялся постоянному сигналу, то есть левое и правое колеса робота вращались с одинаковой скоростью, и робот двигался прямо. Если ошибка была положительной, скорость вращения правого колеса превышала скорость вращения левого колеса, посему робот двигался влево, и наоборот. Если робот сталкивался с препятствием, или если цель отклонялась от 90° в направлении движения робота, культура стимулировалась электрически с помощью MEA.

Электрический стимул представлял собой двухфазные импульсы напряжения с импульсом 200 мВ, 500 мкс, за которым следовал импульс 500 мВ, 200 мкс. Обнаружение столкновения и отклонения направления запускало электрический стимул в каждом цикле программы FORCE обучения. Столкновения регистрировались с помощью восьми инфракрасных датчиков, прикрепленных к роботу. Если хотя бы один датчик обнаруживал объекты в пределах 2 см, считалось, что робот столкнулся с объектом.

Изображение №2

Условия экспериментов были довольно просты: робота помещали на квадратное поле, где разные препятствия закрывали цель (точку, куда должен добраться робот) от стартовой позиции.

В ходе опытов было замечено, что кортикальная культура проявляла активность в условиях световой стимуляции (2а). Когда робот перемещался по полю, оптическая и электрическая стимуляция непрерывно применялась к культуре, хотя выходной сигнал FORCE примерно соответствовал заданному постоянному сигналу с небольшим отклонением (2b и 2c). При этом робот успешно достигал целевой точки на поле.

Изображение №3

Разная расстановка препятствий обеспечивала условие, робот не мог получить с помощью датчиков систематизированную информацию об окружающей среде. Другими словами, робот не мог использовать информацию об уже пройденном лабиринте, чтобы по памяти пройти его снова, так как лабиринт менялся.

Эти наблюдения демонстрируют целенаправленное поведение без какого-либо дополнительного обучения со стороны кортикальной культуры.

Демонстрация действий робота в лабиринте.

Ученые высказывали мнение, что богатая динамика в нейронной культуре может рассматриваться не только как вычислительный ресурс. Результаты их опытов показали, что гомеостазоподобное свойство разработанной системы демонстрирует способность решать задачи. Когда робот сталкивался с препятствием и/или терял направление к цели в лабиринте, раздражающие стимулы нарушали гомеостатический баланс и запускали исследовательское поведение. Следовательно, способность преодолевать лабиринты возникла благодаря созданию гомеостатического свойства и благодаря нарушению гомеостатического баланса.

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых.

Эпилог

В рассмотренном нами сегодня труде ученые фактически обучили робота преодолевать лабиринт, электрически стимулируя живые нейронные культуры, подключенные к нему. Нервные клетки в данной системе выступали в роли PRC, т.е. источника резервуарных вычислений, создающего когерентные сигналы.

Активация и блокировка активности нейронов позволяла ученым манипулировать поведением робота, тем самым обучая его без фактического обучения, так сказать. Робот не видел окружающую среду, а потому его действия полностью зависели от электрических импульсов. В классическом машинном обучении присутствует практика, когда робот проходил бы один и тот же лабиринт снова и снова, пока полностью не запомнил бы необходимый для его прохождения маршрут. Но в данном труде робот учился на ходу, т.е. методом проб и ошибок, как это часто происходит и с живыми организмами.

Ученые считают, что их разработка, а также использование резервуарных вычислений, могут стать отличным подспорьем не только для совершенствования методов изучения мозга, но и фундаментом для создания нейроморфного компьютера.

Машина может за доли секунды вычислить результат сложнейшего уравнения или назвать число π до тысячного знака, но это еще не показатель интеллекта. Эти навыки лишь показывают те знания, которые были заложены в машину людьми. Мыслительный же процесс, который ежесекундно протекает в голове у человека, в полном его объеме для машин пока недоступен. О реальном ИИ можно будет говорить лишь тогда, когда машина в поисках ответа на очередной вопрос не будет рыться в базе данных, а придет к решению самостоятельно.

Благодарю за внимание, оставайтесь любопытствующими и хорошей всем рабочей недели, ребята. :)

Немного рекламы

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5–2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5–2697v3 2.6GHz 14C 64GB DDR4 4×960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5–2430 2.2Ghz 6C 128GB DDR3 2×960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5–2650 v4 стоимостью 9000 евро за копейки?