[Перевод] Стэнфорд показал Deep Learning по Дарвину11.11.2021 07:32

Эволюционное глубокое обучение с подкреплением может помочь преодолеть ограничения других подходов, а результаты работы, возможно, сильно повлияют на ИИ и робототехнику.

Созданные в сложной виртуальной среде агенты развивают не только способность к обучению, но и физическую конструкцию. Подробностями делимся под катом, пока у нас начинается курс по ML и DL.

Несмотря на аналогию с эволюцией и природой, в сфере ИИ большой акцент сделан на создании отдельных элементов интеллекта и на их объединении. Подход дал отличные результаты, но ограничил гибкость агентов ИИ в присущих даже простейшим формам жизни навыках.

Тело и мозг животных развиваются вместе. Чтобы появились необходимые в окружающей среде конечности, органы и нервная система, виды пережили бесчисленные мутации.

При этом все виды на Земле произошли от первой формы жизни, которая появилась на Земле несколько миллиардов лет назад. Давление отбора среды по-разному направило развитие потомков этих первых живых существ.

Изучать эволюцию жизни и интеллекта интересно, но воспроизвести её очень сложно. Чтобы воссоздать разумную жизнь подобно эволюции, системе ИИ пришлось бы искать в очень большом пространстве возможных морфологий, а это чревато чрезмерными вычислительными затратами. Требуется множество разнообразных проб и ошибок.

Решения проблем изучения эволюции

Часть этих проблем исследователи решают по-разному. Например, учёные фиксируют архитектуру или физическую структуру системы и фокусируются на оптимизации параметров обучения. Есть и другие подходы:

Агенты ИИ передают изученные параметры своим потомкам, отражая эволюционную теорию Ламарка.
Зрительную, двигательную, речевые системы ИИ можно обучать отдельно друг от друга, объединяя их в конечной системе.

Эти подходы ускоряют процесс и снижают затраты на обучение и развитие агентов ИИ, но они ограничивают гибкость и разнообразие результатов.

Эволюционное глубокое обучение с подкреплением

В новой работе учёные Стэнфордского университета стремятся приблизить исследования ИИ к реальному эволюционному процессу при минимуме затрат.

«Наша цель — изучить принципы, управляющие связями между сложностью окружающей среды, развившейся морфологией и обучаемостью интеллектуального управления», — пишут исследователи.

Их подход называется эволюционным глубоким обучением с подкреплением. Чтобы приобрести навыки и максимизировать вознаграждение за время своей жизни, каждый агент в системе использует глубокое обучение с подкреплением.

Чтобы найти оптимальные решения в морфологическом пространстве, здесь применяется дарвиновская теория эволюции. Иными словами, новое поколение агентов наследует только физические и архитектурные черты своих предков с небольшими мутациями. Следующим поколениям не передаётся ни один изученный параметр.

«Фундамент эволюционного глубокого обучения с подкреплением даёт дорогу крупномасштабным экспериментам компьютерного моделирования, позволяющим понять, как совместное применение обучения и эволюции приводит к созданию непростых взаимосвязей между сложностью окружающей среды, морфологическим интеллектом и обучаемостью агента», — пишут исследователи.

Моделирование эволюции

За основу исследователи взяли виртуальную среду MuJoCo с высокоточным моделированием физики твёрдого тела. Цель — создать в её пространстве морфологии UNIversal aniMAL (UNIMAL), которые изучают задачи перемещения и манипулирования объектами в условиях разнообразного рельефа.

Каждый агент в среде состоит из генотипа. Генотип определяет его конечности и соединения. Прямой потомок агента наследует генотип и мутирует: создаёт или удаляет конечности, изменяет их размер и степени свободы.

Чтобы максимизировать вознаграждение в различных средах, каждый агент проходит обучение с подкреплением. Основная задача — перемещение, при котором агент вознаграждается за преодолеваемое во время эпизода расстояние. Агенты, чьё физическое строение лучше подходит для пересечения местности, учатся передвижению быстрее.

Чтобы проверить результаты, учёные генерировали агентов в трёх типах местности:

На равнине давление отбора на морфологию агентов минимально.
Пересечённая местность вынуждает развивать универсальную физическую структуру, чтобы взбираться на склоны и обходить препятствия.
На пересечённой местности с изменяемыми объектами есть дополнительная трудность: чтобы выполнить задачу, агенты должны манипулировать объектами.

Преимущества эволюционного глубокого обучения с подкреплением

Эволюционное глубокое обучение с подкреплением генерирует разнообразные морфологии в различных средах

Один из интересных выводов исследования — многообразие результатов. Другие подходы к эволюционному ИИ обычно сходятся в одном решении, поскольку новые агенты напрямую наследуют сложение и знания своих предков. Но при эволюционном глубоком обучении с подкреплением потомкам передаются только морфологические данные, а значит, в системе создаётся набор разнообразных морфологий, включая дву-, трёх- и четвероногих агентов с руками и без них.

В этой системе обнаруживается эффект Болдуина: агенты, которые учатся быстрее, с большей вероятностью воспроизведут и передадут свои гены следующему поколению.

Эволюционное глубокое обучение с подкреплением показывает, что эволюция, как сказано в работе стэнфордских исследователей, «выбирает более быстрых агентов без какого-либо прямого давления отбора».

«Любопытно, что наличие этого морфологического эффекта Болдуина может использоваться в будущих исследованиях, чтобы создавать воплощённые агенты с меньшей сложностью выборки и большей возможностью обобщения», — пишут исследователи.

Агенты, проходящие глубокое эволюционное обучение с подкреплением, оцениваются по различным задачам

Эволюционное глубокое обучения с подкреплением подтверждает гипотезу: чем сложнее среды, тем более интеллектуальные агенты будут появляться.

Исследователи протестировали эволюционировавших агентов по восьми различным задачам, включая патрулирование, побег, манипулирование объектами и разведку.

Результаты показали, что в целом агенты, эволюционировавшие на пересечённой местности, учатся быстрее, а их результаты лучше, чем у агентов ИИ, которые сталкивались только с равнинной местностью.

Эти выводы согласуются с другой гипотезой исследователей DeepMind: сложная среда, подходящая структура вознаграждения и обучение с подкреплением могут привести к появлению всех видов разумного поведения.

Исследования ИИ и робототехники

Среда эволюционного глубокого обучения с подкреплением обладает лишь малой частью сложностей реального мира.

«Хотя эволюционное глубокое обучение с подкреплением позволяет сильно продвинуться в масштабировании сложности эволюционных сред, важным направлением будущей работы будет создание более открытых, физически реалистичных и многоагентных эволюционных сред», — пишут исследователи.

В будущем учёные расширят спектр задач, чтобы лучше понимать, как агенты могут повысить свою способность изучать свойственное человеку поведение. Эта работа может подтолкнуть исследователей к применению методов, которые гораздо ближе к естественной эволюции.

«Надеемся, что наша работа поможет дальнейшим масштабным исследованиям с использованием обучения и эволюции в других контекстах, которые приведут к новым научным результатам, а эти подходы способствуют появлению быстро обучаемых видов разумного поведения и новых возможностей их инстанцирования в машинах», — пишут исследователи.

А пока учёные преодолевают ограничения искусственного интеллекта, вы можете обратить внимание на наши курсы, чтобы научиться с помощью ИИ решать проблемы бизнеса:

Также вы можете перейти на страницы из каталога, чтобы узнать, как мы готовим специалистов в других направлениях.

Профессии и курсы

Data Science и Machine Learning

Python, веб-разработка

Мобильная разработка

Java и C#

От основ — в глубину

А также: