RoboCat — интеллектуальный агент, который учится сам

Привычные нам роботы заточены под выполнение определённых задач. Но не зря же последние годы ИИ будоражит воображение всех, кто хоть немного знаком с темой. Развитие нейросетей способно привести к созданию многофункциональных роботов, которые будут учиться выполнять всё новые и новые действия.

24a3160bf03f97b9b8c4f54350110015.png

Примером такого развития технологий можно назвать RoboCat — самоулучшающийся «умный» механизм, который учится выполнять множество задач с помощью робо-манипуляторов, а затем самостоятельно генерирует новые обучающие данные для улучшения своих способностей. 

Процесс обучения RoboCat происходит намного быстрее, чем у других схожих моделей. Он может освоить новую задачу, изучив всего 100 демонстраций, поскольку использует большой и разнообразный набор данных. Это поможет ускорить исследования в области робототехники, поскольку пропадает необходимость обучения под присмотром человека.

Как RoboCat самоулучшается

RoboCat основан на мультимодальной модели Gato (по-испански «кошка»), которая может обрабатывать текст, изображения и действия как в моделируемой, так и в физической среде. Архитектуру Gato объединили с большим обучающим набором последовательностей изображений и действий различных манипуляторов, решающих сотни разнообразных задач.

После первого раунда обучения RoboCat запустили в цикл обучения «самосовершенствованию» с набором ранее неизвестных ему задач. Изучение каждой новой задачи проходило в пять этапов:  

  1. Собрали 100–1000 демонстраций новой задачи с использованием роботизированной руки, управляемой человеком.

  2. Настроили RoboCat на эту новую задачу, создав дополнительный интеллектуальный агент.

  3. Модель практиковалась с новой задачей в ​​среднем 10 000 раз, генерируя больше обучающих данных.

  4. Демонстрационные данные и самостоятельно сгенерированные данные включили в существующий набор обучающих данных RoboCat.

  5. Обучили новую версию RoboCat на новом обучающем наборе данных.

Цикл обучения RoboCat, усиленный его способностью автономно генерировать дополнительные данные для обучения.

Цикл обучения RoboCat, усиленный его способностью автономно генерировать дополнительные данные для обучения.

RoboCat основан на наборе данных из миллионов траекторий как реальных, так и смоделированных роботизированных рук, включая данные, сгенерированные самостоятельно. Для сбора данных на основе компьютерного зрения используются четыре разных типа роботов и множество роботов-манипуляторов

Цикл обучения RoboCat, усиленный его способностью автономно генерировать дополнительные данные для обучения.

Цикл обучения RoboCat, усиленный его способностью автономно генерировать дополнительные данные для обучения.

Управление роботами-манипуляторами и решение сложных задач

Благодаря разнообразию обучающих данных RoboCat научился управлять различными манипуляторами за несколько часов. Хотя он был обучен работе с манипуляторам с двумя захватами, он смог адаптироваться к более сложному манипулятору с тремя захватами.

Слева: новый роботизированный манипулятор, которым RoboCat научился управлять,  Справа : видео, на котором RoboCat использует манипулятор, чтобы поднимать детали

Слева: новый роботизированный манипулятор, которым RoboCat научился управлять, Справа : видео, на котором RoboCat использует манипулятор, чтобы поднимать детали

Посмотрев 1000 демонстраций, где манипулятором управлял человек, RoboCat научился управлять этой новой рукой достаточно ловко, чтобы успешно поднимать деталь в 86% случаев. При том же количестве демонстраций он научился решать задачи, сочетающие точность и правильную оценку. Например, извлечение нужного фрукта из миски или решение головоломок на соответствие формы, которые необходимы для более сложного управления. 

cd7fd121592879664ede1a300e5f3e43.gif

Самосовершенствующийся универсал

У RoboCat есть закономерность в обучении: чем больше новых задач он усваивает, тем лучше он усваивает дополнительные задачи. Первоначальная версия RoboCat успешно выполняла ранее неизвестные задачи только в 36% случаев после изучения 500 демонстраций каждой задачи. Но новая версия RoboCat, обученная более разнообразным задачам, удвоил этот показатель успеха при выполнении одних и тех же задач.

cbb1d5a391cb59cbdf857408525e3833.png

Эти улучшения связаны с растущим опытом RoboCat, это похоже на то, как люди развивают более широкий спектр навыков по мере углубления своего обучения в определённой области. Способность RoboCat самостоятельно осваивать навыки и быстро самосовершенствоваться поможет проложить путь к новому поколению более полезных роботов-агентов общего назначения.

© Habrahabr.ru