Скоро мы сможем сказать роботу: "Спасибо за чай", и он нас поймет28.07.2022 15:18

28.07.2022, 14:36

Ученые из Калифорнийского университета Беркли разработали алгоритм, который позволяет роботу без предварительного обучения в цифровой симуляции, сразу начать учиться и действовать в реальном мире. Алгоритм протестирован на разных моделях роботов и на нескольких конкретных задачах. Но цель команды гораздо амбициознее: научить робота искать решение задач, которые ему никто поставил.

Скоро мы сможем сказать роботу: «Спасибо за чай», и он нас поймет

Jason Leung. Unsplash

Ученые пытаются разбудить у робота чистое любопытство, чтобы он сам исследовал мир и был готов к выполнению самых неожиданных задач

Представьте себе такую ситуацию. Вы покупаете робота-помощника. Как он выглядит, на самом деле, не так и важно. Вряд ли он будет похож на WALL-E. Вероятно, он перемещается на четырех ногах или на колесной платформе. У него есть «руки», снабженные захватами. Может быть, на руках пять пальцев, а, может, и больше. У него есть камера или две. Но главное, вы его ничему не учите. Он просто живет. Бродит по дому, сначала натыкается на предметы, потом учится их обходить. Зачем-то наливает воду в чайник, потом выливает. Открывает кран. И все время наблюдает за вами. Он учится сам. Но однажды вы говорите ему: «Завари, пожалуйста, чай», хотя вы его этому никогда не учили, а производители и не могли объяснить роботу, как заваривают чай в вашем доме. Но робот кипятит воду, заваривает чай, наливает его в чашку и ставит чашку на стол. Вы говорите: «Спасибо за чай». На «лице» робота появляется удовлетворенная «улыбка», а вы подумаете: «Так вот он чем на кухне занимался по ночам».

Созданием именно такого робота занимаются ученые из Калифорнийского университета Беркли. Они разработали систему обучения в реальном мире и назвали ее DayDream (Дневной сон).

Сегодня процесс обучения робота (чаще всего это обучение с подкреплением) начинается с детальной цифровой модели. Сначала робот учится действовать «внутри симуляции». Это длительный, дорогой (нужно подготовить очень много данных) и не всегда эффективный процесс. Когда робот попадет в реальную среду он запросто может запутаться, столкнувшись с ситуацией, которой его не обучали. Так не лучше ли отпустить робота сразу в реальную среду, и пусть он учится сам?

Система обучения, разработанная учеными из Беркли, не связана с конкретной реализацией самого робота. Ученые попробовали алгоритм на четырех разных реализациях роботов — и четвероногих, которые могут ходить, и состоящих из одной роботизированной руки с захватом. Роботы действительно учатся.

Непрерывное обучение

Схема обучения DayDream University of California, Berkeley

Алгоритм обучения робота действует «по петле» без использования цифровых симуляторов. 1. Взаимодействие с реальным миром (Real World) добавляется в 2. буфер (Replay Buffer), в котором хранится весь прошлый опыт. 3. Модель мира (World model) обучается на последовательностях, взятых из буфера случайным образом. 4. Поведение обучается на предсказаниях модели мира с использованием алгоритма «актор-критик» (Actor Critic). Текущее поведение используется для для получения нового опыта. Петля обучения замкнулась

Как трудно в первый раз перевернуться со спины на ноги

Мечта и реальность

«Открытая проблема в робототехнике заключается в том, чтобы предоставить пользователю возможность интуитивно определять задачи для роботов. В нашей работе мы реализовали сигналы вознаграждения, которые робот оптимизирует, в виде функций Python, но, в конечном счете, было бы неплохо обучать роботов на основе человеческих предпочтений, напрямую сообщая им, когда они сделали что-то правильно или неправильно. Человек может это сделать, например, нажав кнопку, и тем самым наградив робота. А можно снабдить роботов пониманием человеческого языка», — говорит один из авторов работы Данияр Хафнер.

Пока команда использовала свой алгоритм только для обучения роботов конкретным задачам, которые были четко определены в начале экспериментов. Но в будущем ученые хотят научить роботов исследовать окружающую среду, не решая четко определенной задачи. В примере, с которого мы начали разговор о «дневном

Схема обучения DayDream University of California, Berkeley

Алгоритм обучения робота действует «по петле» без использования цифровых симуляторов. 1. Взаимодействие с реальным миром (Real World) добавляется в 2. буфер (Replay Buffer), в котором хранится весь прошлый опыт. 3. Модель мира (World model) обучается на последовательностях, взятых из буфера случайным образом. 4. Поведение обучается на предсказаниях модели мира с использованием алгоритма «актор-критик» (Actor Critic). Текущее поведение используется для для получения нового опыта. Петля обучения замкнулась. И все началось заново.

мечтателе» такой неопределенной задачей был навык приготовления чая.

«Перспективным направлением было бы научить роботов исследовать свое окружение из чистого любопытства, а затем еще быстрее адаптироваться к решению заданных пользователями задач», — говорит Хафнер.