Робот МТИ научился расставлять столовые приборы, наблюдая за людьми10.03.2020 18:32

Исследователи Массачусетского технологического института разработали систему Planning with Uncertain Specifications (PUnS), которая позволяет роботам изучать сложные задачи, наблюдая за людьми. Оснащённый такой системой робот научился правильно накрывать стол, основываясь на действиях человека.

Как сообщается на сайте института, система PUnS даёт роботам возможность планировать, похожую на аналогичное свойство человеческого разума. В ходе «раздумий» он одновременно может взвешивать неоднозначные и потенциально противоречивые требования к своей работе для достижения конечной цели.

Исследователи использовали в испытании системы восемь предметов — кружку, стакан, ложку, вилку, обеденную тарелку, небольшую тарелку и миску. Устанавливалось, что они могут находиться на столе в различных конфигурациях. Робот с механизированной рукой сначала наблюдал, как люди обычно накрывают на стол, а затем ему поставили задачу расставить приборы. При этом ему пришлось проанализировать множество возможных вариантов размещения предметов, учитывая и те, в которых несколько из них были удалены. Обычно это запутывает роботов — однако, как утверждают исследователи, их машина не допустила ошибок в реальных экспериментах, а среди 20 000 тестовых прогонов системы произошли лишь шесть ошибок.

[embedded content]

Отмечается, что исследователи специально выбрали именно задачу сервировки стола — роботы прекрасно выполняют задачи с чёткими установками, но испытывают сложности в решении проблём с неопределёнными характеристиками. Наиболее популярный подход к машинному обучению — обучение с подкреплением, в ходе которого ИИ «вознаграждается» или «наказывается» за свои действия. Таким способом хорошо обучать роботов конкретным задачам. Однако для выполнения поручений с неопределёнными характеристиками необходима другая методика. Расставление приборов на столе — одна из таких задач.

Идея создания PUnS состоит в том, чтобы передать создание и программирование роботов экспертам в той области, где они нужны. Это позволит им самостоятельно обучать механизмы интуитивно понятными способами, а не ставить задачи инженерам и разработчикам, которые добавили бы код о них в программу, говорит Анкит Шах, аспирант кафедры аэронавтики МТИ. Таким образом, утверждает учёным, работники заводов смогут сами ставить задачи роботам и учить их, а домашние устройства смогут, например, складывать вещи в шкаф или загружать посудомоечные машины, понаблюдав, как это делают хозяева.

Отмечается, что роботы «составляют мнения» на основе наблюдений за людьми. Испытуемое устройство пронаблюдало, как 30 разных человек накрывают на стол. Это позволило роботу составить распределение вероятностей нахождения предметов по 25 формулам, полученным с использованием линейной темпоральной логики. Именно это и стало «мнением» робота. Как говорят исследователи, при дальнейшем обучении оно может измениться или стать шире — как раз в этом случае уместно использовать обучение с подкреплением, чтобы научить робота «думать» в нужном человеку ключе.

При этом роботу можно задать критерии, по которым он составлять распределение вероятностей. Например, изменив один из них, можно заставить робота отбросить все возможные варианта действий, кроме наиболее вероятного. Изменения другого спровоцирует нахождение как можно большего числа вариантов без учёта их вероятности. Третий влияет на количество ошибок — можно потребовать от робота уменьшить возможность ошибки и он проигнорирует варианты действий с высокой вероятностью отказа.

По словам сотрудников МТИ, разработка системы PUnS продолжится — впоследствии они планируют научить робота следовать устным инструкциям, а также получать корректировки и оценки своей работы от пользователей — например, чтобы он понимал фразы «Сделай то же самое на других столах» или «Поменяй местами вилку и нож», говорит Анкит Шах.