MIT научил роботов понимать недосказанные инструкции людей

Исследователи из Массачусетского технологического института (MIT) разработали систему обучения роботов, которая позволяет им понимать не только прямые команды человека, но и скрытые требования, остающиеся за рамками инструкций. Новый подход получил название Masked Inverse Reinforcement Learning (Masked IRL) и помогает роботам осваивать задачи с использованием почти в 5 раз меньшего объёма обучающих демонстраций по сравнению с существующими методами.

Проблема современных роботов заключается в том, что люди редко формулируют свои пожелания полностью. Например, если попросить робота поставить чашку кофе на стол во время видеозвонка, человек обычно не уточняет, что машине желательно держаться подальше от ноутбука и не вторгаться в личное пространство. Однако именно такие детали часто оказываются важными важными для комфортного взаимодействия.

Традиционно для обучения роботов используются либо многочисленные физические демонстрации действий, либо подробные текстовые инструкции. При отсутствии одного из этих компонентов система может неправильно интерпретировать задачу. Команда MIT попыталась решить эту проблему с помощью больших языковых моделей.

Иллюстрация: Nano Banana

В основе Masked IRL лежит двухэтапный процесс. Сначала одна языковая модель анализирует физическую демонстрацию человека и уточняет неоднозначные команды. Например, инструкция «держись ближе» может быть автоматически преобразована в более конкретную формулировку «держись ближе к поверхности стола». Для этого система сравнивает траекторию движения робота с кратчайшим возможным маршрутом и пытается понять, какие особенности поведения были важны для человека.

Затем вторая языковая модель анализирует окружающую среду и определяет, какие объекты действительно имеют значение для выполнения задачи. Каждому элементу присваивается статус важного или несущественного. Если во время демонстрации человек случайно опирался на стол, этот факт будет проигнорирован. Зато расположение ноутбука, препятствий или самого объекта назначения будет учтено при построении плана действий.

Такой механизм отбора информации оказался ключевым преимуществом системы. В ходе испытаний как в виртуальной среде, так и на реальном роботизированном манипуляторе Masked IRL на 15% чаще правильно определял предпочтения пользователей, которые те не озвучивали напрямую.

Исследователи также обнаружили, что новый метод значительно ускоряет обучение. Роботу требовалось гораздо меньше демонстраций для освоения задачи по сравнению с существующими подходами. Кроме того, уточнение инструкций с помощью языковой модели заметно повышало качество выполнения заданий по сравнению с попытками работать с расплывчатыми командами.

Практические испытания подтвердили результаты. После обучения на 50 физических демонстрациях робот смог аккуратно передавать человеку предметы, избегая столкновений с ноутбуком, который он ранее научился воспринимать как объект, от которого следует держаться подальше. В других экспериментах робот протирал стол, сохраняя близость к его поверхности, а также передавал человеку пакет чипсов, одновременно избегая как самого пользователя, так и стоящего рядом стола.

Авторы отмечают, что нынешняя версия системы опирается главным образом на данные датчиков и информацию о движениях. Следующим этапом станет интеграция камер компьютерного зрения. Это позволит роботам самостоятельно анализировать окружающую обстановку и выделять значимые объекты ещё до начала выполнения задачи. Например, если робот получит команду поднять игрушку, то он сможет визуально определить, что лежащие рядом бананы к поручению отношения не имеют, и сосредоточится только на нужном объекте.

Работа будет представлена на конференции IEEE International Conference on Robotics and Automation (ICRA 2026), которая пройдёт в июне в Вене. По мнению авторов, технология может найти применение в домашних роботах, складской автоматизации, промышленности и офисной среде, где машины всё чаще работают бок о бок с людьми.

©  iXBT