Зловещая долина: робот с GPT-4 делает селфи и играет метал (видео)
Alter3 — это новейшая версия робота-гуманоида, впервые представленного в 2016 году. Команда исследователей из Токийского университета использовала GPT-4, чтобы проводить робота через различные симуляции, такие как съемка селфи, подбрасывание мяча, поедание попкорна и игра на воздушной гитаре. Об этом сообщает TechXplore.
Раньше каждое действие требовало специального кодирования, но включение GPT-4 открывает новые возможности для роботов, которые учатся с помощью инструкций на естественном языке. Прямое управление теперь возможно путем отображения лингвистических выражений человеческих действий с помощью программного кода, объясняют ученые. Они назвали это достижение «сменой парадигмы».
Alter3, способный выполнять сложные движения верхней части тела, включая детальную мимику, имеет 43 оси, имитирующие опорно-двигательный аппарат человека. Он стоит на подставке, но не может ходить (хотя может имитировать ходьбу).
Кодирование координации такого большого количества суставов было масштабной задачей, включающей повторяющиеся движения. Благодаря языковой модели (LLM) пропала необходимость в итеративной работе. Теперь ученые могут просто предоставлять устные инструкции, описывающие желаемые движения, и доставлять подсказки для LLM. Языковая модель в свою очередь генерирует код Python, который запускает движок Android.
Alter3 запоминает действия, а исследователи могут уточнять и корректировать их, что со временем приводит к более быстрым, плавным и точным движениям. Авторы приводят пример инструкций на естественном языке, данных Alter3 для съемки селфи:
- Создайте широкую радостную улыбку и расширьте глаза, чтобы показать волнение.
- Быстро поверните верхнюю часть тела слегка влево, приняв динамичную позу.
- Высоко поднимите правую руку, имитируя телефон.
- Согните правый локоть, приближая телефон к лицу.
- Слегка наклоните голову вправо, создавая игривую атмосферу.
Исследователи не упустили шанс пошутить над роботом. В одном из сценариев робот притворяется, что съедает пакет попкорна, а затем узнает, что попкорн принадлежит человеку, сидящему рядом с ним. Преувеличенная мимика и жесты рук выражают удивление и смущение.
Оборудованный камерой Alter3 может «видеть» людей. Исследователи обнаружили, что Alter3 совершенствует свое поведение, наблюдая за реакциями человека. Они сравнили такое обучение с неонатальной имитацией, которую детские бихевиористы наблюдают у новорожденных.
Способность роботов, подключенных к GPT-4, к обучению может перестроить взаимодействие между человеком и роботом. Это открывает новые возможности для более интеллектуальных и адаптивных роботов.
Между тем новый человекобот Tesla похудел и научился танцевать. Умения Optimus Gen 2 показали в коротком ролике.