[Перевод] Кристофер Йех, аспирант Калтеха, про «тренажеры» для разработки алгоритмов09.11.2024 12:46

Обучающий скрипт

Привет, на связи Елена Кузнецова, специалист по автоматизации Шерпа Роботикс. Сегодня я перевела для вас небольшое интервью с Крисом Йехом, стипендиатом Resnick и аспирантом в области CMS, который работает под руководством Адама Уирмана, о его проекте по созданию «тренажеров» на основе реальных энергетических и устойчивых систем для тестирования новых алгоритмов.

Что такое «тренажеры» для разработки алгоритмов и почему они важны?

С 2016 года, когда OpenAI (создатель ChatGPT) выпустила программное обеспечение OpenAI Gym, термин «тренажер» стал ассоциироваться с программной средой, в которой управляемый агент (или несколько агентов) взаимодействуют с окружающей средой. Например, «тренажер» может быть как игровой средой, так и симулятором робота. Программный агент (например, персонаж в игре или контроллер робота) отправляет «действия» в тренажер, который затем имитирует это действие и возвращает агенту вознаграждение. В случае видеоигры вознаграждение может быть положительным, если агент достиг прогресса, или отрицательным, если он ошибся.

Эти «тренажеры» служат полезными испытательными площадками для алгоритмов управления, особенно для алгоритмов обучения с подкреплением (RL), которые учатся максимизировать вознаграждение через повторные взаимодействия с окружающей средой. Хотя первоначальный OpenAI Gym был полезен для прототипирования RL-алгоритмов на более простых видеоиграх, растет интерес к разработке тренажеров, которые более реалистично моделируют реальные системы, такие как электрические сети, фондовые рынки и беспилотные автомобили.

Что побудило вас создать новую серию тренажеров для приложений в области устойчивого развития?

Исследовательская группа профессора Уирмана имеет опыт разработки эффективных алгоритмов управления, которые в теории должны хорошо работать для реальных задач, таких как управление энергетическими системами. Однако существует очень мало доступных для общественности тренажеров, ориентированных на устойчивое развитие, и все существующие имеют серьезные недостатки, что затрудняет оценку этих алгоритмов по задачам в области устойчивого развития. Имея опыт руководства многоуниверситетской командой исследователей, работающих над созданием другого набора данных по дистанционному зондированию с фокусом на устойчивое развитие (SustainBench), я решил сделать то же самое для тренажеров RL, ориентированных на устойчивое развитие. В результате мы сосредоточились на пяти средах, которые описывают реальные ситуации и построены на основе реальных данных, создавая более точные условия для тестирования. Эти пять сред:
1) сеть зарядки электромобилей;
2) системы хранения батарей, участвующие в электрическом рынке;
3) планирование работы дата-центров для максимизации использования чистой энергии;
4) управление входами тепловых электростанций для минимизации потребления топлива;
5) интеллектуальная координация систем кондиционирования для снижения потребления энергии в зданиях.

Как прошел запуск тренажеров? Есть ли интерес к их внедрению?

Запуск тренажеров только начинается. Мы опубликовали очень раннюю версию SustainGym в декабре 2022 года, и многие исследователи обратились ко мне с просьбой получить доступ к SustainGym. С тех пор мы усердно работали над исправлением ошибок и правильной упаковкой нашего программного обеспечения для выпуска. В середине сентября наша статья была принята на конференцию NeurIPS 2023 (которая пройдет в декабре), и мы готовим финальную версию нашей статьи и программного обеспечения к выходу на этой неделе. На следующей неделе я также буду представлять SustainGym на конференции INFORMS в Финиксе, Аризона, чтобы повысить осведомленность среди сообщества операционных исследований, которое часто пересекается с сообществом обучения с подкреплением. Вся информация о проекте и код доступны на сайте проекта.

Есть ли какие-то удивительные результаты, которые вы заметили с момента начала тестирования новых алгоритмов?

Да. Мы обнаружили, что стандартные RL-алгоритмы, которые показывают отличные результаты в оригинальном наборе OpenAI Gym, не всегда хорошо работают на SustainGym. Это указывает на то, что сообщество исследований RL, возможно, слишком сосредоточилось на успешном выполнении конкретного бенчмарка, и мы надеемся, что SustainGym предоставит новый ориентир для исследовательского сообщества RL. Мы также обнаружили, что производительность этих стандартных RL-алгоритмов ухудшается при тестировании в средах, которые изменялись со временем. Наконец, мы показали, что многоагентные RL-алгоритмы (производительность которых менее изучена) имеют тенденцию показывать такие же или даже лучшие результаты по сравнению с одноагентными RL-алгоритмами, особенно в изменяющихся средах.

Что будет дальше?

SustainGym открывает двери для множества интересных направлений исследований. Во-первых, мы хотим разработать RL-алгоритмы, которые будут более устойчивыми к изменениям в окружающей среде. Во-вторых, мы намерены глубже изучить, почему и как многоагентные RL-алгоритмы иногда показывают лучшие результаты. В-третьих, мы хотим исследовать RL-алгоритмы, которые могут использовать уникальные свойства устойчивых энергетических систем. И наконец, если нам удастся значительно улучшить производительность этих алгоритмов, мы подумаем о том, чтобы обратиться к более широкому кругу промышленных партнеров, чтобы выяснить, есть ли интерес к их внедрению в реальные системы.