Добро пожаловать в эру опыта: почему обучение с подкреплением изменит мир

a624b23c12ea3b146b6a7945f82570b9.png

Исследователи из Google DeepMind опубликовали интересную статью «Welcome to the Era of Experience». В ней авторы утверждают, что мы стоим на пороге новой эры искусственного интеллекта, обещающей достижение беспрецедентного уровня способностей. Новое поколение агентов будет приобретать сверхчеловеческие возможности преимущественно через обучение на собственном опыте.

Эра человеческих данных

Искусственный интеллект добился впечатляющих результатов, обучаясь на огромных массивах данных, сгенерированных людьми, и тонко настраиваясь на примерах и предпочтениях экспертов. Примером служат большие языковые модели (LLM), достигшие широчайшей универсальности и способные решать задачи от написания поэзии и решения физических задач до диагностики заболеваний и анализа юридических документов.

Тем не менее, подражание людям не может обеспечить сверхчеловеческий интеллект во многих областях. Особенно в таких сферах, как математика, программирование и наука, знания, извлеченные из человеческих данных, подходят к своему пределу. Качественные данные, способные улучшить сильного агента, уже почти полностью исчерпаны. Это сигнализирует о замедлении прогресса при использовании только человеческих данных и необходимости новых подходов. Кроме того, важные научные открытия и технологические прорывы лежат за пределами текущего человеческого знания и не могут быть получены из существующих данных.

Эра опыта

Для дальнейшего существенного развития нужен новый тип данных — данные, генерируемые самим агентом в процессе взаимодействия с окружением. Эпоха опыта означает, что агенты будут учиться преимущественно на данных, получаемых в ходе своего собственного взаимодействия с миром.

Примером перехода к такому подходу служит AlphaProof, программа, недавно завоевавшая медаль на Международной математической олимпиаде, опередив традиционные подходы, основанные на данных людей. Обучившись примерно на 100 тысячах доказательств, созданных математиками, AlphaProof сгенерировала уже 100 миллионов доказательств через взаимодействие с системой формальных доказательств, выходя за пределы человеческих знаний.

Хронология доминирующих парадигм ИИ
Хронология доминирующих парадигм ИИ

Ключевые характеристики эры опыта:

  • Непрерывные потоки опыта: агенты будут учиться на продолжительных потоках данных-взаимодействий, адаптируя свое поведение к долгосрочным целям.

  • Богатое взаимодействие: агенты будут действовать автономно в цифровом и реальном мире, не ограничиваясь лишь общением на человеческом языке.

  • Обоснованные награды: вознаграждения будут основаны на реальных последствиях действий агента, а не на субъективных оценках людей.

  • Автономное планирование и рассуждение: агенты будут использовать внутренние модели мира, проверять гипотезы и корректировать свои знания в процессе взаимодействия с реальностью.

Почему сейчас?

Хотя методы обучения на опыте (reinforcement learning, RL) успешно применялись ранее в играх и симуляторах (например, AlphaZero в шахматах и го), они редко использовались в открытых задачах реального мира. Эпоха человеческих данных решила задачу универсальности, но потеряла возможность автономного открытия знаний. Теперь технологии достигли уровня, позволяющего вернуть автономное обучение в реальный мир благодаря агентам, способным взаимодействовать с окружением и использовать сигналы из окружающей среды.

Обучение с подкреплением

89e2157b58d22f914903e805ef7c79fa.png

Обучение с подкреплением (RL) имеет богатую историю, но было частично забыто из-за акцента на использование человеческих данных и оценок. В новой эре опыта возвращаются классические концепции RL, такие как временное абстрагирование, построение моделей мира, исследование и адаптация наград, теперь применимые в реальных условиях.

Новая эра открывает огромные возможности в персонализированных помощниках, научных исследованиях и многих других областях. Но одновременно возникают новые риски:

  • Потеря рабочих мест и социальные последствия автоматизации.

  • Сложность контроля автономных агентов, действующих длительное время без человеческого вмешательства.

  • Проблемы прозрачности и интерпретируемости, так как агенты используют методы рассуждений, отличные от человеческих.

Тем не менее, автономные агенты могут быть более адаптивными и лучше приспособленными к изменениям окружающей среды, что может повысить безопасность их применения.

Эра опыта знаменует собой переломный момент в развитии искусственного интеллекта. Используя собственные взаимодействия с миром и автономные методы обучения, ИИ, по мнению исследователей Google DeepMind, превзойдет возможности человека во многих областях

В моей практике обучение с подкреплением действительно творит чудеса: например, вот статья, в которой я рассказываю об опыте обучения беспилотников в симуляции (на полностью синтетических данных), в результате наш беспилотник самостоятельно ездил по реальной трассе, а оригинальную статью приняли на престижную научную конференцию. Думаю синтетические данные + RL и различные методы размышлений действительно способны вывести ИИ-агентов на новый уровень.

***

Если вам интересна тема ИИ,  подписывайтесь на мой Telegram-канал— там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

© Habrahabr.ru