Skip to content

世界模型

世界模型通过学习环境动态与规划策略,使机器人能够进行自我预测与控制。学习如何利用表征学习与模型预测控制(MPC),实现机器人在复杂环境中的长时序决策与任务规划,为强化学习与机器人控制提供理论与实践支持。

概述

世界模型(World Model)对环境的转移与奖励进行建模,使智能体能在「想象」中推演未来,从而支持规划、探索与策略学习。本课程介绍世界模型的概念、表征学习、动力学建模与模型预测控制(MPC),及其在机器人长时序决策中的应用。

学习目标

  • 理解世界模型的定义:状态转移、奖励预测、表征与潜在空间
  • 掌握表征学习与潜在动力学:自编码器、潜在空间 MDP、循环世界模型
  • 理解模型预测控制(MPC)的基本思想与在机器人控制中的应用
  • 了解世界模型与强化学习的结合:想象 rollouts、规划与探索
  • 能阅读相关论文并复现基础世界模型或 MPC 实验

课程大纲

1. 世界模型概念

  • 从 MDP 到世界模型:转移 (P(s'|s,a))、奖励 (R(s,a)) 的建模
  • 显式与隐式、全局与局部、表格式与函数近似
  • 世界模型的用途:规划、探索、策略学习、安全验证

2. 表征学习

  • 状态表征:原始观测 vs 抽象状态、编码器-解码器
  • 自编码器(AE)、变分自编码器(VAE)与潜在空间
  • 在机器人中的观测:图像、点云、本体感知;多模态表征

3. 动力学建模

  • 确定性动力学与随机动力学
  • 前向预测:下一状态预测、下一观测预测
  • 循环结构:RNN、LSTM、Transformer 用于长序列动力学
  • 经典工作:World Models(Ha & Schmidhuber)、PlaNet、Dreamer 系列思想

4. 模型预测控制(MPC)

  • MPC 基本思想:在有限时域内优化动作序列、滚动执行
  • 代价函数、约束、优化器(梯度、采样、交叉熵等)
  • 与学习型世界模型结合:学到的动力学 + MPC 求解动作序列
  • 在机器人中的典型用法: locomotion、操纵、导航

5. 世界模型与强化学习

  • Model-based RL:学动力学 → 在模型中 rollouts → 更新策略或值函数
  • 想象与规划:Dreamer、PlaNet、MuZero 等思想简介
  • 探索:基于世界模型的不确定性、好奇心驱动

6. 长时序与任务规划

  • 长时序决策:分层、子目标、选项(Options)
  • 世界模型在任务规划中的作用:预测多步后果、回溯与重规划
  • 与多模态大模型、VLA 的衔接:高层规划与低层执行

实践建议

  • 在简单环境(如连续控制任务)中实现一个前向动力学模型并做单步/多步预测
  • 使用现成或自编的动力学模型,实现一个简单 MPC 控制器并比较与无模型控制的差异
  • 阅读 1~2 篇世界模型或 Dreamer 系列论文,理解表征与 rollouts 的设计

与后续课程的衔接

  • 强化学习:Model-based RL、想象 rollouts、探索
  • VLA:世界模型与 VLA 结合、预测与执行
  • 多模态大模型:大模型作为高层世界模型或规划器

相关链接