世界模型
世界模型通过学习环境动态与规划策略,使机器人能够进行自我预测与控制。学习如何利用表征学习与模型预测控制(MPC),实现机器人在复杂环境中的长时序决策与任务规划,为强化学习与机器人控制提供理论与实践支持。
概述
世界模型(World Model)对环境的转移与奖励进行建模,使智能体能在「想象」中推演未来,从而支持规划、探索与策略学习。本课程介绍世界模型的概念、表征学习、动力学建模与模型预测控制(MPC),及其在机器人长时序决策中的应用。
学习目标
- 理解世界模型的定义:状态转移、奖励预测、表征与潜在空间
- 掌握表征学习与潜在动力学:自编码器、潜在空间 MDP、循环世界模型
- 理解模型预测控制(MPC)的基本思想与在机器人控制中的应用
- 了解世界模型与强化学习的结合:想象 rollouts、规划与探索
- 能阅读相关论文并复现基础世界模型或 MPC 实验
课程大纲
1. 世界模型概念
- 从 MDP 到世界模型:转移 (P(s'|s,a))、奖励 (R(s,a)) 的建模
- 显式与隐式、全局与局部、表格式与函数近似
- 世界模型的用途:规划、探索、策略学习、安全验证
2. 表征学习
- 状态表征:原始观测 vs 抽象状态、编码器-解码器
- 自编码器(AE)、变分自编码器(VAE)与潜在空间
- 在机器人中的观测:图像、点云、本体感知;多模态表征
3. 动力学建模
- 确定性动力学与随机动力学
- 前向预测:下一状态预测、下一观测预测
- 循环结构:RNN、LSTM、Transformer 用于长序列动力学
- 经典工作:World Models(Ha & Schmidhuber)、PlaNet、Dreamer 系列思想
4. 模型预测控制(MPC)
- MPC 基本思想:在有限时域内优化动作序列、滚动执行
- 代价函数、约束、优化器(梯度、采样、交叉熵等)
- 与学习型世界模型结合:学到的动力学 + MPC 求解动作序列
- 在机器人中的典型用法: locomotion、操纵、导航
5. 世界模型与强化学习
- Model-based RL:学动力学 → 在模型中 rollouts → 更新策略或值函数
- 想象与规划:Dreamer、PlaNet、MuZero 等思想简介
- 探索:基于世界模型的不确定性、好奇心驱动
6. 长时序与任务规划
- 长时序决策:分层、子目标、选项(Options)
- 世界模型在任务规划中的作用:预测多步后果、回溯与重规划
- 与多模态大模型、VLA 的衔接:高层规划与低层执行
实践建议
- 在简单环境(如连续控制任务)中实现一个前向动力学模型并做单步/多步预测
- 使用现成或自编的动力学模型,实现一个简单 MPC 控制器并比较与无模型控制的差异
- 阅读 1~2 篇世界模型或 Dreamer 系列论文,理解表征与 rollouts 的设计
与后续课程的衔接
- 强化学习:Model-based RL、想象 rollouts、探索
- VLA:世界模型与 VLA 结合、预测与执行
- 多模态大模型:大模型作为高层世界模型或规划器
