世界模型

世界模型通过学习环境动态与规划策略，使机器人能够进行自我预测与控制。学习如何利用表征学习与模型预测控制（MPC），实现机器人在复杂环境中的长时序决策与任务规划，为强化学习与机器人控制提供理论与实践支持。

概述

世界模型（World Model）对环境的转移与奖励进行建模，使智能体能在「想象」中推演未来，从而支持规划、探索与策略学习。本课程介绍世界模型的概念、表征学习、动力学建模与模型预测控制（MPC），及其在机器人长时序决策中的应用。

学习目标

理解世界模型的定义：状态转移、奖励预测、表征与潜在空间
掌握表征学习与潜在动力学：自编码器、潜在空间 MDP、循环世界模型
理解模型预测控制（MPC）的基本思想与在机器人控制中的应用
了解世界模型与强化学习的结合：想象 rollouts、规划与探索
能阅读相关论文并复现基础世界模型或 MPC 实验

课程大纲

1. 世界模型概念

从 MDP 到世界模型：转移 (P(s'|s,a))、奖励 (R(s,a)) 的建模
显式与隐式、全局与局部、表格式与函数近似
世界模型的用途：规划、探索、策略学习、安全验证

2. 表征学习

状态表征：原始观测 vs 抽象状态、编码器-解码器
自编码器（AE）、变分自编码器（VAE）与潜在空间
在机器人中的观测：图像、点云、本体感知；多模态表征

3. 动力学建模

确定性动力学与随机动力学
前向预测：下一状态预测、下一观测预测
循环结构：RNN、LSTM、Transformer 用于长序列动力学
经典工作：World Models（Ha & Schmidhuber）、PlaNet、Dreamer 系列思想

4. 模型预测控制（MPC）

MPC 基本思想：在有限时域内优化动作序列、滚动执行
代价函数、约束、优化器（梯度、采样、交叉熵等）
与学习型世界模型结合：学到的动力学 + MPC 求解动作序列
在机器人中的典型用法： locomotion、操纵、导航

5. 世界模型与强化学习

Model-based RL：学动力学 → 在模型中 rollouts → 更新策略或值函数
想象与规划：Dreamer、PlaNet、MuZero 等思想简介
探索：基于世界模型的不确定性、好奇心驱动

6. 长时序与任务规划

长时序决策：分层、子目标、选项（Options）
世界模型在任务规划中的作用：预测多步后果、回溯与重规划
与多模态大模型、VLA 的衔接：高层规划与低层执行

实践建议

在简单环境（如连续控制任务）中实现一个前向动力学模型并做单步/多步预测
使用现成或自编的动力学模型，实现一个简单 MPC 控制器并比较与无模型控制的差异
阅读 1～2 篇世界模型或 Dreamer 系列论文，理解表征与 rollouts 的设计

与后续课程的衔接

强化学习：Model-based RL、想象 rollouts、探索
VLA：世界模型与 VLA 结合、预测与执行
多模态大模型：大模型作为高层世界模型或规划器

相关链接