强化学习
强化学习是机器人的自进化机制,涵盖基础的马尔可夫决策过程(MDP)、策略优化、值迭代、Q-learning、策略梯度等内容,深入学习离线与在线强化学习技术,掌握基于 RL 的机器人训练与探索方法,能够提升机器人的自主决策与行为稳定性。
概述
强化学习(Reinforcement Learning, RL)通过「智能体-环境」交互与奖励信号,学习最优策略,是机器人自进化与自主决策的核心方法之一。本课程从 MDP 与经典算法到离线/在线 RL,系统介绍 RL 在机器人中的应用。
学习目标
- 理解马尔可夫决策过程(MDP):状态、动作、转移、奖励、策略、回报与价值函数
- 掌握经典算法:值迭代、Q-learning、SARSA、策略梯度、Actor-Critic
- 了解深度强化学习:DQN、DDPG、PPO、SAC 等的基本思想与适用场景
- 理解离线 RL 与在线 RL 的区别,能根据数据与场景选择合适的算法
- 能阅读 RL 论文并复现基础实验,具备在机器人场景中设计奖励与训练流程的能力
课程大纲
1. MDP 与基础概念
- 状态、动作、转移概率、奖励、折扣因子、回报
- 策略(确定性/随机)、状态价值函数、动作价值函数、贝尔曼方程
- 最优策略与最优价值函数、贝尔曼最优性
2. 动态规划与表格型方法
- 策略迭代与值迭代
- 无模型:蒙特卡洛方法、时序差分(TD)、Q-learning、SARSA
- 探索与利用:ε-greedy、软策略、UCB 入门
3. 策略梯度与 Actor-Critic
- 策略梯度定理、REINFORCE、基线
- Actor-Critic:价值函数估计、A2C、A3C 思想
- 优势函数与 GAE(Generalized Advantage Estimation)
4. 深度强化学习
- DQN:经验回放、目标网络、Double DQN、Dueling DQN
- 连续动作:DDPG、TD3、SAC
- 策略优化:TRPO、PPO(clip 与目标设计)
- 在仿真与实物机器人中的典型用法(仿真训练、Sim2Real)
5. 离线强化学习
- 离线 RL 问题:仅从固定数据集学习、分布偏移与保守性
- 典型方法:CQL、IQL、BC+ 等思想
- 与机器人数据(演示、日志)的结合
6. 机器人场景中的 RL
- 奖励设计:稀疏/稠密、塑形、多目标与安全约束
- 状态与动作表示、仿真环境(Isaac Gym、MuJoCo 等)
- 课程学习、分层 RL、与 VLA/世界模型的结合
实践建议
- 在经典环境(CartPole、LunarLander、MuJoCo 等)上实现或调通 DQN/PPO
- 阅读 1~2 篇机器人 RL 论文,理解奖励、状态与仿真设置
- 若有条件,在仿真中完成一个简单机器人任务(如抓取、导航)的 RL 训练
与后续课程的衔接
- 世界模型:模型-based RL、世界模型用于规划与想象
- VLA:RL 用于微调或改进 VLA 策略
- 多模态大模型:大模型与 RL 结合、奖励与课程设计
