强化学习

强化学习是机器人的自进化机制，涵盖基础的马尔可夫决策过程（MDP）、策略优化、值迭代、Q-learning、策略梯度等内容，深入学习离线与在线强化学习技术，掌握基于 RL 的机器人训练与探索方法，能够提升机器人的自主决策与行为稳定性。

概述

强化学习（Reinforcement Learning, RL）通过「智能体-环境」交互与奖励信号，学习最优策略，是机器人自进化与自主决策的核心方法之一。本课程从 MDP 与经典算法到离线/在线 RL，系统介绍 RL 在机器人中的应用。

学习目标

理解马尔可夫决策过程（MDP）：状态、动作、转移、奖励、策略、回报与价值函数
掌握经典算法：值迭代、Q-learning、SARSA、策略梯度、Actor-Critic
了解深度强化学习：DQN、DDPG、PPO、SAC 等的基本思想与适用场景
理解离线 RL 与在线 RL 的区别，能根据数据与场景选择合适的算法
能阅读 RL 论文并复现基础实验，具备在机器人场景中设计奖励与训练流程的能力

课程大纲

1. MDP 与基础概念

状态、动作、转移概率、奖励、折扣因子、回报
策略（确定性/随机）、状态价值函数、动作价值函数、贝尔曼方程
最优策略与最优价值函数、贝尔曼最优性

2. 动态规划与表格型方法

策略迭代与值迭代
无模型：蒙特卡洛方法、时序差分（TD）、Q-learning、SARSA
探索与利用：ε-greedy、软策略、UCB 入门

3. 策略梯度与 Actor-Critic

策略梯度定理、REINFORCE、基线
Actor-Critic：价值函数估计、A2C、A3C 思想
优势函数与 GAE（Generalized Advantage Estimation）

4. 深度强化学习

DQN：经验回放、目标网络、Double DQN、Dueling DQN
连续动作：DDPG、TD3、SAC
策略优化：TRPO、PPO（clip 与目标设计）
在仿真与实物机器人中的典型用法（仿真训练、Sim2Real）

5. 离线强化学习

离线 RL 问题：仅从固定数据集学习、分布偏移与保守性
典型方法：CQL、IQL、BC+ 等思想
与机器人数据（演示、日志）的结合

6. 机器人场景中的 RL

奖励设计：稀疏/稠密、塑形、多目标与安全约束
状态与动作表示、仿真环境（Isaac Gym、MuJoCo 等）
课程学习、分层 RL、与 VLA/世界模型的结合

实践建议

在经典环境（CartPole、LunarLander、MuJoCo 等）上实现或调通 DQN/PPO
阅读 1～2 篇机器人 RL 论文，理解奖励、状态与仿真设置
若有条件，在仿真中完成一个简单机器人任务（如抓取、导航）的 RL 训练

与后续课程的衔接

世界模型：模型-based RL、世界模型用于规划与想象
VLA：RL 用于微调或改进 VLA 策略
多模态大模型：大模型与 RL 结合、奖励与课程设计

相关链接