Skip to content

VLA(视觉-语言-动作模型)

视觉-语言-动作模型(VLA)是机器人的跨模态学习和行为执行能力的核心,学习如何从视觉信息与语言描述中提取动作策略,并通过行为克隆、扩散策略等技术实现机器人任务的自主执行,重点关注模型的 Sim2Real 转化与机器人部署。

概述

VLA(Vision-Language-Action)将视觉输入与自然语言指令映射为机器人动作序列或控制指令,是具身智能与机器人操作的核心技术之一。本课程介绍 VLA 的架构、训练方法(行为克隆、扩散策略等)以及 Sim2Real 与部署实践。

学习目标

  • 理解 VLA 的定义与典型架构:视觉编码器、语言编码/融合、动作头与策略输出
  • 掌握行为克隆(BC)与模仿学习在 VLA 中的应用,以及数据与分布问题
  • 了解扩散策略、Flow Matching 等生成式策略的基本思想与优势
  • 理解 Sim2Real:仿真数据、域随机化、真实数据微调与部署流程
  • 能阅读 VLA 论文(如 RT-1、OpenVLA、π0 等)并复现或调通基础实验

课程大纲

1. VLA 概念与架构

  • 输入:图像/视频、本体状态、语言指令
  • 输出:离散动作序列或连续控制(关节角、末端位姿等)
  • 典型结构:视觉编码器(ViT/ResNet)+ 语言编码与融合 + 策略网络/动作头
  • 与纯视觉策略、纯语言规划的区别;端到端与分层

2. 行为克隆与模仿学习

  • 监督学习框架:输入(观测+指令)→ 输出(动作)
  • 数据来源:人类演示、遥操作、脚本策略、其他机器人
  • 分布偏移与复合误差、多任务与泛化、数据效率

3. 扩散策略与生成式策略

  • 扩散模型回顾:去噪过程、条件生成
  • 扩散策略:将动作序列视为条件生成、训练与采样
  • Flow Matching 等替代方法简介
  • 与 BC 的对比:多模态动作、平滑性、对噪声的鲁棒性

4. 训练流程与工程

  • 数据格式:观测、指令、动作的对齐与序列长度
  • 损失设计:MSE、扩散损失、多任务权重
  • 预训练与微调:从通用视觉-语言模型到机器人策略
  • 仿真与真实数据混合、课程与增量学习

5. Sim2Real 与部署

  • Sim2Real 问题:仿真与真实的域差距
  • 域随机化、系统辨识、真实数据微调
  • 部署:模型压缩、量化、延迟与实时性、嵌入式与边缘设备
  • 安全与失败检测、人机协作与干预

6. 典型工作与社区资源

  • RT-1、RT-2、OpenVLA、π0 等架构与训练设定简介
  • 开源代码与数据集:RoboMimic、Open X-Embodiment、DROID 等
  • 本社区相关:VLA / OpenVLAVLA / π0

实践建议

  • 使用开源 VLA 或 BC 代码,在仿真或真实机器人上完成「数据收集 → 训练 → 评估」流程
  • 阅读 OpenVLA 或 π0 论文与文档,理解预训练、数据与部署选择
  • 若有条件,尝试在仿真中做域随机化或在少量真实数据上微调

与后续课程的衔接

  • 多模态大模型:大模型与 VLA 结合、语言与规划
  • 强化学习:RL 微调 VLA、奖励与课程
  • 世界模型:世界模型与 VLA 联合、预测与执行

相关链接