多模态大模型
探索多模态大模型(LLM/VLM)的基本概念和应用,通过 Prompt Engineering 与 Agent 架构等技术,理解如何将视觉、语言与行动结合,解决机器人场景中的任务规划与执行问题,掌握多模态模型的调优与评测方法。
概述
多模态大模型(Large Language Model / Vision-Language Model)为机器人提供了「理解与规划」的能力:从自然语言指令与视觉输入中生成任务分解、策略描述或动作序列。本课程介绍 LLM/VLM 在机器人场景中的用法、Prompt 与 Agent 设计以及调优与评测。
学习目标
- 理解 LLM 与 VLM 的基本概念、预训练与微调、上下文与推理
- 掌握 Prompt Engineering 与 Few-shot 设计,能针对机器人任务设计有效提示
- 了解 Agent 架构(规划、工具调用、反思)及其在机器人任务规划中的应用
- 理解视觉-语言-动作的结合方式,为 VLA 与具身智能打基础
- 能使用开源模型进行调优与评测,并阅读相关论文
课程大纲
1. 大模型基础
- 语言模型与 Transformer:自回归生成、上下文窗口、解码策略(贪心、采样、Beam)
- 预训练与微调:SFT、RLHF、LoRA/QLoRA 等参数高效微调
- 常见开源 LLM:LLaMA、Qwen、ChatGLM 等;推理与部署(量化、vLLM 等)
2. 视觉-语言模型(VLM)
- 多模态输入:图像编码器(ViT/ResNet)+ 语言模型、对齐与投影
- 典型 VLM 结构:BLIP、LLaVA、Qwen-VL 等
- 视觉理解与描述、视觉问答、 grounding(指代、框选)与机器人场景的关系
3. Prompt Engineering
- 指令格式、系统提示与用户提示、Few-shot 示例设计
- 任务分解与步骤描述、输出格式约束(JSON、列表、动作序列)
- 在机器人场景中的应用:任务解析、子目标生成、安全与约束描述
4. Agent 架构与机器人规划
- Agent 组成:感知、规划、工具调用、反思与重规划
- 规划方式:链式推理(CoT)、树/图搜索、工具调用(函数调用、API)
- 与机器人执行结合:高层规划 → 低层控制、仿真与实物接口
5. 调优与评测
- 数据构造:指令数据、多轮对话、多模态对齐
- 微调流程:数据格式、损失设计、评估指标
- 评测:通用能力(MMLU、C-Eval 等)与机器人相关评测(任务成功率、规划质量)
6. 与 VLA、强化学习的衔接
- 大模型输出如何与 VLA 或低层控制器衔接(语言指令 → 动作/技能)
- 大模型与强化学习结合:奖励设计、策略初始化、课程学习
实践建议
- 使用开源 LLM/VLM 完成一个简单任务:图像描述、视觉问答、或简单任务规划
- 针对一个机器人任务(如「把红色方块放到蓝色盒子」)设计 Prompt 与输出格式
- 阅读 1~2 篇 Agent 或具身智能相关论文,理解规划与执行的接口设计
与后续课程的衔接
- 强化学习:大模型与 RL 结合、奖励与课程设计
- 世界模型:大模型作为世界模型或规划器
- VLA:语言与视觉如何与动作头结合,形成端到端控制
