Skip to content

多模态大模型

探索多模态大模型(LLM/VLM)的基本概念和应用,通过 Prompt Engineering 与 Agent 架构等技术,理解如何将视觉、语言与行动结合,解决机器人场景中的任务规划与执行问题,掌握多模态模型的调优与评测方法。

概述

多模态大模型(Large Language Model / Vision-Language Model)为机器人提供了「理解与规划」的能力:从自然语言指令与视觉输入中生成任务分解、策略描述或动作序列。本课程介绍 LLM/VLM 在机器人场景中的用法、Prompt 与 Agent 设计以及调优与评测。

学习目标

  • 理解 LLM 与 VLM 的基本概念、预训练与微调、上下文与推理
  • 掌握 Prompt Engineering 与 Few-shot 设计,能针对机器人任务设计有效提示
  • 了解 Agent 架构(规划、工具调用、反思)及其在机器人任务规划中的应用
  • 理解视觉-语言-动作的结合方式,为 VLA 与具身智能打基础
  • 能使用开源模型进行调优与评测,并阅读相关论文

课程大纲

1. 大模型基础

  • 语言模型与 Transformer:自回归生成、上下文窗口、解码策略(贪心、采样、Beam)
  • 预训练与微调:SFT、RLHF、LoRA/QLoRA 等参数高效微调
  • 常见开源 LLM:LLaMA、Qwen、ChatGLM 等;推理与部署(量化、vLLM 等)

2. 视觉-语言模型(VLM)

  • 多模态输入:图像编码器(ViT/ResNet)+ 语言模型、对齐与投影
  • 典型 VLM 结构:BLIP、LLaVA、Qwen-VL 等
  • 视觉理解与描述、视觉问答、 grounding(指代、框选)与机器人场景的关系

3. Prompt Engineering

  • 指令格式、系统提示与用户提示、Few-shot 示例设计
  • 任务分解与步骤描述、输出格式约束(JSON、列表、动作序列)
  • 在机器人场景中的应用:任务解析、子目标生成、安全与约束描述

4. Agent 架构与机器人规划

  • Agent 组成:感知、规划、工具调用、反思与重规划
  • 规划方式:链式推理(CoT)、树/图搜索、工具调用(函数调用、API)
  • 与机器人执行结合:高层规划 → 低层控制、仿真与实物接口

5. 调优与评测

  • 数据构造:指令数据、多轮对话、多模态对齐
  • 微调流程:数据格式、损失设计、评估指标
  • 评测:通用能力(MMLU、C-Eval 等)与机器人相关评测(任务成功率、规划质量)

6. 与 VLA、强化学习的衔接

  • 大模型输出如何与 VLA 或低层控制器衔接(语言指令 → 动作/技能)
  • 大模型与强化学习结合:奖励设计、策略初始化、课程学习

实践建议

  • 使用开源 LLM/VLM 完成一个简单任务:图像描述、视觉问答、或简单任务规划
  • 针对一个机器人任务(如「把红色方块放到蓝色盒子」)设计 Prompt 与输出格式
  • 阅读 1~2 篇 Agent 或具身智能相关论文,理解规划与执行的接口设计

与后续课程的衔接

  • 强化学习:大模型与 RL 结合、奖励与课程设计
  • 世界模型:大模型作为世界模型或规划器
  • VLA:语言与视觉如何与动作头结合,形成端到端控制

相关链接