多模态大模型

探索多模态大模型（LLM/VLM）的基本概念和应用，通过 Prompt Engineering 与 Agent 架构等技术，理解如何将视觉、语言与行动结合，解决机器人场景中的任务规划与执行问题，掌握多模态模型的调优与评测方法。

概述

多模态大模型（Large Language Model / Vision-Language Model）为机器人提供了「理解与规划」的能力：从自然语言指令与视觉输入中生成任务分解、策略描述或动作序列。本课程介绍 LLM/VLM 在机器人场景中的用法、Prompt 与 Agent 设计以及调优与评测。

学习目标

理解 LLM 与 VLM 的基本概念、预训练与微调、上下文与推理
掌握 Prompt Engineering 与 Few-shot 设计，能针对机器人任务设计有效提示
了解 Agent 架构（规划、工具调用、反思）及其在机器人任务规划中的应用
理解视觉-语言-动作的结合方式，为 VLA 与具身智能打基础
能使用开源模型进行调优与评测，并阅读相关论文

课程大纲

1. 大模型基础

语言模型与 Transformer：自回归生成、上下文窗口、解码策略（贪心、采样、Beam）
预训练与微调：SFT、RLHF、LoRA/QLoRA 等参数高效微调
常见开源 LLM：LLaMA、Qwen、ChatGLM 等；推理与部署（量化、vLLM 等）

2. 视觉-语言模型（VLM）

多模态输入：图像编码器（ViT/ResNet）+ 语言模型、对齐与投影
典型 VLM 结构：BLIP、LLaVA、Qwen-VL 等
视觉理解与描述、视觉问答、 grounding（指代、框选）与机器人场景的关系

3. Prompt Engineering

指令格式、系统提示与用户提示、Few-shot 示例设计
任务分解与步骤描述、输出格式约束（JSON、列表、动作序列）
在机器人场景中的应用：任务解析、子目标生成、安全与约束描述

4. Agent 架构与机器人规划

Agent 组成：感知、规划、工具调用、反思与重规划
规划方式：链式推理（CoT）、树/图搜索、工具调用（函数调用、API）
与机器人执行结合：高层规划 → 低层控制、仿真与实物接口

5. 调优与评测

数据构造：指令数据、多轮对话、多模态对齐
微调流程：数据格式、损失设计、评估指标
评测：通用能力（MMLU、C-Eval 等）与机器人相关评测（任务成功率、规划质量）

6. 与 VLA、强化学习的衔接

大模型输出如何与 VLA 或低层控制器衔接（语言指令 → 动作/技能）
大模型与强化学习结合：奖励设计、策略初始化、课程学习

实践建议

使用开源 LLM/VLM 完成一个简单任务：图像描述、视觉问答、或简单任务规划
针对一个机器人任务（如「把红色方块放到蓝色盒子」）设计 Prompt 与输出格式
阅读 1～2 篇 Agent 或具身智能相关论文，理解规划与执行的接口设计

与后续课程的衔接

强化学习：大模型与 RL 结合、奖励与课程设计
世界模型：大模型作为世界模型或规划器
VLA：语言与视觉如何与动作头结合，形成端到端控制

多模态大模型 ​

概述 ​

学习目标 ​

课程大纲 ​

1. 大模型基础 ​

2. 视觉-语言模型（VLM） ​

3. Prompt Engineering ​

4. Agent 架构与机器人规划 ​

5. 调优与评测 ​

6. 与 VLA、强化学习的衔接 ​

实践建议 ​

与后续课程的衔接 ​

相关链接 ​

多模态大模型

概述

学习目标

课程大纲

1. 大模型基础

2. 视觉-语言模型（VLM）

3. Prompt Engineering

4. Agent 架构与机器人规划

5. 调优与评测

6. 与 VLA、强化学习的衔接

实践建议

与后续课程的衔接

相关链接