Skip to content

深度学习基础课程

从基础的神经网络到高级网络架构(如 CNN 和 Transformer),掌握深度学习的训练技巧、优化算法和分布式训练方法。通过 PyTorch 深入理解深度学习的原理与实践,完成可复现的深度学习项目。

概述

深度学习是机器人视觉、语言理解与策略学习的核心工具。本课程系统讲解神经网络原理、常见架构与 PyTorch 实践,为多模态大模型、强化学习与 VLA 打下基础。

学习目标

  • 理解前馈网络、反向传播、梯度下降与常用优化器(SGD、Adam 等)
  • 掌握卷积神经网络(CNN)与 Transformer 的基本原理与典型结构
  • 熟练使用 PyTorch 完成数据加载、模型定义、训练与验证、 checkpoint 保存与加载
  • 了解过拟合防治(正则化、Dropout、数据增强)、学习率调度与简单分布式训练
  • 能复现经典论文中的模型与训练流程,并做基础调参与评测

课程大纲

1. 神经网络基础

  • 感知机、多层感知机(MLP)、激活函数(ReLU、Sigmoid、Softmax)
  • 损失函数:交叉熵、MSE;反向传播与链式法则
  • 梯度下降、批量与随机梯度、学习率、优化器(SGD、Adam、AdamW)
  • 过拟合与正则化:L2、Dropout、早停、数据增强

2. PyTorch 入门

  • 张量创建、设备(CPU/GPU)、自动求导(autograd)
  • nn.Module、常用层(Linear、Conv2d、BatchNorm、ReLU 等)
  • Dataset 与 DataLoader、训练循环与验证循环
  • 模型保存与加载、TensorBoard 或简单日志

3. 卷积神经网络(CNN)

  • 卷积与池化、感受野、特征图
  • 经典结构:LeNet、VGG、ResNet 思想(残差连接)
  • 在图像分类与目标检测中的典型用法
  • 实践:在 CIFAR/ImageNet 子集上训练并评估 CNN

4. 序列与 Transformer

  • 序列建模问题、RNN/LSTM 简介
  • 自注意力(Self-Attention)、多头注意力、位置编码
  • Transformer 编码器/解码器、预训练与微调概念
  • 实践:使用预训练 Transformer(如 BERT/ViT)做分类或特征提取

5. 训练技巧与工程

  • 学习率调度(Step、Cosine、Warmup)
  • 批归一化、层归一化、初始化
  • 混合精度训练(AMP)入门
  • 多 GPU 与分布式训练概念(DataParallel、DDP 简介)

6. 与机器人/具身智能的衔接

  • 视觉 backbone(CNN、ViT)在机器人感知中的应用
  • 语言模型与多模态模型中的深度学习组件
  • 多模态大模型VLA 打基础

实践建议

  • 使用 PyTorch 完成至少一个图像分类或序列任务(从零实现或基于官方示例)
  • 阅读并复现一篇经典论文(如 ResNet、BERT 或 ViT 的简化版),记录超参与结果
  • 在 Linux 与 GPU 环境下运行训练,熟悉 checkpoint 与日志管理

与后续课程的衔接

  • 多模态大模型:Transformer、预训练与微调、多模态融合
  • 强化学习 / 世界模型:价值网络、策略网络、世界模型中的神经网络
  • VLA:视觉编码器、语言模型、动作头与端到端训练

相关链接