深度学习基础课程
从基础的神经网络到高级网络架构(如 CNN 和 Transformer),掌握深度学习的训练技巧、优化算法和分布式训练方法。通过 PyTorch 深入理解深度学习的原理与实践,完成可复现的深度学习项目。
概述
深度学习是机器人视觉、语言理解与策略学习的核心工具。本课程系统讲解神经网络原理、常见架构与 PyTorch 实践,为多模态大模型、强化学习与 VLA 打下基础。
学习目标
- 理解前馈网络、反向传播、梯度下降与常用优化器(SGD、Adam 等)
- 掌握卷积神经网络(CNN)与 Transformer 的基本原理与典型结构
- 熟练使用 PyTorch 完成数据加载、模型定义、训练与验证、 checkpoint 保存与加载
- 了解过拟合防治(正则化、Dropout、数据增强)、学习率调度与简单分布式训练
- 能复现经典论文中的模型与训练流程,并做基础调参与评测
课程大纲
1. 神经网络基础
- 感知机、多层感知机(MLP)、激活函数(ReLU、Sigmoid、Softmax)
- 损失函数:交叉熵、MSE;反向传播与链式法则
- 梯度下降、批量与随机梯度、学习率、优化器(SGD、Adam、AdamW)
- 过拟合与正则化:L2、Dropout、早停、数据增强
2. PyTorch 入门
- 张量创建、设备(CPU/GPU)、自动求导(autograd)
nn.Module、常用层(Linear、Conv2d、BatchNorm、ReLU 等)- Dataset 与 DataLoader、训练循环与验证循环
- 模型保存与加载、TensorBoard 或简单日志
3. 卷积神经网络(CNN)
- 卷积与池化、感受野、特征图
- 经典结构:LeNet、VGG、ResNet 思想(残差连接)
- 在图像分类与目标检测中的典型用法
- 实践:在 CIFAR/ImageNet 子集上训练并评估 CNN
4. 序列与 Transformer
- 序列建模问题、RNN/LSTM 简介
- 自注意力(Self-Attention)、多头注意力、位置编码
- Transformer 编码器/解码器、预训练与微调概念
- 实践:使用预训练 Transformer(如 BERT/ViT)做分类或特征提取
5. 训练技巧与工程
- 学习率调度(Step、Cosine、Warmup)
- 批归一化、层归一化、初始化
- 混合精度训练(AMP)入门
- 多 GPU 与分布式训练概念(DataParallel、DDP 简介)
6. 与机器人/具身智能的衔接
实践建议
- 使用 PyTorch 完成至少一个图像分类或序列任务(从零实现或基于官方示例)
- 阅读并复现一篇经典论文(如 ResNet、BERT 或 ViT 的简化版),记录超参与结果
- 在 Linux 与 GPU 环境下运行训练,熟悉 checkpoint 与日志管理
与后续课程的衔接
- 多模态大模型:Transformer、预训练与微调、多模态融合
- 强化学习 / 世界模型:价值网络、策略网络、世界模型中的神经网络
- VLA:视觉编码器、语言模型、动作头与端到端训练
