深度学习基础课程

从基础的神经网络到高级网络架构（如 CNN 和 Transformer），掌握深度学习的训练技巧、优化算法和分布式训练方法。通过 PyTorch 深入理解深度学习的原理与实践，完成可复现的深度学习项目。

概述

深度学习是机器人视觉、语言理解与策略学习的核心工具。本课程系统讲解神经网络原理、常见架构与 PyTorch 实践，为多模态大模型、强化学习与 VLA 打下基础。

学习目标

理解前馈网络、反向传播、梯度下降与常用优化器（SGD、Adam 等）
掌握卷积神经网络（CNN）与 Transformer 的基本原理与典型结构
熟练使用 PyTorch 完成数据加载、模型定义、训练与验证、 checkpoint 保存与加载
了解过拟合防治（正则化、Dropout、数据增强）、学习率调度与简单分布式训练
能复现经典论文中的模型与训练流程，并做基础调参与评测

课程大纲

1. 神经网络基础

感知机、多层感知机（MLP）、激活函数（ReLU、Sigmoid、Softmax）
损失函数：交叉熵、MSE；反向传播与链式法则
梯度下降、批量与随机梯度、学习率、优化器（SGD、Adam、AdamW）
过拟合与正则化：L2、Dropout、早停、数据增强

2. PyTorch 入门

张量创建、设备（CPU/GPU）、自动求导（autograd）
nn.Module、常用层（Linear、Conv2d、BatchNorm、ReLU 等）
Dataset 与 DataLoader、训练循环与验证循环
模型保存与加载、TensorBoard 或简单日志

3. 卷积神经网络（CNN）

卷积与池化、感受野、特征图
经典结构：LeNet、VGG、ResNet 思想（残差连接）
在图像分类与目标检测中的典型用法
实践：在 CIFAR/ImageNet 子集上训练并评估 CNN

4. 序列与 Transformer

序列建模问题、RNN/LSTM 简介
自注意力（Self-Attention）、多头注意力、位置编码
Transformer 编码器/解码器、预训练与微调概念
实践：使用预训练 Transformer（如 BERT/ViT）做分类或特征提取

5. 训练技巧与工程

学习率调度（Step、Cosine、Warmup）
批归一化、层归一化、初始化
混合精度训练（AMP）入门
多 GPU 与分布式训练概念（DataParallel、DDP 简介）

6. 与机器人/具身智能的衔接

视觉 backbone（CNN、ViT）在机器人感知中的应用
语言模型与多模态模型中的深度学习组件
为多模态大模型、VLA 打基础

实践建议

使用 PyTorch 完成至少一个图像分类或序列任务（从零实现或基于官方示例）
阅读并复现一篇经典论文（如 ResNet、BERT 或 ViT 的简化版），记录超参与结果
在 Linux 与 GPU 环境下运行训练，熟悉 checkpoint 与日志管理

与后续课程的衔接

多模态大模型：Transformer、预训练与微调、多模态融合
强化学习 / 世界模型：价值网络、策略网络、世界模型中的神经网络
VLA：视觉编码器、语言模型、动作头与端到端训练

相关链接