机器学习基础课程
理解机器学习的基本理论与应用,包括数据预处理、特征工程、监督学习方法(回归与分类)、模型评估与优化。学习如何从理论到实践复现经典算法和论文,能够独立进行机器学习项目的建模与调优。
概述
机器学习为机器人感知、决策与自进化提供数据驱动的方法。本课程涵盖从数据到模型再到评估的完整流程,为后续深度学习、强化学习与多模态大模型打下基础。
学习目标
- 理解机器学习的基本概念:训练/测试、过拟合/欠拟合、偏差与方差
- 掌握数据预处理与特征工程的常用方法,能使用
pandas、sklearn完成流水线 - 熟练使用监督学习中的回归与分类模型(线性模型、树模型、集成方法等),并会调参与评估
- 能阅读经典论文或教程,并复现基础算法与实验
课程大纲
1. 基础概念与数学准备
- 机器学习类型:监督、无监督、强化学习简介
- 损失函数、梯度、优化与迭代
- 训练集/验证集/测试集、交叉验证、评估指标(MSE、准确率、精确率、召回率、F1、AUC)
2. 数据预处理与特征工程
- 数据清洗:缺失值、异常值、重复值
- 数值特征:标准化、归一化、分箱
- 类别特征:编码(One-Hot、Label Encoding)
- 特征选择与降维入门:相关性、PCA
- 使用
pandas、sklearn.preprocessing构建可复用的预处理流程
3. 回归
- 线性回归、正则化(Ridge、Lasso)
- 评估与诊断:残差、R²、学习曲线
- 简单非线性扩展:多项式特征
4. 分类
- 逻辑回归、决策树、随机森林、梯度提升(如 XGBoost/LightGBM)
- 分类评估:混淆矩阵、ROC、PR 曲线、类别不平衡处理
- 模型选择与超参数调优:网格搜索、随机搜索、交叉验证
5. 无监督学习入门(选学)
- 聚类:K-Means、层次聚类
- 降维:PCA、t-SNE 可视化
- 在机器人数据中的应用:状态聚类、特征可视化
6. 工程实践
- 使用
sklearn构建完整流水线(Pipeline) - 模型保存与加载、简单部署(如 Flask 封装预测接口)
- 从论文或教程复现一个经典算法并记录实验
实践建议
- 选择 1~2 个标准数据集(如 UCI、Kaggle)完成从预处理到评估的全流程
- 记录超参数与评估结果,养成实验记录习惯
- 与 深度学习 衔接时,注意区分「传统 ML」与「深度学习」的适用场景
与后续课程的衔接
- 深度学习:ML 中的损失、优化、评估概念在深度学习中延续;特征工程与数据流水线同样重要
- 强化学习 / 世界模型 / VLA:状态表示、奖励设计、离线学习等都会用到 ML 基础
