机器学习基础课程

理解机器学习的基本理论与应用，包括数据预处理、特征工程、监督学习方法（回归与分类）、模型评估与优化。学习如何从理论到实践复现经典算法和论文，能够独立进行机器学习项目的建模与调优。

概述

机器学习为机器人感知、决策与自进化提供数据驱动的方法。本课程涵盖从数据到模型再到评估的完整流程，为后续深度学习、强化学习与多模态大模型打下基础。

学习目标

理解机器学习的基本概念：训练/测试、过拟合/欠拟合、偏差与方差
掌握数据预处理与特征工程的常用方法，能使用 pandas、sklearn 完成流水线
熟练使用监督学习中的回归与分类模型（线性模型、树模型、集成方法等），并会调参与评估
能阅读经典论文或教程，并复现基础算法与实验

课程大纲

1. 基础概念与数学准备

机器学习类型：监督、无监督、强化学习简介
损失函数、梯度、优化与迭代
训练集/验证集/测试集、交叉验证、评估指标（MSE、准确率、精确率、召回率、F1、AUC）

2. 数据预处理与特征工程

数据清洗：缺失值、异常值、重复值
数值特征：标准化、归一化、分箱
类别特征：编码（One-Hot、Label Encoding）
特征选择与降维入门：相关性、PCA
使用 pandas、sklearn.preprocessing 构建可复用的预处理流程

3. 回归

线性回归、正则化（Ridge、Lasso）
评估与诊断：残差、R²、学习曲线
简单非线性扩展：多项式特征

4. 分类

逻辑回归、决策树、随机森林、梯度提升（如 XGBoost/LightGBM）
分类评估：混淆矩阵、ROC、PR 曲线、类别不平衡处理
模型选择与超参数调优：网格搜索、随机搜索、交叉验证

5. 无监督学习入门（选学）

聚类：K-Means、层次聚类
降维：PCA、t-SNE 可视化
在机器人数据中的应用：状态聚类、特征可视化

6. 工程实践

使用 sklearn 构建完整流水线（Pipeline）
模型保存与加载、简单部署（如 Flask 封装预测接口）
从论文或教程复现一个经典算法并记录实验

实践建议

选择 1～2 个标准数据集（如 UCI、Kaggle）完成从预处理到评估的全流程
记录超参数与评估结果，养成实验记录习惯
与深度学习衔接时，注意区分「传统 ML」与「深度学习」的适用场景

与后续课程的衔接

深度学习：ML 中的损失、优化、评估概念在深度学习中延续；特征工程与数据流水线同样重要
强化学习 / 世界模型 / VLA：状态表示、奖励设计、离线学习等都会用到 ML 基础

相关链接