目录
1. 机器学习定义
-
核心定义:
机器学习是研究如何通过计算手段,利用经验(数据)改善系统自身的性能,从而在未知数据上做出有效预测或决策的学科。
-
关键理解:
- 数据驱动:从数据中自动学习规律(模型),而非依赖人工规则
- 传统编程 vs 机器学习:
- 传统编程:输入规则+数据 → 输出结果
- 机器学习:输入数据+结果 → 输出规则(模型)
2. 基本术语
2.1 数据相关术语
- 数据集 (Data Set):样本的集合,分为训练集和测试集
- 样本/示例 (Sample/Instance):数据集中的单个数据记录
- 属性/特征 (Attribute/Feature):描述样本的某个维度,属性的取值成为
属性值
- 属性空间/样本空间/输入空间 (Attribute Space):所有特征张成的空间,空间中的每个点对应一个坐标向量,因此我们通常把一个示例成为
特征向量
- 假设:学习到的某个规律
- 真相/真实:潜在的规律
- 标记 (Label):样本的预测目标值
- 样例 (Example):带标记的样本(特征向量 + 标记),即(x, y)
- 标记空间/输出空间:标记构成的空间集合
2.2 学习过程术语
- 假设空间 (Hypothesis Space):所有可能模型的集合
- 合取式假设:如"色泽=青绿 ∧ 根蒂=蜷缩 → 好瓜"
- 版本空间 (Version Space):与训练数据一致的所有假设的集合
- 学习目标:从假设空间中找到一个最优模型
3. 归纳与演绎
推理类型 | 定义 | 机器学习中的应用 |
---|---|---|
归纳 | 从特殊到一般,从样例中总结规律 | 学习过程:从训练数据归纳模型f |
演绎 | 从一般到特殊,利用规则推导结论 | 模型应用:用学到的f预测新样本结果 |
4. 归纳偏好与NFL定理
4.1 归纳偏好
-
定义:算法对某类假设的偏好(如偏好简单模型)
-
奥卡姆剃刀:
若有多个假设与观察一致,则选最简单的
-
局限性:"简单性"的定义依赖于具体问题
4.2 没有免费午餐定理(NFL)
-
数学表达:
-
核心结论:
- 脱离具体问题,讨论算法优劣无意义
- 算法设计需结合问题先验知识
-
NFL定理公式推导
-
问题设定与符号定义
-
样本空间:
(离散)
-
假设空间:
(离散)
-
真实目标函数:
-
学习算法:
-
-
训练集外误差定义
算法\Omega_n在训练集外的样本上的期望误差:
解释:
-
: 样本外样例概率
-
: 指示函数,内容等式成立返回0,不成立返回1
-
:
在训练集X上产生目标假设h的概率
-
:
在目标函数f和训练集X外产生期望误差,其中下表ote表示
Out-of-Training Error
缩写
-
-
-
对所有可能的f求和
总误差表达式:
-
NFL定理核心结论
对任意两个算法
和
:
-
定理的局限与启示
-
局限性:依赖"所有问题均匀分布"的假设
-
指导意义:
-
算法设计需结合具体问题的先验知识
-
脱离问题背景讨论算法优劣无意义
-
-
参考:周志华《机器学习》第一章第9页
5 机器学习发展历程
1. 发展脉络与核心阶段
时期 | 核心思想 | 代表技术/人物 | 关键进展与挑战 |
---|---|---|---|
1950s-1970s | 【推理期】符号主义与逻辑推理 | 逻辑理论家、感知机 | 早期AI依赖符号逻辑推理,感知机受限于线性分类 |
1980s-1990s | 【知识期】知识工程与符号学习 | 专家系统、决策树、ILP | 专家系统遭遇"知识工程瓶颈",决策树成为主流 |
1990s-2000s | 【学习期】统计学习 | SVM、核方法 | 统计学习理论奠定基础,SVM表现优异 |
2010s至今 | 【深度学习】深度学习与大数据时代 | CNN、RNN、强化学习 | 大数据与GPU算力推动深度学习爆发 |
2. 技术流派演变
-
符号主义(1950s-1980s):
- 核心:基于逻辑规则与符号表示
- 局限:难以处理复杂非线性问题
-
连接主义(1980s复兴):
- 核心:神经网络模拟人脑连接
- 局限:理论薄弱,调参困难
-
统计学习(1990s主导):
- 核心:基于概率与统计理论
- 优势:理论完备,泛化能力强
-
深度学习(2010s至今):
- 核心:多层神经网络自动提取特征
- 驱动因素:大数据、GPU算力