机器学习笔记【Week9】

kuiini

已于 2025-07-31 12:40:54 修改

阅读量535

点赞数 17

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签：机器学习人工智能

于 2025-06-16 20:37:02 首次发布

本文链接：https://blog.csdn.net/kuiini/article/details/148699985

人工智能专栏收录该内容

13 篇文章

订阅专栏

一、异常检测问题动机

在现实中，我们经常会遇到 “异常检测” 的任务：识别罕见、异常、不符合正常模式的数据点。
- 例：工业设备故障检测，银行欺诈识别，异常流量检测等。
核心特点：异常样本稀少，难以用监督学习训练模型。

二、高斯分布

建立算法前，需要假设每个特征满足 高斯（正态）分布。
- 在单一特征 $x_j$ 上：
  $p(x_j; \mu_j, \sigma_j^2) = \frac{1}{\sqrt{2\pi}\,\sigma_j} \exp\left(-\frac{(x_j - \mu_j)^2}{2\sigma_j^2}\right)$
- 参数：
  - $μj\mu_j$ ：该特征的均值（样本平均）
  - $σj2\sigma_j^2$ ：方差（样本方差）
若所有特征相互独立，样本在多维空间上的概率为：
$\prod_{j=1}^n p(x_j; \mu_j, \sigma_j^2)$

三、算法流程

估计参数 $μj\mu_j$ , $σj2\sigma_j^2$ ，使用训练集中每个特征的样本统计量。
计算异常概率：对于新样本 $x$ ，计算其在模型下的联合似然 $p (x)$ 。
设定阈值 $ϵ\epsilon$ ：
- 若 $\epsilon$ ，则判定为异常（anomaly）。
- 否则为正常样本。

通过此方法，我们能识别出那些在训练数据分布之下概率极低的样本。

四、异常检测系统的开发与评估

开发流程：
1. 从正常数据中估计 $p (x)$ 。
2. 设定阈值 $ϵ\epsilon$ ，根据历史异常样本调优。
3. 使用混淆矩阵指标（TP, FP, FN, TN）评估系统效果。
评估标准：
- 精准率（Precision）、召回率（Recall）、F1 分数
- 目标：低误报率、高召回率（尤其在安全或故障检测场景）。

五、与监督学习的对比

特性	异常检测（无监督）	监督学习
数据需求	正常样本丰富，异常样本稀少	同时需要正常和异常样本
应用场景	异常未知、难以标注的场景	标签已知、结构明确的分类任务
模型训练目标	学习正常分布	最小化预测误差

异常检测更适合异常样本稀少或未知的情况。

六、特征选择

特征选取关键性强：
- 异常表现往往体现在特定特征上，不选择合适特征可能无法检测异常。
- 可考虑大量候选特征，采用统计方法初筛，再人工选 +
- 重要：避免冗余特征造成噪声、过拟合或高维问题。

七、实践建议

建议基于领域知识选择特征，例如：
- 监控系统：时间、人为操作数据、温度、压力等环境变量；
- 金融领域：交易金额、频率、地理偏移等；
- 一般场景：不仅采用数值特征，还应注意衍生与组合特征设计。
数据预处理建议：
- 标准化或归一化处理，保证每个特征都能被高斯假设合理拟合；
- 挑选异常标签作为验证集，用于阈值设定和调优。

八、推荐系统问题背景

推荐系统帮助用户发现他们可能喜欢的物品，解决数据海量化导致的选择困难问题。
常见应用场景：

电影推荐（Netflix, 豆瓣）
商品推荐（Amazon, 淘宝）
音乐推荐（Spotify, 网易云）

数据表示：

设 $n_u$ 是用户数量， $n_m$ 是物品数量。
$y^{(i,j)}$ ：用户 $j$ 对物品 $i$ 的评分。
$r (i, j) = 1$ 如果评分存在，否则为 0。

九、协同过滤的动机

核心假设：喜欢相似物品的用户，通常对其他相似物品也有类似偏好。

数学上：

每个物品 $i$ 用向量 $x(i)∈Rnx^{(i)} \in \mathbb{R}^n$ 表示其特征。
每个用户 $j$ 用向量 $θ(j)∈Rn\theta^{(j)} \in \mathbb{R}^n$ 表示其偏好。

预测评分：

$y^(i,j)=(θ(j))Tx(i) \hat{y}^{(i,j)} = (\theta^{(j)})^T x^{(i)}$
这里的内积表示：

如果 $θ(j)\theta^{(j)}$ 与 $x^{(i)}$ 方向一致（高相似度），评分就高。
如果方向相反（不匹配），评分就低。

十、协同过滤成本函数

我们希望学出使预测评分与真实评分尽量接近的参数：
$\theta) = \frac{1}{2} \sum_{(i,j): r(i,j)=1} \left( (\theta^{(j)})^T x^{(i)} - y^{(i,j)} \right)^2 + \frac{\lambda}{2} \sum_j \|\theta^{(j)}\|^2 + \frac{\lambda}{2} \sum_i \|x^{(i)}\|^2$
原理解析：

前半部分：最小化预测评分误差的平方和。
正则化项：
- 防止过拟合（防止 $x^{(i)}$ 和 $θ(j)\theta^{(j)}$ 的值无限增大以拟合少数评分）。
- 控制模型复杂度，提升泛化能力。

十一、梯度更新公式

为了最小化成本函数，我们对每个参数求偏导：
$\frac{\partial J}{\partial x^{(i)}} = \sum_{j: r(i,j)=1} \left( (\theta^{(j)})^T x^{(i)} - y^{(i,j)} \right) \theta^{(j)} + \lambda x^{(i)}$

$\frac{\partial J}{\partial \theta^{(j)}} = \sum_{i: r(i,j)=1} \left( (\theta^{(j)})^T x^{(i)} - y^{(i,j)} \right) x^{(i)} + \lambda \theta^{(j)}$

用梯度下降或高阶优化方法（如 L-BFGS）同时更新 $x^{(i)}$ 和 $θ(j)\theta^{(j)}$ 。

十二、推荐系统与矩阵分解的关系

矩阵视角：
设评分矩阵 $\in \mathbb{R}^{n_m \times n_u}$ ，协同过滤希望找到：
$\approx X \Theta^T$
其中：

$\in \mathbb{R}^{n_m \times n}$ ：每行是物品特征 $x^{(i)}$ 。
$Θ∈Rnu×n\Theta \in \mathbb{R}^{n_u \times n}$ ：每行是用户参数 $θ(j)\theta^{(j)}$ 。

这类似于 低秩矩阵分解，但不同于传统 SVD：

只拟合已评分项。
通过正则化避免过拟合。

矩阵分解解释了推荐系统能在稀疏评分矩阵中填补空白。

十三、均值归一化

为什么需要？

有的物品评分普遍高（如经典电影），有的用户评分普遍高或低。
若不处理：

模型可能学出错误的特征和偏好方向。

方法：

每个物品减去均值：

$y_{\text{norm}}^{(i,j)} = y^{(i,j)} - \mu^{(i)}$

训练完成后预测值：
$y^(i,j)=(θ(j))Tx(i)+μ(i) \hat{y}^{(i,j)} = (\theta^{(j)})^T x^{(i)} + \mu^{(i)}$
均值归一化后：

参数更易学。
推荐结果不受评分基准偏置干扰。

十四、冷启动与扩展问题

冷启动

新用户：没有历史评分，难以学出 $θ(j)\theta^{(j)}$ 。
新物品：没有评分，无法学 $x^{(i)}$ 。

解决方案：

混合推荐（协同过滤 + 内容推荐）。
初始阶段用物品属性或用户画像特征。

可扩展性

协同过滤可以高效并行化，适合大规模分布式系统。
常与近似优化（随机梯度下降、分布式矩阵分解）结合。

十五、推荐系统

主题	方法	本质	工程实践
协同过滤	矩阵分解，梯度下降	学习用户与物品的低维向量表示	正则化防过拟合、均值归一化去偏置、混合推荐应对冷启动
矩阵分解	评分矩阵低秩分解	潜在因子模型	适用于稀疏评分矩阵