🔥 Google机器学习(23)-L1(稀疏特征)正则化
Google机器学习(23)-L1(稀疏特征)正则化(约8分钟)
一、正则化核心概念
正则化类型
L1正则化定义
定义:
L1正则化,使用一种根据权重的绝对值的总和来惩罚权重的正则化方式。在依赖稀疏特征的模型中,L1 正则化有助于使不相关或几乎不相关的特征的权重正好为 0,从而将这些特征从模型中移除。与 L2 正则化相对。
数学表达:
正则化项 = λ ∑ ∣ w i ∣ 正则化项 = λ∑|wᵢ| 正则化项=λ∑∣wi∣
特性:
-
产生精确零权重
-
自动执行特征选择
-
适合高维稀疏数据
二、L1 vs L2 机制对比
权重更新差异
特性 | L1正则化 | L2正则化 |
---|---|---|
惩罚项 | ∑ ∣ w i ∣ \sum|w_i| ∑∣wi∣ | ∑ w i 2 \sum w_i^2 ∑wi2 |
导数 | 常数 k k k | 2 × 2 \times 2×权重 |
收敛行为 | 可能精确到零 | 渐进趋近零 |
内存效率 | 高(稀疏矩阵) | 中等 |
公式说明
- w i w_i wi: 第 i i i个权重参数
- L1导数中的 k k k为 ± 1 \pm1 ±1(取决于权重符号)
- L2导数中的权重为当前参数值1,5
迭代效果可视化
- 迭代25步模型权重
- 迭代151步模型权重
三、L1正则化优势场景
1. 高维特征处理
案例:文本分类中的词袋模型
原始特征:50,000维
经L1筛选后:约3,000个非零权重
2. 模型压缩
效果对比:
# L1模型大小示例
original_size = "2.3GB"
after_l1 = "350MB" # 减少85%存储需求
3. 特征重要性分析
输出示例:
特征重要性排名:
1. 用户活跃度 (权重: 0.87)
2. 最近购买 (权重: 0.63)
3. 地理位置 (权重: 0.0) # 被L1剔除
四、最佳实践
✅ 适用场景:
-
特征维度 > 10,000
-
需要模型解释性
-
严格的内存限制
⚠️ 注意事项:
-
需先做特征标准化
-
小心重要特征被误剔除
-
配合交叉验证选择λ
# 技术问答 #
Q:L1为什么能精确产生零权重?
A:由于L1在零点不可导