
Machine Learning
文章平均质量分 92
机器学习基础。Andrew Ng的机器学习专项课程笔记更新完结。
阿正的梦工坊
岁月不饶人,我亦未曾饶过岁月
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习专项课程03:Unsupervised Learning, Recommenders, Reinforcement Learning笔记 Week01
第一周的字幕,quiz的答案以及作业的代码原创 2024-02-28 15:51:57 · 1269 阅读 · 0 评论 -
Coursera吴恩达机器学习专项课程02:Advanced Learning Algorithms 笔记 Week01
第一周的笔记,字幕,quiz的答案,lab的代码原创 2024-02-26 14:05:39 · 1135 阅读 · 0 评论 -
Coursera吴恩达机器学习专项课程01:Supervised Machine Learning: Regression and Classification笔记 Week01
Supervised Machine Learning: Regression and Classification第一周的课程笔记原创 2024-02-25 14:11:51 · 2150 阅读 · 3 评论 -
Muon 优化器深度剖析(二):数学公式与 MuonClip 变体
Muon 的几何视角(正交化 + 范数约束)重塑优化,公式简洁却强大;MuonClip 的 clip 机制则解决实际痛点,让大规模训练可行。原创 2025-08-14 07:08:48 · 836 阅读 · 0 评论 -
深入剖析 Muon 优化器(一):从基础原理到 Kimi K2 大模型的应用
Muon优化器通俗解释原创 2025-08-14 06:51:54 · 514 阅读 · 0 评论 -
交叉熵(Cross-Entropy)和KL散度(Kullback-Leibler Divergence)的联系与区别
本文将深入探讨它们的定义、数学公式、联系与区别,并通过例子说明其意义。原创 2025-04-23 13:13:39 · 1071 阅读 · 0 评论 -
KL散度近似方法介绍:从John Schulman的博客到DeepSeek GRPO的应用
John Schulman在其2020年3月7日的博客中详细探讨了如何通过蒙特卡洛方法近似KL散度,并提出了一种低方差、无偏的估计器。这一方法不仅在理论上具有重要意义,还被DeepSeek的GRPO算法所采用。原创 2025-04-20 18:21:29 · 1124 阅读 · 0 评论 -
什么是“完备性”(Completeness)和“过完备性”(Overcompleteness)?从数学到直觉的深度解析
完备性:基向量数量刚好等于维度,紧凑高效,但灵活性有限。过完备性:基向量数量超纲,提供了冗余和多样性,适合复杂表示(如超位置),但需要稀疏性约束。原创 2025-03-30 16:31:40 · 1066 阅读 · 0 评论 -
Score Matching:一种优雅的未归一化模型估计方法(代码实现)
这篇博客将带你从零开始了解Score Matching的背景、核心思想、数学公式及其应用。原创 2025-03-28 19:27:45 · 792 阅读 · 0 评论 -
Score Matching与Noise-Contrastive Estimation (NCE):联系与区别详解
Score Matching和NCE都为未归一化模型提供了高效解法。Score Matching通过得分函数的数学优雅性取胜,适合简单连续模型;NCE通过分类的直观性更灵活,适用范围广。原创 2025-03-28 19:39:26 · 1068 阅读 · 0 评论 -
噪声对比估计(Noise-contrastive estimation, NCE):如何高效估计未归一化统计模型的参数?
噪声对比估计(NCE)是一种创新的估计方法,专为未归一化统计模型设计。它通过将参数估计转化为分类问题,避免了直接计算归一化常数的难题原创 2025-03-28 15:34:31 · 876 阅读 · 0 评论 -
SiLU与GeLU激活函数:现代大模型的选择
为什么这些激活函数会成为新宠?它们又有哪些优越的性质呢?本文将为你详细解析。原创 2025-03-26 19:52:37 · 2925 阅读 · 0 评论 -
深入剖析ReLU激活函数:特性、优势与梯度消失问题的解决之道,以及Leaky ReLU 和 Parametric ReLU
本文将从ReLU的定义、数学特性、梯度行为以及其在深度学习中的应用出发,深入探讨其为何能有效避免梯度消失问题,并提供一些深刻的洞见,面向具有扎实基础的深度学习研究者。原创 2025-03-24 14:15:00 · 2002 阅读 · 0 评论 -
深入分析Tanh激活函数:数学特性、应用与洞见
tanh激活函数凭借其零中心性、对称性和平滑的非线性,在深度学习早期扮演了重要角色。原创 2025-03-24 13:44:27 · 1443 阅读 · 0 评论 -
大模型训练为什么选择交叉熵损失(Cross-Entropy Loss):均方误差(MSE)和交叉熵损失的深入对比
本文将从数学定义、理论特性、与 MSE 的对比,以及适用于分类任务的深刻原因等方面,详细剖析交叉熵损失,并提供一些独特的洞见。原创 2025-03-21 21:55:33 · 2272 阅读 · 0 评论 -
MSE分类时梯度消失的问题详解和交叉熵损失的梯度推导
数学推导和详细解释原创 2025-03-21 21:19:23 · 1337 阅读 · 0 评论 -
从离散迭代到连续 常微分方程(Ordinary Differential Equation, ODE):梯度流
本篇博客将面向具有大模型理论基础的研究者,以梯度下降为例,介绍 ODE 的概念、其与离散算法的联系,以及分析梯度流的价值。原创 2025-03-08 19:27:32 · 1120 阅读 · 0 评论 -
经典核密度估计(Kernel Density Estimation):从直觉到数学
KDE 的目标就是不假设分布的具体形式,而是直接从数据样本中“平滑”地构建一个近似分布。原创 2025-03-07 20:05:55 · 1238 阅读 · 0 评论 -
Fisher散度:从信息几何到机器学习的隐藏利器
Fisher散度通过得分函数差异量化分布距离,兼具理论优雅与实践威力。它在得分匹配和扩散模型中大放异彩,推导中的分部积分虽复杂,但最终形式清晰简洁,确保优化目标正确。原创 2025-02-25 15:36:52 · 1168 阅读 · 0 评论 -
Fisher信息矩阵与Hessian矩阵:区别与联系全解析
Fisher信息矩阵和Hessian矩阵是一对“亲戚”:Fisher是Hessian的期望版本,前者关注分布的统计信息,后者关注具体数据的曲率。原创 2025-02-24 23:02:27 · 1249 阅读 · 0 评论 -
Kronecker分解(K-FAC):让自然梯度在深度学习中飞起来
在神经网络中,梯度本质上是“输入”和“输出”交互的结果。K-FAC利用这一点,将Fisher信息矩阵分解为两部分的乘积,而不是直接处理整个权重矩阵的复杂关系。原创 2025-02-24 22:49:57 · 1300 阅读 · 0 评论 -
Fisher信息矩阵(Fisher Information Matrix, FIM)与自然梯度下降:机器学习中的优化利器
Fisher信息矩阵和自然梯度下降为机器学习提供了一种“聪明”的优化方式,通过捕捉参数空间的几何结构,避免普通梯度下降的盲目性。参数正交性则是锦上添花的关键:当参数间信息正交时,梯度方向分离,优化路径更清晰,训练效率更高。原创 2025-02-24 22:32:05 · 1555 阅读 · 0 评论 -
统计学中的得分函数(Score Function)是什么?它和Fisher信息矩阵有什么关系?
得分函数是对数似然函数的偏导数,是统计学中的“敏感探针”。它不仅帮助我们找到最大似然估计,还通过Fisher信息揭示参数的信息含量和不确定性。原创 2025-02-24 21:56:45 · 2167 阅读 · 0 评论 -
Fisher信息矩阵(Fisher Information Matrix,简称FIM)
Fisher信息矩阵是一个对称的方阵,用于描述概率密度函数(或概率质量函数)在其参数下的信息含量。简单来说,它告诉我们通过观测数据能够获得多少关于未知参数的信息。原创 2025-02-24 21:44:20 · 3682 阅读 · 0 评论 -
什么是Dirac分布?为什么用它来做MAP(最大后验估计, Maximum A Posteriori)?中英双语
It is not a probability distribution in the traditional sense because it is not defined in a standard probability space but in the framework of generalized functions or measures.原创 2024-12-28 14:31:08 · 1307 阅读 · 0 评论 -
以EM算法为例介绍坐标上升(Coordinate Ascent)算法:中英双语
The Coordinate Ascent method is a useful iterative approach to optimization, where only one parameter (coordinate) is updated at a time while others remain fixed.原创 2024-12-28 14:13:04 · 1230 阅读 · 0 评论 -
梯度(Gradient)和 雅各比矩阵(Jacobian Matrix)的区别和联系:中英双语
The gradient is a vector describing the rate of change of a scalar function, while the Jacobian matrix is a matrix describing the rate of change of a vector function.原创 2024-12-19 15:32:40 · 2147 阅读 · 0 评论 -
泰勒近似(Taylor Approximation)和雅可比矩阵(Jacobian Matrix):中英双语
we can approximate it near a specific point z using its first-order Taylor approximation原创 2024-12-19 14:55:59 · 1220 阅读 · 0 评论 -
矩阵论:Vector-Valued Linear and Affine Functions介绍:中英双语
Linear and affine functions form the backbone of many mathematical models, providing elegant and concise ways to represent transformations.原创 2024-12-19 14:29:40 · 714 阅读 · 0 评论 -
Selector Matrix 的应用:Image Cropping, Permutation Matrix, Down-sampling(中英双语)
Selector matrices are powerful tools for data selection and transformation. Their applications include cropping images, reordering data, and down-sampling signals, among others.原创 2024-12-19 13:20:50 · 917 阅读 · 0 评论 -
什么是 Selector 和 Selector Matrix?中英双语
Selector Matrices provide a powerful and efficient way to manipulate data by selecting, reversing, or slicing elements without explicitly copying them.原创 2024-12-19 13:09:16 · 728 阅读 · 0 评论 -
矩阵变换:Scaling、Dilation、Rotation 和 Reflection对应的中文是什么?(中英双语)
By multiplying matrices with vectors, we can perform a variety of geometric transformations.原创 2024-12-18 22:53:24 · 699 阅读 · 0 评论 -
Layer Norm 在序列特征中的鲁棒性: Understanding the Robustness of Layer Norm for Sequence Features (中英双语)
Robustness refers to a system's ability to perform well despite dynamic changes in input distribution, noise, or inconsistencies in the data原创 2024-12-14 18:21:35 · 790 阅读 · 0 评论 -
Layer Norm 提升训练稳定性的原理:解决权重初始值敏感性问题(中英双语)
By alleviating the sensitivity to weight initialization and improving gradient flow, Layer Norm has become an indispensable tool in modern NLP tasks.原创 2024-12-14 18:10:55 · 1178 阅读 · 0 评论 -
Layer Norm 如何处理不同长度的句子样本(含 Padding):中英双语
Its ability to normalize individual samples’ feature dimensions while accounting for padding ensures robust and stable training.原创 2024-12-14 17:59:10 · 1350 阅读 · 0 评论 -
以[Today is great] [ How are you]两句话为例:学习Batch Norm和Layer Norm
Batch Norm对整个 Batch 的每一列特征进行归一化,适合大批量输入的图像任务。Layer Norm对每个样本的每一行特征归一化,适合 Transformer 和 NLP 任务。原创 2024-12-14 17:10:19 · 707 阅读 · 0 评论 -
什么是正则化?Regularization: The Stabilizer of Machine Learning Models(中英双语)
By constraining model complexity, regularization ensures models are stable, generalizable, and less prone to overfitting.原创 2024-12-14 15:56:07 · 1231 阅读 · 0 评论 -
深入理解优化器:以 Adam 为例解析模型参数更新 (中英双语)
In machine learning and deep learning, optimizers play a critical role in training models by updating model parameters to minimize the loss function.原创 2024-12-12 12:03:44 · 3715 阅读 · 0 评论 -
Wishart分布与高斯协方差矩阵的贝叶斯推断: Wishart Distribution and Gaussian Covariance Matrix in Bayesian Inference
This example demonstrates how to infer the covariance matrix of a Gaussian distribution in a Bayesian framework, highlighting the role of the Wishart distribution as a conjugate prior.原创 2024-12-02 15:24:25 · 618 阅读 · 0 评论 -
多维高斯分布均值向量的推断: 一个经典的共轭分布应用案例 (中英双语)
This article demonstrated the Bayesian inference process for the mean vector of a multivariate Gaussian distribution and highlighted the importance of conjugate priors.原创 2024-12-02 15:03:17 · 792 阅读 · 0 评论