科学空间|Scientific Spaces

感谢国家天文台LAMOST项目之“宇宙驿站”提供网络空间和数据库资源! 感谢国家天文台崔辰州博士等人的多方努力和技术支持！

科学空间致力于知识分享，所以欢迎您转载本站文章，但转载本站内容必须遵循 署名-非商业用途-保持一致 的创作共用协议。

参与科学空间

为了保证你的利益，推荐你注册为本站会员。同时欢迎通过邮件或留言进行交流、建议或反馈科学空间的问题。
会员注册会员登录查看全站文章归档页

26 Dec

让炼丹更科学一些（四）：新恒等式，新学习率

By 苏剑林 | 2025-12-26 | 1903位读者 | Kimi 引用

上篇文章《让炼丹更科学一些（三）：SGD的终点损失收敛》中我们成功将收敛结论从平均损失转化成终点损失，得到了$\mathcal{O}(\sqrt{\ln T/T})$的收敛速度。然而，仔细思考之下我们会发现这个结果其实不大符合直觉：按照经验，终点损失应该更接近最优值才对，平均损失的收敛速度都能做到$\mathcal{O}(1/\sqrt{T})$，怎么终点收敛速度反而更慢呢？

这个问题的最新进展是《Optimal Linear Decay Learning Rate Schedules and Further Refinements》，论文先推广了之前证明的关键恒等式，然后指出学习率调度对终点收敛的重要性，由此将终点损失的收敛加速至$\mathcal{O}(1/\sqrt{T})$。

新恒等式

原论文的结果很丰富，我们将分多篇文章介绍，这篇文章主要顺着上一篇的思路先做个初步介绍。为了将平均损失的收敛结论转换成终点损失，上一篇文章引入的关键恒等式是
\begin{equation}q_T = \frac{1}{T}\sum_{t=1}^T q_t + \sum_{k=1}^{T-1} \frac{1}{k(k+1)}\sum_{t=T-k}^T (q_t - q_{T-k})\end{equation}

点击阅读全文...

分类：数学研究标签：学习率, 优化器, sgd, 炼丹阅读全文抢沙发

23 Dec

为什么DeltaNet要加L2 Normalize？

By 苏剑林 | 2025-12-23 | 3540位读者 | Kimi 引用

在文章《线性注意力简史：从模仿、创新到反哺》中，我们介绍了DeltaNet，它把Delta Rule带进了线性注意力中，成为其强有力的工具之一，并构成GDN、KDA等后续工作的基础。不过，那篇文章我们主要着重于DeltaNet的整体思想，并未涉及到太多技术细节——这篇文章我们来讨论其中之一：DeltaNet及其后续工作都给$\boldsymbol{Q}、\boldsymbol{K}$加上了L2 Normalize，这是为什么呢？

当然，直接从特征值的角度解释这一操作并不困难，但个人总感觉还差点意思。前几天笔者在论文《Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics》学习到了一个新理解，感觉也有可取之处，特来分享一波。

点击阅读全文...

分类：数学研究标签：微分方程, 线性, RNN, attention 阅读全文 2 评论

16 Dec

让炼丹更科学一些（三）：SGD的终点损失收敛

By 苏剑林 | 2025-12-16 | 4748位读者 | Kimi 引用

目前我们已经有两篇文章讨论SGD的收敛性质，不过它们都只是损失值的收敛结果，所以它们只保证我们能找到最优的损失值，但不能保证找到最优值的所在位置$\boldsymbol{\theta}^*$，这是目前的结论跟实践之间的一个显著gap。直觉上，训练结束时的权重$\boldsymbol{\theta}_T$应该更接近理论最优的$\boldsymbol{\theta}^*$，我们也想知道理论上是否支撑这一点。

所以，这篇文章我们就将平均损失的收敛结果转化为终点损失的收敛结果，初步从理论上了解$\boldsymbol{\theta}_T$与$\boldsymbol{\theta}^*$差多远。

找出位置

我们从文章《让炼丹更科学一些（二）：将结论推广到无界域》出发，它的核心结果是不等式
\begin{equation}\sum_{t=1}^T \eta_t \mathbb{E}[L(\boldsymbol{\theta}_t) - L(\boldsymbol{\varphi})]\leq \frac{\Vert\boldsymbol{\theta}_1 - \boldsymbol{\varphi}\Vert^2}{2} + \frac{G^2}{2}\sum_{t=1}^T \eta_t^2\label{leq:avg-2-mid3}\end{equation}

点击阅读全文...

分类：数学研究标签：不等式, 优化器, sgd, 炼丹阅读全文 5 评论

12 Dec

让炼丹更科学一些（二）：将结论推广到无界域

By 苏剑林 | 2025-12-12 | 6516位读者 | Kimi 引用

两年前，笔者打算开一个“科学炼丹”专题，本想着系统整理一下优化器的经典理论结果，但写了第一篇《让炼丹更科学一些（一）：SGD的平均损失收敛》后，就一直搁置至今。主要原因在于，笔者总觉得这些经典优化结论所依赖的条件过于苛刻，跟实际应用相去甚远，尤其是进入LLM时代后，这些结论的参考价值似乎更加有限，所以就没什么动力继续写下去。

然而，近期在思考Scaling Law的相关问题时，笔者发现这些结论结果并非想象中那么“没用”，它可以为一些经验结果提供有益的理论洞见。因此，本文将重启该系列，继续推进这个专题文章的撰写，“偿还”之前欠下的“债务”。

结论回顾

记号方面我们沿用第一篇文章的，所以不再重复记号的介绍。第一篇文章的主要结论是：在适当的假设之下，SGD成立
\begin{equation}\frac{1}{T}\sum_{t=1}^T L(\boldsymbol{x}_t,\boldsymbol{\theta}_t) - \frac{1}{T}\sum_{t=1}^T L(\boldsymbol{x}_t,\boldsymbol{\theta}^*)\leq \frac{R^2}{2T\eta_T} + \frac{G^2}{2T}\sum_{t=1}^T\eta_t\label{leq:avg-1}\end{equation}

点击阅读全文...

分类：数学研究标签：不等式, 优化器, sgd, 炼丹阅读全文 3 评论

5 Dec

滑动平均视角下的权重衰减和学习率

By 苏剑林 | 2025-12-05 | 9481位读者 | Kimi 引用

权重衰减（Weight Decay）和学习率（Learning Rate）是LLM预训练的重要组成部分，它们的设置是否妥当，是模型最终成败的关键因素之一。自AdamW以来，单独分离出Weight Decay来取代传统的L2正则，基本上已经成为了共识，但在此基础上，如何合理地设置Weight Decay和Learning Rate，并没有显著的理论进展。

本文将抛砖引玉，分享笔者关于这个问题的一些新理解：把训练过程看作对训练数据的滑动平均记忆，探讨如何设置Weight Decay和Learning Rate才能让这个记忆更为科学。

滑动平均

Weight Decay的一般形式是
\begin{equation}\boldsymbol{\theta}_t = \boldsymbol{\theta}_{t-1} - \eta_t (\boldsymbol{u}_t + \lambda_t \boldsymbol{\theta}_{t-1})\end{equation}

点击阅读全文...

分类：数学研究标签：最优, 梯度, 学习率, 平均场阅读全文 4 评论

24 Nov

生成扩散模型漫谈（三十一）：预测数据而非噪声

By 苏剑林 | 2025-11-24 | 22785位读者 | Kimi 引用

时至今日，LDM（Latent Diffusion Models）依旧是扩散模型的主流范式。借助Encoder对原始图像进行高倍压缩，LDM能显著减少训练与推理的计算成本，同时还能降低训难度，可谓一举多得。然而，高倍压缩也意味着信息损失，而且“压缩、生成、解压缩”的流水线也少了些端到端的美感。因此，始终有一部分人执着于“回到像素空间”，希望让扩散模型直接在原始数据上完成生成。

本文要介绍的《Back to Basics: Let Denoising Generative Models Denoise》正是这一思路的新工作，它基于原始数据往往处于低维子流形这一事实，提出模型应预测数据而不是噪声，由此得到“JiT（Just image Transformers）”，显著地简化了像素空间的扩散模型架构。

信噪之比

毋庸置疑，当今扩散模型的“主力军”依然是LDM，即便是前段时间颇为热闹的RAE，也只是声称LDM的Encoder已经“过时”了，要给它换一个新的更强的Encoder，但依然没改变“先压缩后生成”这一模式。

点击阅读全文...

分类：信息时代标签：损失函数, 生成模型, 扩散, 流形阅读全文 20 评论

19 Nov

Muon优化器指南：快速上手与关键细节

By 苏剑林 | 2025-11-19 | 24211位读者 | Kimi 引用

这段时间，相信很多读者已经刷到过Muon优化器的相关消息。实际上，Muon的提出时间大致是去年的10月份，由 Keller Jordan 在推特上提出，距今也不过一年多一点。然而，就在这一年里，Muon已经经历了百亿、千亿乃至万亿参数模型的训练考验，足以表明它是一个相当有竞争力的优化器。

如今，Muon已经内置在Torch、Keras等训练框架中，就连Megatron这样的大型框架也逐渐开始支持，这意味它已经获得了业界的普遍认可。不过，对于仅熟悉Adam的读者来说，如何快速有效地切换到Muon，可能依然是一件让人困惑的事情。所以，本文试图给出一个快速上手教程。

简要介绍

Muon的正式提出者是 Keller Jordan ，目前任职于OpenAI。开头说了，Muon最早发表在推特上，而直到现在，作者也只是多写了篇博客《Muon: An optimizer for hidden layers in neural networks》而不是一篇Paper，作者的观点是“是否写成Paper，跟优化器是否有效，没有任何关系^[原文]”。

点击阅读全文...

分类：信息时代标签：矩阵, 优化, 优化器, muon 阅读全文 20 评论

17 Nov

AdamW的Weight RMS的渐近估计（下）

By 苏剑林 | 2025-11-17 | 11202位读者 | Kimi 引用

在博客《AdamW的Weight RMS的渐近估计（上）》中，我们推导了AdamW训练出来的模型权重的RMS渐近表达式。不过，那会我们假设了Weight Decay和学习率在整个训练过程中是固定的，这跟实际训练并不完全吻合，所以这篇文章我们将之前的结论推广成动态版。

所谓动态版，即允许Weight Decay和学习率都随着训练步数的增加而变化，比如经典的Cosine Decay、WSD（Warmup Stable Decay）等，从而让结论更为通用。

步骤之一

我们的出发点还是AdamW的定义：
\begin{equation}\text{Adam}\color{skyblue}{\text{W}}:=\left\{\begin{aligned}
&\boldsymbol{m}_t = \beta_1 \boldsymbol{m}_{t-1} + \left(1 - \beta_1\right) \boldsymbol{g}_t\\
&\boldsymbol{v}_t = \beta_2 \boldsymbol{v}_{t-1} + \left(1 - \beta_2\right) \boldsymbol{g}_t^2\\
&\hat{\boldsymbol{m}}_t = \boldsymbol{m}_t\left/\left(1 - \beta_1^t\right)\right.\\
&\hat{\boldsymbol{v}}_t = \boldsymbol{v}_t\left/\left(1 - \beta_2^t\right)\right.\\
&\boldsymbol{u}_t =\hat{\boldsymbol{m}}_t\left/\left(\sqrt{\hat{\boldsymbol{v}}_t} + \epsilon\right)\right.\\
&\boldsymbol{\theta}_t = \boldsymbol{\theta}_{t-1} - \eta_t (\boldsymbol{u}_t \color{skyblue}{ + \lambda_t \boldsymbol{\theta}_{t-1}})
\end{aligned}\right.\end{equation}

点击阅读全文...

分类：数学研究标签：微分方程, 估计, 梯度, 优化器, 平均场阅读全文抢沙发

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

参与科学空间

让炼丹更科学一些（四）：新恒等式，新学习率

新恒等式

为什么DeltaNet要加L2 Normalize？

让炼丹更科学一些（三）：SGD的终点损失收敛

找出位置

让炼丹更科学一些（二）：将结论推广到无界域

结论回顾

滑动平均视角下的权重衰减和学习率

滑动平均

生成扩散模型漫谈（三十一）：预测数据而非噪声

信噪之比

Muon优化器指南：快速上手与关键细节

简要介绍

AdamW的Weight RMS的渐近估计（下）

步骤之一

关于站长

智能搜索

热门标签

最新文章

最近评论

友情链接