【架构革命】Transformer“杀手”来了！谷歌DeepMind推出MoR架构，动态路由实现推理2倍速！

算家计算

于 2025-07-17 17:20:31 发布

阅读量352

点赞数 7

CC 4.0 BY-SA版权

分类专栏：话题文章文章标签：架构 transformer 深度学习大语言模型 MoR架构算家云租算力，到算家云

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SJJS_1/article/details/149426190

话题文章专栏收录该内容

155 篇文章

订阅专栏

在人工智能领域，大型语言模型（LLMs）的“大而笨”问题一直备受诟病。尽管模型参数规模不断膨胀，但处理长文本时的性能衰减、计算资源浪费等问题始终难以解决。不过，谷歌DeepMind最新推出的MoR架构，或许为这一难题提供了破局之道。

刚刚，谷歌 DeepMind 推出了名为 Mixture-of-Recursions（MoR）的全新大型语言模型（LLM）架构，被认为是有潜力成为“Transformer杀手”的革命性架构。

传统模型的困境

一直以来，Transformer 架构都是大语言模型的 “顶梁柱”，但随着研究的深入，其局限性也逐渐显露。

例如，当我们向AI模型输入一篇长文时，经常会出现一个问题：它前半部分还能准确回答问题，后半部分却开始“胡言乱语”。而这并非偶然，近期研究揭示，现有大模型在处理长文本时存在显著的性能衰减，不同模型“失智”的节点各不相同——有的模型在读到第10页书时就出现性能骤降，有的则能坚持到第100页。

这种性能衰减的根源在于传统Transformer架构的固有缺陷。Transformer通过堆叠层数来提升模型能力，但这种方式导致计算资源被均匀分配，无论token的复杂程度如何。简单token（如连词、助词）和复杂token（如专业术语、长句）被一视同仁地处理，造成大量冗余计算。同时，长文本下的KV缓存（键值缓存）机制占用巨额内存，进一步限制了模型效率。

为了解决这些难题，研究者们在两个方向上积极探索：一是通过权重共享提升参数效率，二是根据输入复杂度动态分配计算资源，实现自适应计算。

MoR 架构的出现，正是将这两种思路巧妙融合，为大语言模型的发展开辟了新路径。

MoR架构：动态分配资源的“智能调度员”

MoR 框架引入了一种统一方法，同时实现参数共享和自适应计算。它将动态 token 级路由集成到参数高效的递归 Transformer 中，创造出一种协同架构，有望实现 “无需承担大模型成本的大模型质量”。

简单来说，MoR 就像是一个聪明的管家，能够精准地判断每个任务（token）需要多少资源（计算资源），然后合理分配，既不浪费，又能把事情办好。

在技术实现上，MoR 通过端到端训练轻量级的路由，为每个 token 分配专属的递归深度。它会根据每个 token 所需的思考深度，决定共享参数模块对其重复应用的次数，从而将计算资源精准地投放到最需要的地方。

这种基于 token 的动态递归机制，还天然支持递归级的键值（KV）缓存，能够根据每个 token 所分配的递归深度，有选择地存储和检索对应的键值对，大大降低了内存带宽压力，无需后处理操作就能提升推理吞吐量。

总的来说，MoR 在一个统一架构中同时实现了三项重要优化。分是参数共享、计算路由和递归级缓存。

为了验证 MoR 架构的优势，研究团队进行了一系列实验。在等效的训练预算（16.5×10¹⁸FLOPs）下，将 MoR 模型与原始 Transformer 及递归 Transformer 进行比较。

结果显示，采用专家选择路由和两层递归（N_r = 2）的 MoR 模型，实现了更低的验证损失，并在少样本学习平均准确率上超越基线（43.1% 对比 42.3%）。尽管 MoR 的参数量减少了近 50%，性能却更优，这充分证明了其计算效率之高。

当然，MoR 架构也在不断探索和优化中。研究人员评估了不同路由与缓存策略对其性能的影响。例如，采用 “token 选择路由” 时准确率较低（40.0%），而 “专家选择路由” 表现更好（42.6%），表明路由粒度对模型性能具有关键影响。

此外，采用 KV 缓存共享虽略微降低了性能，但显著提升了内存效率，在对内存占用有要求的部署场景中，这种性能与资源之间的权衡是可以接受的。

总体而言，MoR 在所有模型规模和计算预算下都稳定优于递归基线模型。在参数量超过 360M 时，MoR 不仅能够追平，而且在低至中等预算下常常超越原始 Transformer。

MoR 架构的出现，无疑为大语言模型的发展注入了新的活力。它有望在未来大幅提升模型效率，降低训练和部署成本，让大语言模型在更多领域得以应用和普及。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。