在人工智能领域,大型语言模型(LLMs)的“大而笨”问题一直备受诟病。尽管模型参数规模不断膨胀,但处理长文本时的性能衰减、计算资源浪费等问题始终难以解决。不过,谷歌DeepMind最新推出的MoR架构,或许为这一难题提供了破局之道。
刚刚,谷歌 DeepMind 推出了名为 Mixture-of-Recursions(MoR)的全新大型语言模型(LLM)架构,被认为是有潜力成为“Transformer杀手”的革命性架构。
传统模型的困境
一直以来,Transformer 架构都是大语言模型的 “顶梁柱”,但随着研究的深入,其局限性也逐渐显露。
例如,当我们向AI模型输入一篇长文时,经常会出现一个问题:它前半部分还能准确回答问题,后半部分却开始“胡言乱语”。而这并非偶然,近期研究揭示,现有大模型在处理长文本时存在显著的性能衰减,不同模型“失智”的节点各不相同——有的模型在读到第10页书时就出现性能骤降,有的则能坚持到第100页。
这种性能衰减的根源在于传统Transformer架构的固有缺陷。Transformer通过堆叠层数来提升模型能力,但这种方式导致计算资源被均匀分配,无论token的复杂程度如何。简单token(如连词、助词)和复杂token(如专业术语、长句)被一视同仁地处理,造成大量冗余计算。同时,长文本下的KV缓存(键值缓存)机制占用巨额内存,进一步限制了模型效率。
为了解决这些难题,研究者们在两个方向上积极探索:一是通过权重共享提升参数效率,二是根据输入复杂度动态分配计算资源,实现自适应计算。
MoR 架构的出现,正是将这两种思路巧妙融合,为大语言模型的发展开辟了新路径。
MoR架构:动态分配资源的“智能调度员”
MoR 框架引入了一种统一方法,同时实现参数共享和自适应计算。它将动态 token 级路由集成到参数高效的递归 Transformer 中,创造出一种协同架构,有望实现 “无需承担大模型成本的大模型质量”。
简单来说,MoR 就像是一个聪明的管家,能够精准地判断每个任务(token)需要多少资源(计算资源),然后合理分配,既不浪费,又能把事情办好。
在技术实现上,MoR 通过端到端训练轻量级的路由,为每个 token 分配专属的递归深度。它会根据每个 token 所需的思考深度,决定共享参数模块对其重复应用的次数,从而将计算资源精准地投放到最需要的地方。
这种基于 token 的动态递归机制,还天然支持递归级的键值(KV)缓存,能够根据每个 token 所分配的递归深度,有选择地存储和检索对应的键值对,大大降低了内存带宽压力,无需后处理操作就能提升推理吞吐量。
总的来说,MoR 在一个统一架构中同时实现了三项重要优化。分是参数共享、计算路由和递归级缓存。
为了验证 MoR 架构的优势,研究团队进行了一系列实验。在等效的训练预算(16.5×10¹⁸FLOPs)下,将 MoR 模型与原始 Transformer 及递归 Transformer 进行比较。
结果显示,采用专家选择路由和两层递归(N_r = 2)的 MoR 模型,实现了更低的验证损失,并在少样本学习平均准确率上超越基线(43.1% 对比 42.3%)。尽管 MoR 的参数量减少了近 50%,性能却更优,这充分证明了其计算效率之高。
当然,MoR 架构也在不断探索和优化中。研究人员评估了不同路由与缓存策略对其性能的影响。例如,采用 “token 选择路由” 时准确率较低(40.0%),而 “专家选择路由” 表现更好(42.6%),表明路由粒度对模型性能具有关键影响。
此外,采用 KV 缓存共享虽略微降低了性能,但显著提升了内存效率,在对内存占用有要求的部署场景中,这种性能与资源之间的权衡是可以接受的。
总体而言,MoR 在所有模型规模和计算预算下都稳定优于递归基线模型。在参数量超过 360M 时,MoR 不仅能够追平,而且在低至中等预算下常常超越原始 Transformer。
MoR 架构的出现,无疑为大语言模型的发展注入了新的活力。它有望在未来大幅提升模型效率,降低训练和部署成本,让大语言模型在更多领域得以应用和普及。