【每日论文】Forgetting Transformer: Softmax Attention with a Forget Gate-CSDN博客

本文链接：https://blog.csdn.net/weixin_40240616/article/details/146169870

下载PDF或查看论文，请点击：LlamaFactory - huggingface daily paper - 每日论文解读 | LlamaFactory | LlamaFactory

摘要

现代循环序列模型的一个关键组件是遗忘门。虽然Transformer没有显式的循环形式，但我们展示了一种通过以数据依赖的方式降低未归一化注意力分数的自然方法，将遗忘门融入Transformer。我们称这种注意力机制为“遗忘注意力”，并将由此产生的模型称为“遗忘Transformer”（FoX）。我们表明，FoX在长上下文语言建模、长度外推和短上下文下游任务上优于Transformer，而在长上下文下游任务上的表现与Transformer相当。此外，它兼容FlashAttention算法，且不需要任何位置嵌入。包括“大海捞针”测试在内的多项分析显示，FoX也保留了Transformer在长上下文能力上的优势，超过了Mamba-2、HGRN2和DeltaNet等循环序列模型。我们还引入了一种“Pro”块设计，该设计结合了循环序列模型中的一些常见架构组件，并发现它显著提高了FoX和Transformer的性能。我们的代码可在https://github.com/zhixuan-lin/forgetting-transformer上获取。

一句话总结

提出了一种名为“遗忘Transformer”（FoX）的新型Transformer变体，通过引入遗忘门机制，在长上下文语言建模、长度外推和短上下文下游任务中优于Transformer，同时保持了Transformer的长上下文检索能力。

问题1：这篇论文想要解决什么具体问题？

问题背景：尽管Transformer在处理长上下文信息方面表现出色，但它缺乏一种显式的机制来以数据依赖的方式忘记过去的信息。这种机制在循环序列模型中很常见，并且在短上下文任务中已被证明是至关重要的。
现有方案不足：现有的循环序列模型虽然具有忘记过去信息的机制，但在长上下文能力方面表现不佳，而Transformer虽然在长上下文信息处理上出色，但缺乏忘记过去信息的机制。
研究目标：提出一种将遗忘门机制自然地集成到Transformer中的方法，从而在保持Transformer长上下文能力的同时，提高其在短上下文任务上的性能。