文章主要内容总结
本文提出了一种新的低秩适应方法SingLoRA,旨在解决传统低秩适应(LoRA)方法中存在的训练不稳定性和参数效率问题。传统LoRA通过两个矩阵(A和B)的乘积对预训练权重进行低秩更新,但矩阵A和B的尺度差异会导致梯度消失或爆炸,影响训练稳定性和性能。
SingLoRA通过单个低秩矩阵A的转置乘积(A Aᵀ) 重构低秩更新,实现了对称的权重更新(W₀ + A Aᵀ)。这种设计从根本上消除了矩阵间的尺度冲突,保证了训练稳定性,同时将可学习参数数量减少约一半。
实验验证了SingLoRA的优势:在自然语言推理任务(如MNLI)中,微调LLaMA 7B模型时准确率达91.3%,超过LoRA(89.1%)和LoRA+(90.2%),且仅使用其60%的参数;在图像生成任务(如DreamBooth微调Stable Diffusion)中,DINO相似度得分达0.151,优于DoRA(0.148)和LoRA(0.143)。
创新点
- 结构重构:用单个低秩矩阵A的转置乘积(A Aᵀ)替代LoRA中两个矩阵(B A)的乘积,消除矩阵间尺度差异,从设计上保证训练稳定性。
- 参数高效:可学习参数数量较LoRA减少约50%,在相同任务中用更少参数实现更优性能。
- 普适性强:适用于方形和非方形权重矩阵,兼容Transformer等多种架构,在自然语言处理和图像生成等领域均表现优异。