推动专家混合模型的极限：用于指令调优的极端参数高效MoE

原创

已于 2024-11-03 20:53:14 修改 · 1.1k 阅读

·

24

·

文章标签：

#语言模型 #人工智能 #自然语言处理 #微调 #大模型微调 #指令调优 #调优

于 2024-09-29 14:06:03 首次发布

人工智能咨询培训老师叶梓转载标明出处

MoE是一种在特定子任务上具有专门化子模型（专家）的神经网络架构，这些子模型可以独立优化，以提高整体性能。然而，传统的MoE在大规模应用时面临挑战，因为需要在内存中存储所有专家。这不仅增加了内存的需求，而且在完全微调（full fine-tuning）时计算成本极高。为了克服这些限制，Cohere for AI的研究团队提出了一种极端参数高效的MoE方法。该方法通过将MoE架构与轻量级专家相结合，实现了在只更新不到1%的参数的情况下，与全参数微调相媲美的性能。这种方法不仅在未见任务上具有良好的泛化能力，而且不依赖于任何先验任务知识。

论文链接：https://arxiv.org/pdf/2309.05444

项目链接：GitHub - for-ai/parameter-efficient-moe

方法

研究者们将任务集划分为训练任务（Ttrain）和评估任务（Teval），即。基础预训练模型首先在训练任务上进行微调，然后在评估任务上的每个未见任务进行零样本评估。标准方法是微调所有模型参数，这导致计算和内存成本高。

研究者们将专家混合（MoE）架构推向参数效率的极端，使用参数高效微调（PEFT）方法。PEFT 方法通过限制权重更新至有限数量的参数，解决了在大规模完全微调大型语言模型（LLM）时出现的与更新大量参数相关的挑战。

(IA)3 方法：引入三个新向量 , ,

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。