2024 年最具影响力的AI论文 Part 1

来源:【2024年终总结】2024 年最具影响力的AI论文 Part 1

对于刚刚过去的 2024 年,有哪些论文值得反复阅读?

知名机器学习与 AI 研究者 Sebastian Raschka 整理了一份关于LLM 的阅读清单(LLM Research Papers: The 2024 List),清单详细介绍了每个月都有哪些重要论文产出。

图片

原文链接:https://sebastianraschka.com/blog/2024/llm-research-papers-the-2024-list.html

全面回顾 2024 年所有的重大研究亮点,恐怕需要写一本书才行。Sebastian Raschka 聚焦 LLM 的研究,分享一些既有趣又有影响力的研究论文,选择每月重点介绍一篇论文。

这篇文章的第一部分,聚焦于 2024 年上半年(1 月至 6 月)的研究论文。第二部分将涵盖 7 月至 12 月的内容,预计会在 1 月晚些时候分享。

Part 1:2024年 1 月至 6 月最具影响力的 6 篇AI论文

Part 2:2024年 7 月至 12 月最具影响力的 6 篇AI论文

2024年1月:Mixtral 的混合专家模型(Mixture of Experts)

2024 年 1 月 8 日,Mistral AI 团队发布了 Mixtral of Experts 论文。该论文介绍了 Mixtral 8x7B,一种稀疏混合专家模型(Sparse Mixture of Experts,简称 SMoE)。

这篇论文和模型在当时都非常有影响力,因为 Mixtral 8x7B 是首批开放重量级 MoE LLM(之一):它在各种基准测试中都优于 Llama 2 70B 和 GPT-3.5。

  • 论文:Mixtral of Experts

  • 论文地址:https://arxiv.org/abs/2401.04088

1.1 理解 MoE 模型

MoE,即混合专家模型,是一种集成模型,它将几个较小的“专家”子网络组合在类似 GPT 的解码器架构中。每个子网络负责处理不同类型的任务,或者更具体地说,处理不同的 token。MoE 的核心理念是,通过使用多个较小的子网络替代一个大型网络,MoE 模型能更高效地分配计算资源。

具体来说,在 Mixtral 8x7B 中,用 8 个专家层替换 Transformer 架构中的每个前馈模块(Feed-Forward Module),如下图所示。

图片

这种设计极大地优化了计算效率。

在“稀疏混合专家”(Sparse Mixture of Experts)模型中,“稀疏”(Sparse)指的是在任意时刻,只有专家层的子集(在 Mixtral 8x7B 中通常是 8 个中的 1 到 2 个)被激活,用于处理一个 token。

如上图所示,子网络取代了 LLM 中的前馈模块。前馈模块本质上是一个多层感知器(MLP)。

此外,Mixtral 模型中还包含一个路由模块(Router Module,也称为门控网络,Gating Network),该模块将每个 token 嵌入重定向到 8 个专家前馈模块中的某一个。这 8 个专家前馈层的输出随后被汇总。

图片

想要更详细地了解 Mixtral 模型,可以阅读之前的文章《模型合并、专家混合以及面向小型 LLM》。

  • 文章:Model Merging, Mixtures of Experts, and Towards Smaller LLMs

  • 文章链接:https://magazine.sebastianraschka.com/i/141130005/mixtral-of-experts

1.2 MoE 模型的现实意义

2024年初,Sebastian Raschka 原以为开放权重的 MoE 模型会比现在在更受欢迎、应用更广泛。

虽然它们并非无关紧要,但许多最先进的模型仍然依赖于密集(传统)LLM 而不是 MoE,例如 Llama 3、Qwen 2.5、Gemma 2 等。然而,对于一些专有架构(比如 GPT-4、Gemini 和 Claude)的底层设计,我们无法得知是否使用了 MoE 结构,它们可能在内部采用了 MoE。

无论

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值