探索和构建 LLaMA 3 架构:深入探究组件、编码和推理技术

Meta 正在加大在人工智能 (AI) 竞赛中的力度,推出了新的开源 AI 模型 Llama 3 以及新版 Meta AI。这款虚拟助手由 Llama 3 提供支持,现已在所有 Meta 平台上可用。

以下是您需要了解的有关 Meta 最新大型语言模型 (LLM) 和 AI 助手的所有信息。

什么是 Llama 3?

Meta 推出了 Llama 3,这是其 Llama 系列开源 AI 模型中的最新产品。Llama 3 有两种版本:一种具有 80 亿个参数,另一种具有 700 亿个参数。

Meta 声称 Llama 3 在这些参数规模上为大型语言模型树立了新标准。他们改进了训练前和训练后流程,从而降低了错误拒绝率、提高了对齐效果,并提高了模型的响应多样性。值得注意的是,Llama 3 在推理、代码生成和指令跟踪方面的能力得到了增强。

© 由 Meta 提供

技术规格

LLaMA 建筑事务所:

与前代模型之间的关键区别在于,预训练语料库的大小增加了 650%(LLaMA — 2 在 2T 标记上进行训练,而 LLaMA — 3 在 15T 标记上进行训练),在 8B 和 70B 模型上都将模型的上下文长度从 4K 增加了一倍至 8K,并且与上一代相比,8B 和 70B 变体都采用了分组查询注意(GQA)仅在更大的模型 34B 和 70B 中使用。我认为影响最大的部分是新的安全方法,包括针对安全性和帮助性的两种奖励模型。

LLaMA 3 吸收了上一代车型的架构

火焰 3:

模型大小、架构、优化超参数

Meta llama GitHub:llama3/MODEL_CARD.md at main·meta-llama/llama3 (github.com)

火焰2:

模型大小、架构、优化超参数

火焰 1:

LLaMA 建筑

LLaMA 3 架构主要吸收了与 LLaMA 2 相同的架构,8B 和 70B 模型中均使用了 GQA(分组查询注意),RoPE(旋转位置嵌入)用于 Q、K,因为 V 仅在应用 SoftMax 函数之前相乘,RMS(均方根误差)用于在自我注意之前应用的规范化,前馈块、KV 缓存也与 LLMA 中使用的相同

注意:该模型架构仅专注于推理模型,而不是用于训练,因此不包括具有交叉注意的解码器块,并且 KV 缓存不会用于模型的训练阶段。

现在让我们更深入地了解每个组件。

RoPE(旋转位置编码)

在深入研究 RoPE 之前,了解绝对位置编码和相对编码之间的区别非常重要。

绝对位置编码是添加到标记嵌入中的固定向量,以表示其在句子中的绝对位置。因此,它一次处理一个标记。您可以将其视为地图上的一对(纬度,经度):地球上的每个点都会有一对唯一的标记。

另一方面,相对位置编码每次处理两个标记,并且在我们计算注意力时会涉及它:由于注意力机制捕获两个单词彼此相关的“强度”,因此相对位置编码会告诉注意力机制其中涉及的两个单词之间的距离。因此,给定两个标记,我们创建一个表示它们距离的向量。

旋转位置编码可以被认为是绝对位置嵌入和相对位置嵌入之间的中间点,因为每个标记都有一个固定或绝对的嵌入值,并且与其极坐标形式的内部点积相乘,该极坐标形式相对于二维平面上向量的旋转。

  • 注意力机制中用到的点积是内积的一种,可以看作是点积的泛化。
  • 我们能否找到注意力机制中使用的两个向量q(查询)和k (键)的内积,该内积仅取决于这两个向量以及它们所代表的标记的相对距离?

  • 我们可以定义如下所示的函数g,它仅取决于两个嵌入向量qk及其相对距离。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拉达曼迪斯II

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值