探索和构建 LLaMA 3 架构：深入探究组件、编码和推理技术

本文链接：https://blog.csdn.net/ms44/article/details/141280676

Meta 正在加大在人工智能 (AI) 竞赛中的力度，推出了新的开源 AI 模型 Llama 3 以及新版 Meta AI。这款虚拟助手由 Llama 3 提供支持，现已在所有 Meta 平台上可用。

以下是您需要了解的有关 Meta 最新大型语言模型 (LLM) 和 AI 助手的所有信息。

什么是 Llama 3？

Meta 推出了 Llama 3，这是其 Llama 系列开源 AI 模型中的最新产品。Llama 3 有两种版本：一种具有 80 亿个参数，另一种具有 700 亿个参数。

Meta 声称 Llama 3 在这些参数规模上为大型语言模型树立了新标准。他们改进了训练前和训练后流程，从而降低了错误拒绝率、提高了对齐效果，并提高了模型的响应多样性。值得注意的是，Llama 3 在推理、代码生成和指令跟踪方面的能力得到了增强。

技术规格

LLaMA 建筑事务所：

与前代模型之间的关键区别在于，预训练语料库的大小增加了 650%（LLaMA — 2 在 2T 标记上进行训练，而 LLaMA — 3 在 15T 标记上进行训练），在 8B 和 70B 模型上都将模型的上下文长度从 4K 增加了一倍至 8K，并且与上一代相比，8B 和 70B 变体都采用了分组查询注意（GQA）仅在更大的模型 34B 和 70B 中使用。我认为影响最大的部分是新的安全方法，包括针对安全性和帮助性的两种奖励模型。

LLaMA 3 吸收了上一代车型的架构

火焰 3：

模型大小、架构、优化超参数

Meta llama GitHub：llama3/MODEL_CARD.md at main·meta-llama/llama3 (github.com)

火焰2：

模型大小、架构、优化超参数

火焰 1：

LLaMA 建筑

LLaMA 3 架构主要吸收了与 LLaMA 2 相同的架构，8B 和 70B 模型中均使用了 GQA（分组查询注意），RoPE（旋转位置嵌入）用于 Q、K，因为 V 仅在应用 SoftMax 函数之前相乘，RMS（均方根误差）用于在自我注意之前应用的规范化，前馈块、KV 缓存也与 LLMA 中使用的相同

注意：该模型架构仅专注于推理模型，而不是用于训练，因此不包括具有交叉注意的解码器块，并且 KV 缓存不会用于模型的训练阶段。

现在让我们更深入地了解每个组件。