逐行对比LLaMA2和LLaMA模型源代码

原创

已于 2023-07-23 09:41:26 修改 · 5.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #自然语言处理 #人工智能

于 2023-07-19 05:43:28 首次发布

本文对比了Meta发布的LLaMA2与原始LLaMA模型的源代码，发现主要变化在于增加了一个repeat_kv函数，用于在多头注意力机制中处理键值头数不足的情况。这个函数可能支持分组查询注意力机制，减少计算和存储需求。在推理函数上，LLaMA2从仅输出最后一步概率改为输出每个位置的词汇概率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

几个小时前（2023年7月18日），Meta发布了允许商用的开源模型LLaMA2。笔者逐行对比了LLaMA2模型源代码，和LLaMA相比，几乎没有改动，细节如下：

	是否改动	LLaMA2	LLaMA
模型整体构架	无	Transformer	Transformer
规范化函数	无	均方根规范化（RMSNorm）	均方根规范化（RMSNorm）
位置编码	无	复数形式的旋转位置编码（RoPE）	复数形式的旋转位置编码（RoPE）
激活函数	无	SiLU	SiLU
注意力机制	略有改动	分组查询多头注意力机制	多头注意力机制
前馈函数	无	逐元素前馈函数	逐元素前馈函数
连接	无	残差连接	残差连接
掩码	无	因果掩码	因果掩码
推理	<

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chattyfish

关注关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【LLM】LLama2模型（RMSNorm、SwiGLU、RoPE位置编码）

发现问题，并解决问题，批判性思维

03-16

3229

预训练语言模型除了自回归（Autoregressive）模型GPT，还有自编码模型（Autoencoding）BERT[1]、编-解码（Encoder-Decoder）模型BART[67]，以及融合上述三种方法的自回归填空（Autoregressive Blank Infilling）模型GLM（General Language Model）[68]。 ChatGPT的出现，使得目前几乎所有大语言模型神经网络结构趋同，采用自回归模型，基础架构与GPT-2相同，但在归一化函数、激活函数及位置编码等细节方面有所

Llama模型家族之使用 Supervised Fine-Tuning（SFT）微调预训练Llama 3 语言模型（六）Llama 3 已训练的大模型合并LoRA权重参数

大模型与Agent智能体

05-24

883

1、Llama开源模型家族大模型技术、工具和多模态详解：学员将深入了解Meta Llama 3的创新之处，比如其在语言模型技术上的突破，并学习到如何在Llama 3中构建trust and safety AI。8、Llama 3中的DPO原理、算法、组件及具体实现及算法进阶：学习Llama 3中结合使用PPO和DPO算法，剖析DPO的原理和工作机制，详细解析DPO中的关键算法组件，并通过综合项目八从零开始动手实现和测试DPO算法，同时课程将解密DPO进阶技术Iterative DPO及IPO算法。

参与评论您还未登录，请先登录后发表或查看评论

LLaMA系列 | LLaMA和LLaMA-2精简总结

weixin_43646592的博客

08-01

8518

LLaMA系列 | LLaMA和LLaMA-2精简总结

[NLP]LLaMA与LLamMA2解读

摩登都市天空---专栏

07-26

5774

LLaMA是一个系列模型，模型参数量从7B到65B。在大部分的任务上，LLaMA-13B强于GPT-3(175B)。LLaMA-65B的性能，可以和最好的LM相媲美，如Chinchilla-70B 和 PaLM-540B。

GQA（Grouped Query Attention）：分组注意力机制的原理与实践《一》

guoguozgw的博客

06-04

804

GQA 是一种将查询头（Query Heads）分组，并共享键（Key）和值（Value）头的注意力机制变体。它试图在标准的多头注意力（MHA）和多查询注意力（MQA）注意力类型共享情况MHA多个多个不共享GQA多个少于 Query 的多个分组共享MQA多个1完全共享项目GQA类型注意力机制变体核心思想Query 分组 + Key/Value 共享优点提升推理速度、降低内存消耗、兼顾模型表现缺点表达能力略低于 MHA应用大语言模型部署、高效推理系统。

LLMs之LLaMA-2：LLaMA-2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

07-19

1万+

LLMs之LLaMA-2：LLaMA-2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略目录相关文章 LLaMA2的简介 LLaMA2的简介 LLaMA2的安装 LLaMA2的使用方法相关文章理论论文相关 LLMs：《Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca-4月17日版》翻

2023年的深度学习入门指南(19) - LLaMA 2源码解析

lusing的专栏

07-25

4622

上一节我们学习了LLaMA 2的补全和聊天两种API的使用方法。本节我们来看看LLaMA 2的源码。

【LLM系列之LLaMA2】LLaMA 2技术细节详细介绍！

yanqianglifei的专栏

07-19

6369

🧮 7B、13B & 70B 参数版本🧠 70B模型采用分组查询注意力（GQA）🛠 聊天模型可以使用工具和插件🚀 LLaMA 2-CHAT 与 OpenAI ChatGPT 效果一样好🤗 发布在HuggingFace：https://huggingface.co/meta-llama公告: https://ai.meta.com/llama/

Llama开源代码详细解读（1）：工具包

m0_75077001的博客

07-29

992

logging,utf-8是用于表示unicode字符的编码方式，是互联网标准编码之一。utf-8用1-4个字节表示每个字符。单字节的字符，第一位设为0，后面7位为该符号的Unicode码，对于英文字母，unicode与ASCII编码相同。对于n字节的字符，第一个字节的前n位均设为1，第n+1位设为0，后面字节的前两位均设置为10，剩下的没有提及的，就是该字符的Unicode码。math工具包提供了对于数学函数的访问，具体在接下来用到再说。

【模型结构】LLaMA: Open and Efficient Foundation Language Models

cjy_colorful0806的博客

08-08

1122

这项工作的重点是训练一系列语言模型，通过训练比通常情况下更多的词块，在各种推理预算下实现最佳性能。由此产生的模型称为 LLaMA（7B-65B）。

深入解析LLaMA-2：逐行解读全部Python源码及示例

daimakezhan_cn_d的博客

06-11

934

1.3、利用生成器的text_completion方法针对每个提示生成文本，传入文本提示列表 prompts 以及其他参数**

AI_Conf的博客

08-08

557

63位4个机构学者共同合作的 AI for Science综述，论文指出了人工智能在量子、原子和连续系统科学中所面临的一些问题，讨论了其他一些常见的技术挑战，提供了一些学习和教育资源的分类列表，旨在促进AI for Science领域的进一步研究和发展。文章旨在介绍基于图神经网络的图分类和链路预测方法，首先详细介绍了图卷积神经网络的基本原理，然后阐述了基于注意力机制和自编码器的图神经网络模型，总结了它们在节点分类、图分类和链路预测等任务中的应用以及相关数据集。AI在过去的时间中，不断表现出惊人的能力。

Meta最新模型LLaMA细节与代码详解

最新发布

06-28

Langchain-Chatchat 是一个基于 LangChain 框架开发的中文对话系统，其主要目标是通过整合多种自然语言处理技术，实现对用户输入的理解与响应。该项目结合了大模型（如 LLM）、向量数据库、检索增强生成（RAG）等技术，构建了一个可扩展的对话式 AI 系统。 ### 项目结构分析 Langchain-Chatchat 的源代码通常分为以下几个核心模块： - **知识库管理**：支持将文档（如 PDF、TXT、Word 等）导入为向量形式，并存储在向量数据库中。这一过程依赖于嵌入模型（如 `text2vec` 或 `sentence-transformers`）进行文本编码[^1]。 - **检索模块**：使用 FAISS、Milvus 或其他向量搜索引擎进行高效相似度匹配，从而实现基于语义的问答检索。 - **对话接口层**：封装了与大模型交互的逻辑，包括调用本地部署的 LLM（如 ChatGLM、Llama 系列）或远程 API（如 OpenAI、阿里云百炼等）。 - **Web 前端界面**：提供可视化操作界面，支持用户上传文档、发起对话、查看历史记录等功能。 ### 核心类与函数解析 #### `KnowledgeBaseService` 该类负责知识库的增删改查操作，其核心方法包括： ```python class KnowledgeBaseService: def add_document(self, file_path: str): # 将文件内容读取并切分为文本块 texts = self._split_text(file_path) # 使用嵌入模型生成向量 vectors = self.embedding_model.encode(texts) # 存入向量数据库 self.vector_store.add_vectors(vectors, texts) def search(self, query: str, top_k: int = 5): # 查询最相似的 top_k 条结果 return self.vector_store.similarity_search(query, top_k) ``` #### `ChatEngine` 该类封装了对话引擎的核心流程，包括检索与生成： ```python class ChatEngine: def __init__(self, llm, knowledge_base): self.llm = llm self.knowledge_base = knowledge_base def respond(self, user_input: str): # 检索相关知识 retrieved_docs = self.knowledge_base.search(user_input) # 构建上下文提示词 context = "\n".join([doc.content for doc in retrieved_docs]) prompt = f"根据以下资料回答问题：\n{context}\n\n问题：{user_input}" # 调用大模型生成答案 return self.llm.generate(prompt) ``` ### 配置与部署 Langchain-Chatchat 支持多种部署方式，包括本地运行和容器化部署。配置文件通常位于 `configs/` 目录下，包含模型路径、向量数据库连接信息、API 密钥等内容。例如： ```yaml # configs/settings.yaml model: name: chatglm path: /models/chatglm-6b vectorstore: type: faiss path: ./data/vectorstore embedding: model_name: text2vec-base-chinese path: /models/text2vec-base-chinese ``` 启动服务时可通过命令行参数指定配置文件： ```bash python app.py --config configs/settings.yaml ``` ### 开发建议 - **调试技巧**：建议使用 `pdb` 或 IDE 自带的调试工具逐行执行关键函数，观察变量变化。 - **性能优化**：对于大规模知识库场景，可以考虑引入分布式向量搜索方案（如 Milvus 或 Weaviate）提升检索效率。 - **模型替换**：若需更换大模型，只需继承 `LLM` 类并实现 `generate()` 方法即可适配新模型。 ---