【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比

kakaZhui

已于 2025-03-24 18:02:21 修改

阅读量2.9k

点赞数 21

CC 4.0 BY-SA版权

分类专栏： DeepSeek前线：解密前沿LLM技术+小白入门文章标签： llama 人工智能 AIGC chatgpt python

于 2025-02-01 15:29:36 首次发布

本文链接：https://blog.csdn.net/kakaZhui/article/details/145412844

DeepSeek前线：解密前沿LLM技术+小白入门专栏收录该内容

72 篇文章 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

1. 引言

近年来，大型语言模型 (LLM) 取得了令人瞩目的进展，其中 Llama、Qwen 和 ChatGLM 是三个备受关注的开源模型。它们都在 Transformer 架构的基础上进行了改进和优化，并在各种 NLP 任务上取得了优异的性能。

本文将深入分析 Llama、Qwen 和 ChatGLM 的网络结构和训练方法，比较它们的异同以及各自的优势。

2. 模型结构对比

特性	Llama	Qwen	ChatGLM
基础架构	Decoder-only	Decoder-only	Encoder-Decoder (GLM架构，非传统意义)
预训练目标	Causal Language Modeling	Causal Language Modeling	Autoregressive Blank Infilling (

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kakaZhui

关注关注

21
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

Qwen架构与Llama架构的核心区别

搏博的专栏

03-08

938

维度QwenLlama上下文扩展动态NTK-aware RoPE，无需微调支持32K+ tokens需手动扩展（如PI微调）注意力机制MQA/GQA动态切换，显存优化灵活固定多头注意力或GQA（仅大模型版本）任务适配多任务输出层，支持分类/生成/回归单一生成任务输出部署优化原生GPTQ-Int4量化，显存占用降低60%依赖第三方工具量化，精度损失较大语言侧重中文优化（分词器、训练语料）英文优先，中文需额外微调。

深度解读 Qwen3 大语言模型的关键技术

WeLearnNLP

05-27

498

这里我们选取 GPT-4（OpenAI的旗舰闭源模型）、LLaMA系列（Meta的开源大模型，假设即将推出的LLaMA3）以及 Anthropic 的 Claude 系列 (Claude 2/3) 来进行横向分析，看看 Qwen3 的优势和不足，以及它为开源模型阵营奠定的新标杆。特别是 Qwen3 拥有100多种语言能力，这对于全球化的聊天应用是巨大的优势——一个模型就能服务不同语言用户，无需为每种语言训练单独模型，且还能跨语言对话（例如用户用法语提问、模型用法语回答，或模型将英文知识翻译成中文解释）。

参与评论您还未登录，请先登录后发表或查看评论

Qwen模型架构

致大尽微家国天下

09-19

5342

基于PyTorch和库的 Qwen2 模型实现。

MoE（Mixture of Experts）架构、Qwen架构与Llama架构的对比与解释

m0_60674045的博客

02-16

1512

这三种架构在深度学习中各有特色，尤其是在处理大规模语言模型和模型效率方面。根据您的应用场景选择合适的架构，如果主要关注高效推理和较低计算资源需求，如果涉及到复杂推理和多模态任务，若资源有限但需要大规模推理，架构是一个较好的选择。

DeepSeek-R1的Qwen和Llama区别

百态老人的博客

02-06

5813

Qwen-32B：综合性能最强，数学推理顶尖，适合高精度需求场景。Llama-70B：数学略优Qwen-32B，编程能力稍强，但资源消耗更大。Qwen-7B：平衡性能与资源消耗，适合中小规模应用。

大模型的实践应用33-关于大模型中的Qwen2与Llama3具体架构的差异全解析

微学AI的博客

12-27

787

Qwen2与Llama3模型架构在层次结构、参数设置、注意力机制、数据处理与输入输出层等方面存在细微差异。这些差异可能会对模型的性能、效率、适用场景等产生潜在影响。所以，在选择和使用这两个模型的时候，要根据具体的应用需求和场景进行综合考虑。通过详细对比它们的技术细节、实际应用案例、最新研究进展、性能指标以及模型训练过程等内容，可以让我们对这两个模型有更全面、准确和有说服力的认识。

大模型部署-使用OpenVINO部署LLM大语言模型-支持LLama2+ChatGLM3+Qwen7B-项目源码-优质项目实战

10-15

大模型部署-使用OpenVINO部署LLM大语言模型-支持LLama2+ChatGLM3+Qwen7B-项目源码-优质项目实战这一项目，为用户提供了全面的技术支持和实践机会，让他们能够高效地部署和运行先进的大语言模型，并在边缘设备上实现...

ms-swift是一个用于LLM调优、推断和部署的框架它支持广泛的模型(如LLaMA、Qwen、ChatGLM、Yi、Inte

02-06

ms-swift是一个用于LLM调优、推断和部署的框架。它支持广泛的模型(如LLaMA、Qwen、ChatGLM、Yi、Internlm、Mistral、midtral、baihuan等)和训练方法(包括LoRA、QLoRA、Full、ResTuning、LongLoRA、NEFTune等)。

常见大模型（llama,qwen,gpt)的结构，这些架构的区别

ttest11的博客

06-12

1556

结构本质一致：三者都是基于Transformer解码器的自回归语言模型，主要区别在实现细节和部分技术创新。Qwen强化中文：Qwen针对中英混合、中文Token优化做了更多本地化处理。LLaMA关注轻量与开放：LLaMA更强调公开透明及高效推理。GPT结构更神秘：OpenAI对GPT-4及后续版本的结构细节披露更少，但大体还是在Transformer解码器技术线上。

人工智能_大语言模型微调与推理_开源LLM支持Qwen_ChatGLM_Baichuan_Llama_Yi_序列并行_全参数微调_LoRA_QLoRA_RoPE扩展_VLLM部署_.zip

07-14

文件中提到的“开源LLM支持”，指的是支持开源的大语言模型，这表明该文件可能包含了对一些著名的开源语言模型如Qwen、ChatGLM、Baichuan、Llama、Yi等的支持和优化策略。这些模型的开源性质使得研究者和开发者能够...

Qwen 的模型结构是怎么样的，相比于 LLaMA，DeepSeek 有什么区别

AI生成曾小健3

03-18

1207

以上差异体现了不同模型在架构设计和应用目标上的针对性，需根据具体需求选择。混合专家（Mixture-of-Experts, MoE）Qwen（通义千问）由阿里巴巴达摩院开发，基于。，结合共享专家（Shared Expert）Qwen 2.5支持128k tokens。LLaMA、Baichuan等模型。动态激活任务相关参数以提高效率。中文语料为主，兼顾多语言数据。人类反馈强化学习（RLHF）DeepSeekMoE架构。低秩压缩减少KV缓存。

LLaMa3-72b和Qwen2.5-70b的主要区别和优劣在哪

曾小健3的博客

12-02

3088

参数量：72亿参数。架构：LLaMa3系列模型基于Transformer架构，专注于提供高效的文本生成和理解能力。应用：广泛应用于自然语言处理任务，如文本生成、对话系统、问答等。总体而言，尽管LLaMa3-72B在某些生成任务上表现良好，但Qwen2.5-70B在多个关键领域（如数学推理、编程能力和长文本处理）中展现出了更强的优势。选择使用哪种模型应依据具体应用需求而定。如果需要处理复杂任务或多样化输入，Qwen2.5可能是更好的选择；而对于一般文本生成任务，LLaMa3也依然是一款强大的模型。

LLaMA、Baichuan、ChatGLM、Qwen、天工等大模型对比

fjfdg666的博客

12-08

8132

https://github.com/THUDM/ChatGLM-6Bhttps://github.com/THUDM/ChatGLM2-6Bhttps://github.com/THUDM/ChatGLM3其他开源项目。

有手就行，轻松本地部署 Llama、Qwen 大模型，无需 GPU

python12345678_的博客

07-02

3696

没有消费级的 GPU，竟然都可以拥有自己的本地大模型。部署过程基本上没有卡点，一台普通的 Mac 就能搞定，太香了~想学习什么，欢迎留言告诉我。。

通义千问Qwen2架构解析

不负热爱

04-12

7302

通义千问大模型Qwen2代码解析

Qwen大模型简介