LLM图示
时间: 2025-04-27 13:35:24 浏览: 26
### 关于大型语言模型(LLM)的架构图
大型语言模型(LLM)主要基于Transformer架构,该架构源自《Attention is All You Need》这篇论文[^3]。以下是几种常见的LLM架构及其特点:
#### 1. 基础Transformer架构
基础Transformer架构由编码器(Encoder)和解码器(Decoder)组成。编码器负责接收输入序列并将其转换为上下文表示;而解码器则根据编码后的向量逐步生成输出序列。
```mermaid
graph LR;
A(Input Sequence) --> B(Embedding Layer);
B --> C[Multi-head Attention];
C --> D(Position-wise Feed Forward Networks);
D --> E(Normalization & Residual Connection);
F(Output Sequence) <-- G(Softmax Layer);
E --> F;
```
此图为简化版的基础Transformer架构示意图。
#### 2. 预训练目标的不同变体
根据不同预训练目标,存在三种主流的LLM架构:
- **FLM (Full Language Model)**: 完整的语言建模方式,在双向上下文中学习词的概率分布。
- **PLM (Permutation Language Modeling)**: 使用排列变换来打破顺序依赖关系,允许更灵活的信息流动。
- **MLM (Masked Language Modeling)**: 掩盖部分单词作为任务的一部分,让模型学会预测被掩盖的内容。
对于具体的架构差异,可以通过下述图表理解这三者的区别:
| 类型 | 输入形式 | 输出形式 |
|------------|------------------|---------------|
| FLM | 句子A | P(B|A) |
| PLM | 扰乱后的句子 | P(A|B,C,...,Z) |
| MLM | 掩蔽后的句子 | P(mask_word|context)|
表中列出了不同预训练方法下的输入输出模式对比。
#### 3. 自回归特性的影响
值得注意的是,在实际应用中,由于transformer网络结构中的decoder模块采用自回归模式工作,这意味着它在推理阶段不能像encoder那样完全并行化处理整个序列,而是逐个token地进行预测[^5]。
通过上述介绍可以看出,虽然目前有许多优秀的开源资源提供详细的LLM架构说明文档以及可视化材料,但对于特定需求来说,可能还需要进一步查阅官方技术博客或者研究论文获取最权威的第一手资料[^2]。
阅读全文
相关推荐












