语言模型按照Transformer结构的不同,常见有三类:Encoder-Only、Decoder-Only、Encoder-Decoder。下面详细介绍三种结构和代表性模型:
1. Encoder-Only(仅编码器)
-
结构特点:只包含编码器部分,能够对整段输入进行双向(上下文)建模,非常适合语义理解类任务,如分类、检索、情感分析等。
-
典型模型:
-
BERT(Bidirectional Encoder Representations from Transformers):最经典的encoder-only模型,预训练目标是Masked Language Modeling(MLM)。
-
RoBERTa:对BERT预训练改进的版本。
-
ALBERT、DistilBERT、ERNIE、ELECTRA等也属于此类。
-
2. Decoder-Only(仅解码器)
-
结构特点:仅包含解码器部分,采用自回归(causal)掩码,只能看到当前位置之前的信息,主要用于生成文本,比如写作、对话、总结等。
-
典型模型:
-
GPT系列(如GPT-2、GPT-3、ChatGPT、GPT-4):典型的decoder-only结构,目标是预测下一个token。
-
Gemini、Gemma等近代大模型也通常采用decoder-only结构。
-
LLaMA、Mistral等也是代表。
-
3. Encoder-Decoder(编码器-解码器/Seq2Seq)
-
结构特点:同时包含编码器和解码器。编码器理解输入,解码器生成输出,输入与输出可长度不同,典型应用于翻译、摘要等序列到序列任务。
-
典型模型:
-
T5(Text-to-Text Transfer Transformer):一切任务转化为文本生成,属于encoder-decoder模型。
-
BART(Bidirectional and Auto-Regressive Transformer):结合了BERT和GPT的优势,适用于生成和理解。
-
原始Transformer(Attention is All You Need):做机器翻译任务的经典encoder-decoder结构。
-
小结表
分类 | 结构组件 | 代表模型 | 典型任务 |
---|---|---|---|
Encoder-Only | 只编码器 | BERT、RoBERTa、ALBERT | 分类、检索、理解 |
Decoder-Only | 只解码器 | GPT系列、LLaMA、Gemini | 续写、对话、生成 |
Encoder-Decoder | 编码+解码器 | T5、BART、原始Transformer | 翻译、摘要、生成 |
-
Encoder-only适合提取输入整体语义,常用于需要理解的场景。
-
Decoder-only以生成语言为主,擅长文本生成类任务。
-
Encoder-Decoder可实现输入和输出序列不一样的情况,适合翻译、摘要等序列变换任务。
通过这样分类,可以快速判断某个典型任务更适合用哪类语言模型架构。
为什么说Bert是encoder only的,Bert的双向transformer具体是怎么表现为双向的,那什么又叫单向transformer
BERT被称为“encoder-only”模型,是因为它基于Transformer的编码器模块构建,仅使用了多个堆叠的Transformer编码器层,而不包含解码器部分。Transformer编码器通过多头自注意力机制,可以在编码时同时访问输入序列中所有位置的词,实现对上下文信息的双向建模。
具体来说,BERT的“双向”体现在其自注意力机制中:在对每个词进行编码时,该词的表示会依赖于序列中所有其他词的位置,无论是在它之前还是之后。这种机制不同于传统的单向语言模型(如传统的左到右单向Transformer解码器),后者只能看到当前位置之前的词,无法利用后文信息。BERT的双向自注意力使得模型捕获到了完整的上下文语义。
而“单向Transformer”指的是仅允许模型在预测下一词时只关注当前位置及其之前的词(即自回归或因果掩码机制),不包含后文信息,这常见于Decoder-only结构如GPT系列。其设计目的是在生成文本时防止模型看到未来信息,从而保证生成的因果一致性。
总结:
-
BERT是encoder-only结构,因为只用Transformer编码器层。
-
BERT的双向表现为其自注意力机制可以同时访问序列中任意位置的信息,做到上下文的双向建模。
-
单向Transformer一般是Decoder-only结构,只能访问当前位置之前的信息,用于自回归生成。
这使得BERT在理解任务(比如文本分类、问答)上非常强,而单向Transformer如GPT更适合文本生成。
以上内容基于多个中文技术博客和教程的解读和解析。