大语言模型系列-GPT-2

学海一叶

已于 2024-03-07 09:46:46 修改

阅读量1.4k

点赞数 9

CC 4.0 BY-SA版权

分类专栏： LLM 文章标签：语言模型 gpt 人工智能自然语言处理深度学习

于 2024-03-07 09:24:08 首次发布

本文链接：https://blog.csdn.net/long11350/article/details/135996807

GPT-2通过去除微调层、增大数据集、增加模型规模和优化结构，提升了语言模型的泛化能力和零/少量样本学习效果。它在多个任务上超越了当时最先进的方法，展示了无监督学习的强大潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

《Language Models are Unsupervised Multitask Learners，2019》

前文提到，GPT-1利用不同的模型结构微调初步解决了多任务学习的问题，但是仍然是预训练+微调的形式，GPT-1在未经微调的任务上有一定效果（zero-shot ），但是其泛化能力远远低于经过微调的有监督任务，GPT-2主要基于该点进行了改进。

ps：GPT1：发现预训练模型具有 zero-shot 的能力，并且能随着预训练的进行不断增强。为了进一步验证 zero-shot 的能力，OpenAI 在 GPT-1 提出一年后，推出了 GPT-2。

GPT-2的目标旨在训练一个泛化能力更强的词向量模型，它并没有对GPT-1的网络进行过多的结构的创新与设计，只是使用了更多的网络参数（1.5B）和更大的数据集。

GPT-2 的核心思想就是，当模型的容量非常大且数据量足够丰富时，仅仅靠语言模型的学习便可以完成其他有监督学习的任务，不需要在下游任务微调。即为多任务学习，和T5类似。

也就是说所有的有监督学习都是无监督语言模型的一个子集。例如当模型训练完“Micheal Jordan is the best basketball player in the history”语料的语言模型之后，便也学会了(question：“who is the best basketball player in the history ?”，answer:“Micheal Jordan”)的Q&A任务。

few-shot：在模型做预测的时候，给模型少量标注后的优质样本来作为条件。（如GPT-3）
one-shot：和few-shot类似，但是只允许看到一个样本。
zero-shot：和one-shot类似，但是不允许看到任何样本。直接做预测。（如GPT-2）

ps：few-shot、one-shot、zero-shot均在推理输入阶段起作用，不会更新梯度，举例如下：

few-shot：“这个任务要求将中文翻译为英文。你好->hello，再见->goodbye，购买->purchase，销售->”

one-shot：“这个任务要求将中文翻译为英文。你好->hello，销售->”

zero-shot：“这个任务要求将中文翻译为英文。销售->”

一、GPT-2做的改进

去掉了fine-tuning层： 不再针对不同任务分别进行微调建模，即不定义这个模型应该做什么任务，模型自动识别需要做什么任务。就像T5的text to text。
Larger Dataset： WebText，GPT-2收集了更加广泛、数量更多的语料组成数据集。该数据集包含800万个网页，大小为40G
Larger Model： GPT-2将Transformer堆叠的层数从12层增加到48层，隐层的维度为1600，参数量达到了15亿（Bert的参数量3亿、T5参数量110 亿）。
Larger dictionary，larger sequnece length and larger batch size。 GPT-2将词汇表数量增加到50257个；最大的上下文大小 (context size) 从GPT的512提升到了1024 tokens；batchsize增加到512。
调整LN层：将layer normalization放到每个sub-b