论文解读:BERT探索笔记(BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding)
-
论文:BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding
-
官方代码 - https://github.com/ google-research/bert
-
参考学习的代码
- https://github.com/graykode/nlp-tutorial/tree/master/5-2.BERT
本文目的: BERT是如何制作训练样本? 以及如何训练的,重点关注数据处理部分!
如何训练NLP模型,即目标函数是啥?这样的问题一直是NLP的一个重要问题,通常会预测下一个单词(e.g. “The child came home from ___”) 。
下面看一下BERT是如何做数据的预处理,以及目标函数的确立是如何构建,BERT有两种训练策略:
策略一,Masked LM (MLM)
一个句子:The child came home from China
BERT处理成: The child [MASK] home from China,
第一,
The child [MASK] home from China, 以此作为模型的输入,预测的时候,会根据没有被[MASK]的词所提供的有效信息去预测被[MASK]的真实词。 也就是 The child [MASK] home from China。中的[MASK]真实值是什么?
第二,
没有被[MASK]的词,BERT是忽略掉它们的梯度反馈,也就是没有梯度反馈;只有被[MASK]的词,才有梯度反馈,看下文的图,只有w4是有梯度反馈, w1,w2,w3,w5的输出是不计LOSS的。所以论文中也提到,这样的训练方式会导致收敛速度慢,但是只要效果好,再多训练2天,也无所谓。
第三,
制作[MASK]数据,也就是制作训练样本(一个句子,就是一个样本),论文中提到,每一个句子中有15%的词会被MASK,即假设一个句子有20个字,则有3个词会被MASK;拓展一下,这个15%是可以调的参数,改一下,或许又是大力出奇迹。
本来随机抽出来的15%应该是全部打上 [MASK]的,在下文给出的代码中,针对随机出来的15%,还进一步做特殊的随机处理。
80% 直接打上[MASK]标记
10% 不做任何处理,也就是还是原来的真实值
10% 打上其他词,即不是[MASK],也不是真实值。
具体的随机细节,看下面的对应代码:
# cand_maked_pos 是随机出来的15%,将要被打上[MASK]位置, 本来是直接全部打上[MASK]
for pos in cand_maked_pos[:n_pred]:## 取其中的三个;masked_pos=[6, 5, 17] 注意这里对应的是position信息;masked_tokens=[13, 9, 16] 注意这里是被mask的元素之前对应的原始单字数字;
masked_pos.append(pos)
masked_tokens.append(input_ids[pos])
if random() < 0.8: # 80%
input_ids[pos] = word_dict['[MASK]'] # make mask
elif random() < 0.5: # 10%
index = randint(0, vocab_size - 1) # random index in vocabulary
input_ids[pos] = word_dict[number_dict[index]] # replace
这样处理,效果有提升? 这个我没有去验证,知道的道友,评论区留意指点一下,十分感谢。
往下走,数据流是如何输入和输出,看下图,
- 在Encoder层的输出中,添加一个分类层,用来预测[MASK]的真实值(“The child [MASK] home from China”, 例子中是 came),
- 分类层的输出再乘以embedding matrix
- 最后做 softmax,预测概率得分
(图片来源 | https://towardsdatascience.com/bert-explained-state-of-the-art-language-model-for-nlp-f8b21a9b6270)
策略二,Next Sentence Prediction (NSP)
这个策略,是用来训练模型,判断输入的两个句子是否是相连的?
看下图,图中左边对应着不同的数据编码,分别是Positional Embeddings, Segment Embeddings, Token Embeddings,下面详解介绍一下他们代表着什么意思?
首先,理解一个概念 pairs of sentences(句子对),什么是“句子对”?
假设训练样本为n个句子, 随机选择2个句子做拼接,称之为“句子对”。 比如上图中的
[CLS] my dog E[CLS] Emy Edog is cute [SEP] he likes play ##ing [SEP]
这就是一个“句子对”,训练BERT时,喂进去的就是该样式的数据,其中, [CLS] ,[SEP]是特殊字符。
数据预测处理
# n=6个句子,作为训练样本
text = (
'Hello, how are you? I am Romeo.\n'
'Hello, Romeo My name is Juliet. Nice to meet you.\n'
'Nice meet you too. How are you today?\n'
'Great. My baseball team won the competition.\n'
'Oh Congratulations, Juliet\n'
'Thanks you Romeo'
)
随机选择2个句子:
Oh Congratulations, Juliet + Thanks you Romeo,两个句子是相邻的“句子对”,论文中称之为正样本
Nice meet you too. How are you today? + Thanks you Romeo 两个句子是不相邻的“句子对”,论文称之为负样本
具体拼接,“句子对”前面加上[CLS],标记正样本或者负样本, 每个句子结尾加上[SEP],如下
[CLS] Oh Congratulations Juliet [SEP] Thanks you Romeo [SEP]
详解介绍数据处理步骤:
第一步,Transformer Positional Embedding
[CLS] Oh Congratulations Juliet [SEP] Thanks you Romeo [SEP] 先做位置编码,这个和Transformer论文一样,对词做sin,con位置编码
第二步,Sentence Embedding
[CLS] Oh Congratulations Juliet [SEP] Thanks you Romeo [SEP] 做句子的01区分,
第一个句子,Oh Congratulations Juliet [SEP], 每个词用0表示:0 0 0 0 ,
第二个句子,Thanks you Romeo [SEP], 每个词用1表示 1 1 1 1,
那[CLS]呢? CLS是标记“句子对”是正样本或者负样本, 取值0或1。 (这里有个问题?取值0或1,与第二步的Sentence Embedding是否冲突,具体需要进一步看代码)。
(图片来源 | 论文解读:Bert原理深入浅出)
第三步, Token Embedding
[CLS] Oh Congratulations Juliet [SEP] Thanks you Romeo [SEP] 每个词做词编码
(图片来源 | 论文解读:Bert原理深入浅出)
3个步骤,需要注意的:
- 特殊字符的编码,[MASK], [CLS], [SEP]
- 第一步和第三步的编码是和Transformer一致,第二步的0-1划分,是区分“句子对”中的不同句子;拓展一下,会不会做3个句子,4个句子的拼接训练呢?
- 最后,叠加上面3个Embedding输出的向量值,就得到 训练BERT时的输入。
(图片来源 | The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning))
训练
-
训练BERT时,是两个策略Masked LM 和 Next Sentence Prediction一起同时训练,两个loss相加作为梯度反馈。也就是说训练的“句子对”最终是如下样式:
[CLS] Oh Congratulations Juliet [SEP] Thanks [MASK] Romeo [SEP]
而且,作为特殊字符[CLS], [SEP],共3个位置,这3个位置不能被标记为[MASK] 。
-
上文中提到的正样本和负样本,在每一个训练的batch中,各占50%;拓展一下,这个参数又是可调的,说不定可以大力出奇迹。
-
Masked LM Loss, 把做了MASK标记的词,预测出来,也就是预测真实值,这个第一个LOSS。
-
Next Sentence Prediction Loss, 对应的是[CLS]输出值,判断“句子对”中的两个句子是否是相邻,相邻[CLS]输出值接近1,不相邻[CLS]输出值接近0,这是第二个LOSS。
-
两个LOSS相加,就可以了,拓展一下,两个LOSS相加是否带权重呢!
参考文章
- BERT Explained: State of the art language model for NLP
- The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)
调试代码
一个简单的BERT代码,主要用来研究学习BERT的基本原理。
## from https://github.com/graykode/nlp-tutorial/tree/master/5-2.BERT
import math
import re
from random import *
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
# sample IsNext and NotNext to be same in small batch size
# sentences 样本库,一个样本就是一个句子
# tokens_a_index,tokens_b_index 随机选择2个句子
# tokens_a, tokens_b 把a,b两个句子转换为 数字,也就是句子用数字来表示,简称 数字句子
# input_ids 把两个数字句子拼接,同时在index=0,设置'[CLS]', 在第一个数字句子设置'[SEP]',在第二个数字句子设置'[SEP]'。 ==》 '[CLS]' + 句子1 + '[SEP]' + 句子2 + '[SEP]'
# segment_ids 分割两个句子, '[CLS]' + 句子1 + '[SEP]' 设置为0, 句子2 + '[SEP]'设置为1
# n_pred 句子中要打mask的个数
# cand_maked_pos 打mask的位置(index)不能是'[CLS]','[SEP]','[SEP]', 打mask的位置(index)是随机的,当然也有很多方式
# masked_tokens, masked_pos, 记录被打mask的真实数字,以及他的位置(index)
# batch ==>[input_ids, segment_ids, masked_tokens, masked_pos, False|True]
def make_batch():
batch = []
positive = negative = 0 ## 为了记录NSP任务中的正样本和负样本的个数,比例最好是在一个batch中接近1:1
while positive != batch_size/2 or negative != batch_size/2:
tokens_a_index, tokens_b_index= randrange(len(sentences)), randrange(len(sentences)) # 比如tokens_a_index=3,tokens_b_index=1;从整个样本中抽取对应的样本;
tokens_a, tokens_b= token_list[tokens_a_index], token_list[tokens_b_index]## 根据索引获取对应样本:tokens_a=[5, 23, 26, 20, 9, 13, 18] tokens_b=[27, 11, 23, 8, 17, 28, 12, 22, 16, 25]
input_ids = [word_dict['[CLS]']] + tokens_a + [word_dict['[SEP]']] + tokens_b + [word_dict['[SEP]']] ## 加上特殊符号,CLS符号是1,sep符号是2:[1, 5, 23, 26, 20, 9, 13, 18, 2, 27, 11, 23, 8, 17, 28, 12, 22, 16, 25, 2]
segment_ids = [0] * (1 + len(tokens_a) + 1) + [1] * (len(tokens_b) + 1)