论文解读：BERT探索笔记(BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding)

且漫CN

已于 2024-02-04 17:13:20 修改

阅读量1k

点赞数 22

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签： bert 笔记人工智能

于 2024-01-29 15:05:44 首次发布

本文链接：https://blog.csdn.net/u010006102/article/details/135906527

本文聚焦BERT如何制作训练样本及训练过程，重点关注数据处理。介绍了BERT的两种训练策略，Masked LM（MLM）通过对部分词打[MASK]预测真实值，Next Sentence Prediction（NSP）判断句子对是否相邻。训练时两个策略同时进行，两loss相加作为梯度反馈。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文解读：BERT探索笔记(BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding)

论文：BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding
官方代码 - https://github.com/ google-research/bert
参考学习的代码
- https://github.com/graykode/nlp-tutorial/tree/master/5-2.BERT

本文目的： BERT是如何制作训练样本？以及如何训练的，重点关注数据处理部分！

如何训练NLP模型，即目标函数是啥？这样的问题一直是NLP的一个重要问题，通常会预测下一个单词(e.g. “The child came home from ___”) 。

下面看一下BERT是如何做数据的预处理，以及目标函数的确立是如何构建，BERT有两种训练策略：

策略一，Masked LM (MLM)

一个句子：The child came home from China
BERT处理成： The child [MASK] home from China,

第一，
The child [MASK] home from China, 以此作为模型的输入，预测的时候，会根据没有被[MASK]的词所提供的有效信息去预测被[MASK]的真实词。也就是 The child [MASK] home from China。中的[MASK]真实值是什么？

第二，
没有被[MASK]的词，BERT是忽略掉它们的梯度反馈，也就是没有梯度反馈；只有被[MASK]的词，才有梯度反馈，看下文的图，只有w4是有梯度反馈， w1,w2,w3,w5的输出是不计LOSS的。所以论文中也提到，这样的训练方式会导致收敛速度慢，但是只要效果好，再多训练2天，也无所谓。

第三，
制作[MASK]数据，也就是制作训练样本（一个句子，就是一个样本），论文中提到，每一个句子中有15%的词会被MASK，即假设一个句子有20个字，则有3个词会被MASK；拓展一下，这个15%是可以调的参数，改一下，或许又是大力出奇迹。

本来随机抽出来的15%应该是全部打上 [MASK]的，在下文给出的代码中，针对随机出来的15%，还进一步做特殊的随机处理。
80% 直接打上[MASK]标记
10% 不做任何处理，也就是还是原来的真实值
10% 打上其他词，即不是[MASK]，也不是真实值。

具体的随机细节，看下面的对应代码：

# cand_maked_pos 是随机出来的15%，将要被打上[MASK]位置， 本来是直接全部打上[MASK]
for pos in cand_maked_pos[:n_pred]:## 取其中的三个；masked_pos=[6, 5, 17] 注意这里对应的是position信息；masked_tokens=[13, 9, 16] 注意这里是被mask的元素之前对应的原始单字数字；
            masked_pos.append(pos)
            masked_tokens.append(input_ids[pos])
            if random() < 0.8:  # 80%
                input_ids[pos] = word_dict['[MASK]'] # make mask
            elif random() < 0.5:  # 10%
                index = randint(0, vocab_size - 1) # random index in vocabulary
                input_ids[pos] = word_dict[number_dict[index]] # replace

这样处理，效果有提升？这个我没有去验证，知道的道友，评论区留意指点一下，十分感谢。

往下走，数据流是如何输入和输出，看下图，

在Encoder层的输出中，添加一个分类层，用来预测[MASK]的真实值（“The child [MASK] home from China”，例子中是 came），
分类层的输出再乘以embedding matrix
最后做 softmax，预测概率得分

(图片来源 | https://towardsdatascience.com/bert-explained-state-of-the-art-language-model-for-nlp-f8b21a9b6270)

策略二，Next Sentence Prediction (NSP)

这个策略，是用来训练模型，判断输入的两个句子是否是相连的？

看下图，图中左边对应着不同的数据编码，分别是Positional Embeddings， Segment Embeddings， Token Embeddings，下面详解介绍一下他们代表着什么意思？
在这里插入图片描述

首先，理解一个概念 pairs of sentences（句子对），什么是“句子对”？
假设训练样本为n个句子，随机选择2个句子做拼接，称之为“句子对”。比如上图中的

[CLS] my dog E[CLS] Emy Edog is cute [SEP] he likes play ##ing [SEP]

这就是一个“句子对”，训练BERT时，喂进去的就是该样式的数据，其中， [CLS] ，[SEP]是特殊字符。

数据预测处理

# n=6个句子，作为训练样本
text = (
    'Hello, how are you? I am Romeo.\n'
    'Hello, Romeo My name is Juliet. Nice to meet you.\n'
    'Nice meet you too. How are you today?\n'
    'Great. My baseball team won the competition.\n'
    'Oh Congratulations, Juliet\n'
    'Thanks you Romeo'
)

随机选择2个句子：
Oh Congratulations, Juliet + Thanks you Romeo，两个句子是相邻的“句子对”，论文中称之为正样本
Nice meet you too. How are you today? + Thanks you Romeo 两个句子是不相邻的“句子对”，论文称之为负样本

具体拼接，“句子对”前面加上[CLS]，标记正样本或者负样本，每个句子结尾加上[SEP]，如下
[CLS] Oh Congratulations Juliet [SEP] Thanks you Romeo [SEP]

详解介绍数据处理步骤：
第一步，Transformer Positional Embedding
[CLS] Oh Congratulations Juliet [SEP] Thanks you Romeo [SEP] 先做位置编码，这个和Transformer论文一样，对词做sin,con位置编码

第二步，Sentence Embedding
[CLS] Oh Congratulations Juliet [SEP] Thanks you Romeo [SEP] 做句子的01区分，
第一个句子，Oh Congratulations Juliet [SEP]，每个词用0表示：0 0 0 0 ，
第二个句子，Thanks you Romeo [SEP]，每个词用1表示 1 1 1 1，
那[CLS]呢？ CLS是标记“句子对”是正样本或者负样本，取值0或1。（这里有个问题？取值0或1，与第二步的Sentence Embedding是否冲突，具体需要进一步看代码）。

在这里插入图片描述
（图片来源 | 论文解读：Bert原理深入浅出）

第三步， Token Embedding
[CLS] Oh Congratulations Juliet [SEP] Thanks you Romeo [SEP] 每个词做词编码
在这里插入图片描述
（图片来源 | 论文解读：Bert原理深入浅出）

3个步骤，需要注意的：

特殊字符的编码，[MASK], [CLS], [SEP]
第一步和第三步的编码是和Transformer一致，第二步的0-1划分，是区分“句子对”中的不同句子；拓展一下，会不会做3个句子，4个句子的拼接训练呢？
最后，叠加上面3个Embedding输出的向量值，就得到训练BERT时的输入。

在这里插入图片描述
（图片来源 | The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)）

训练

训练BERT时，是两个策略Masked LM 和 Next Sentence Prediction一起同时训练，两个loss相加作为梯度反馈。也就是说训练的“句子对”最终是如下样式：
```
[CLS] Oh Congratulations Juliet [SEP] Thanks [MASK] Romeo [SEP] 
```
而且，作为特殊字符[CLS], [SEP]，共3个位置，这3个位置不能被标记为[MASK] 。
上文中提到的正样本和负样本，在每一个训练的batch中，各占50%；拓展一下，这个参数又是可调的，说不定可以大力出奇迹。
Masked LM Loss, 把做了MASK标记的词，预测出来，也就是预测真实值，这个第一个LOSS。
Next Sentence Prediction Loss, 对应的是[CLS]输出值，判断“句子对”中的两个句子是否是相邻，相邻[CLS]输出值接近1，不相邻[CLS]输出值接近0，这是第二个LOSS。
两个LOSS相加，就可以了，拓展一下，两个LOSS相加是否带权重呢！

参考文章

调试代码

一个简单的BERT代码，主要用来研究学习BERT的基本原理。

## from https://github.com/graykode/nlp-tutorial/tree/master/5-2.BERT
import math
import re
from random import *
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim

# sample IsNext and NotNext to be same in small batch size

# sentences 样本库，一个样本就是一个句子
# tokens_a_index，tokens_b_index 随机选择2个句子
# tokens_a, tokens_b 把a,b两个句子转换为 数字，也就是句子用数字来表示，简称 数字句子
# input_ids 把两个数字句子拼接，同时在index=0，设置'[CLS]', 在第一个数字句子设置'[SEP]',在第二个数字句子设置'[SEP]'。 ==》 '[CLS]' + 句子1 + '[SEP]' + 句子2 + '[SEP]'
# segment_ids 分割两个句子， '[CLS]' + 句子1 + '[SEP]' 设置为0， 句子2 + '[SEP]'设置为1
# n_pred 句子中要打mask的个数
# cand_maked_pos 打mask的位置（index）不能是'[CLS]'，'[SEP]'，'[SEP]'， 打mask的位置（index）是随机的，当然也有很多方式
# masked_tokens, masked_pos, 记录被打mask的真实数字，以及他的位置（index）

# batch ==>[input_ids, segment_ids, masked_tokens, masked_pos, False|True]
def make_batch():
    batch = []
    positive = negative = 0 ## 为了记录NSP任务中的正样本和负样本的个数，比例最好是在一个batch中接近1：1
    while positive != batch_size/2 or negative != batch_size/2:
        tokens_a_index, tokens_b_index= randrange(len(sentences)), randrange(len(sentences)) # 比如tokens_a_index=3，tokens_b_index=1；从整个样本中抽取对应的样本；
        tokens_a, tokens_b= token_list[tokens_a_index], token_list[tokens_b_index]## 根据索引获取对应样本：tokens_a=[5, 23, 26, 20, 9, 13, 18] tokens_b=[27, 11, 23, 8, 17, 28, 12, 22, 16, 25]
        input_ids = [word_dict['[CLS]']] + tokens_a + [word_dict['[SEP]']] + tokens_b + [word_dict['[SEP]']] ## 加上特殊符号，CLS符号是1，sep符号是2：[1, 5, 23, 26, 20, 9, 13, 18, 2, 27, 11, 23, 8, 17, 28, 12, 22, 16, 25, 2]
        segment_ids = [0] * (1 + len(tokens_a) + 1) + [1] * (len(tokens_b) + 1)