SpanBERT: Improving Pre-training by Representing and Predicting Spans
这篇论文的主要贡献有三:
1.提出了更好的 Span Mask 方案,也再次展示了随机遮盖连续一段字要比随机遮盖掉分散字好;
2.通过加入 Span Boundary Objective (SBO) 训练目标,增强了 BERT 的性能,特别在一些与 Span 相关的任务,如抽取式问答;
3.用实验获得了和 XLNet 类似的结果,发现不加入 Next Sentence Prediction (NSP) 任务,直接用连续一长句训练效果更好。
Span Masking
主要是随机mask掉连续的sub token, 直到所mask的token达到句子总token的15%
首先通过几何分布产生span的长度,span的长度最大为10,几何分布的p为0.2,所以平均的span长度为3.8,.
然后通过均匀分布,产生span的起始位置
SBO
Span Boundary Objective 是该论文加入的新训练目标,希望被遮盖 Span 边界的词向量,能学习到 Span 的内容。
具体做法是,在训练时取 Span 前后边界的两个词,值得指出,这两个词不在 Span 内,然后用这两个词向量加上 Span 中被遮盖掉词的位置向量,来预测原词.