(先大致了解一下整体性的框架,然后再进一步深究,最终彻底明白这个模型)
一、介绍bert模型
BERT就是12层的Transformer的Encoder的组合。分为预训练(pre-training)与微调(Fine-tune)。
预训练:简单来说就是通过两个任务联合训练得到bert模型。(NSP & MLM)
微调:在得到bert模型基础上进行各种各样的NLP任务(下游任务)。
预训练(pre-training)
BERT就是12层的Transformer的Encoder的组合。分为预训练(pre-training)与微调(Fine-tune)。
预训练:简单来说就是通过两个任务联合训练得到bert模型。(NSP & MLM)
微调:在得到bert模型基础上进行各种各样的NLP任务(下游任务)。