Bert原理介绍

最新推荐文章于 2025-06-05 15:56:19 发布

bugsayend

最新推荐文章于 2025-06-05 15:56:19 发布

阅读量1.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：自然语言处理文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_42707967/article/details/113862250

BERT（Bidirectional Encoder Representations from Transformers）是一种预训练模型，旨在通过引入masked language model（MLM）解决传统预训练模型无法利用双向上下文的问题。BERT模型还结合next sentence prediction任务，以提升文本对的联合表示。它采用深度双向Transformer结构，通过预训练和微调步骤，广泛应用于自然语言处理任务，如智能问答和文本理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.Bert基本原理介绍

背景
基于语言模型的预训练（pre-training）已经被证明可以有效提升各种 NLP 任务的表现。通常有两种策略可以运用到预训练模型得到的结果上：基于特征（feature-based）和微调（fine-tuning），基于特征的策略使用任务特定的架构，将预训练的表示作为额外的特征，其代表为 ELMo；基于微调的策略使用最少的任务特定参数，通过简单的微调预训练参数来训练下游任务，其代表 OpenAI GPT。

之前的研究的局限性在于，其在预训练时使用的目标函数均基于单向语言模型，没有同时考虑到双向的上下文信息。BERT 模型旨在解决这一局限性，通过提出一种新的预训练目标：masked language model（MLM）。简单来说，MLM 随机地从输入中遮蔽一些词语，然后训练目标是基于被遮蔽词语的双侧上下文来预测该词语在词典中的 id。此外，BERT 模型还引入了一个 next sentence prediction 任务，来预训练文本对的联合表示。

下图给出了 BERT、ELMo 和 OpenAI GPT 三者之间的结构比较。只有 BERT 真正同时使用了左右两侧上下文的信息。
在这里插入图片描述

1.1 Bert基本介绍

接下来我们将从what，how，wher等三个方面来介绍bert
Bert是什么呢？（what）
BERT是Pre-training of Deep Bidredirectional Encoder Representations from Transfomers的缩写，其中每一个单词都表示了BERT的特征：
Pre-training说明BERT是一个预训练模型，通过前期的大量语料的无监督训练，为下游任务学习大量的先验