自然语言处理:问答相似性判断与命名实体识别
一、问答相似性判断
(一)模型介绍
1. Sentence-BERT(SBERT)
Sentence-BERT 是 BERT 针对句子的改进版本。在这个新模型中,将两个句子输入以获取嵌入表示,并在其基础上构建一个层,最后使用孪生网络(Siamese Networks)来计算句子之间的相似度。
以下是实现 SBERT 的代码:
#install SBERT
!pip install sentence-transformers
#import the SBERT
from sentence_transformers import SentenceTransformer
#let use paraphrase-MiniLM-L12-v2 pre trained model
sbert_model = SentenceTransformer('paraphrase-MiniLM-L12-v2')
x=[i for i in df.question]
#lets get embeddings for each question
sentence_embeddings_BERT= sbert_model.encode(x)
#lets see the shape
sentence_embeddings_BERT.shape
运行上述代码后,嵌入表示的形状为 (10000, 384),这意味着它生成了 384 维的嵌入。
2. GPT
GPT(Generativ