深入理解Sentence Transformers：文本嵌入与重排序模型指南

伍畅晗Praised

于 2025-06-02 09:05:20 发布

阅读量372

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gitblog_01028/article/details/148375733

深入理解Sentence Transformers：文本嵌入与重排序模型指南

sentence-transformers Multilingual Sentence & Image Embeddings with BERT 项目地址: https://gitcode.com/gh_mirrors/se/sentence-transformers

项目概述

Sentence Transformers（又称SBERT）是一个功能强大的Python库，专门用于处理、训练和使用最先进的文本嵌入和重排序模型。该项目由UKPLab团队开发，现已成为自然语言处理领域中处理句子级语义表示的事实标准工具。

核心功能

1. 文本嵌入模型（Sentence Transformer）

文本嵌入模型能够将任意长度的句子或段落转换为固定维度的向量表示。这些向量能够很好地捕捉文本的语义信息，使得语义相似的文本在向量空间中距离更近。

典型应用场景包括：

语义搜索：根据查询语句的语义而非关键词匹配来检索相关文档
文本相似度计算：量化两个文本片段之间的语义相似程度
聚类分析：基于语义相似度对大量文本进行自动分组
释义挖掘：从大规模文本中发现表达相同含义的不同说法

2. 重排序模型（Cross-Encoder）

重排序模型采用更复杂的架构（通常是交叉注意力机制）直接计算两个文本之间的相关性分数。虽然计算成本较高，但在需要精确排序的场景下表现优异。

典型应用场景包括：

检索结果重排序：对初步检索结果进行精细化排序
问答系统：从候选答案中选择最相关的回答
文本匹配：判断两个文本是否表达相同含义

快速入门

安装指南

推荐使用Python 3.9+和PyTorch 1.11.0+环境，通过pip安装：

pip install -U sentence-transformers

基础使用示例

文本嵌入模型使用

from sentence_transformers import SentenceTransformer

# 加载预训练模型
model = SentenceTransformer("all-MiniLM-L6-v2")

# 准备待编码文本
sentences = [
    "今天天气真好",
    "外面阳光明媚！",
    "他开车去了体育场"
]

# 计算文本嵌入
embeddings = model.encode(sentences)

# 计算相似度矩阵
similarities = model.similarity(embeddings, embeddings)

重排序模型使用

from sentence_transformers import CrossEncoder

# 加载预训练模型
model = CrossEncoder("cross-encoder/ms-marco-MiniLM-L6-v2")

# 准备查询和候选文本
query = "柏林有多少人口？"
passages = [
    "柏林在891.82平方公里的面积内有3,520,031名注册居民",
    "柏林每年约有1.35亿日间游客，是欧盟访问量最大的城市之一",
    "2013年约有60万柏林人在2300多个体育和健身俱乐部注册"
]

# 计算相关性分数
scores = model.predict([(query, passage) for passage in passages])

# 对候选文本进行排序
ranks = model.rank(query, passages, return_documents=True)