相关性算法BM25的python实现

最新推荐文章于 2025-06-13 18:36:32 发布

phasorhand

最新推荐文章于 2025-06-13 18:36:32 发布

阅读量9.4k

点赞数 5

CC 4.0 BY-SA版权

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/phasorhand/article/details/104647848

自然语言处理专栏收录该内容

2 篇文章

订阅专栏

本文深入解析BM25算法的计算原理，包括词频、逆文档频率及TF值变换，并通过gensim库的BM25模型实现文本相似度计算。展示了中文分词、构建语料库、训练模型及计算相似性的完整流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

计算原理

在这里插入图片描述

第一项c(w,q)就是搜索q中词w的词频
第三项是词w的逆文档频率，M是所有文本的个数，df(w)是出现词w的文本个数
中间的第二项是关键，实质是词w的TF值的变换，c(w,d)是词w在文本d中的词频。首先是一个TF Transformation，目的是防止某个词的词频过大，经过下图中公式的约束，词频的上限为k+1，不会无限制的增长。例如，一个词在文本中的词频无论是50还是100，都说明文本与这个词有关，但相关度不可能是两倍关系。

优点

开源实现

snownlp
gensim_bm25
rank_bm25

实践

一般流程（对于中文）

构建corpus
1.1. 构建停用词词表（可加入部分高频词）
1.2. 分词
1.3. 去除停用词
训练BM25模型
使用模型计算相似性

gensim的使用

from gensim.summarization import bm25


def test_gensim_bm25():
    corpus = [
    ['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多'], 
    ['第1', '个', '是', '应该', '第2', '个', '是'], 
    ['不', '对', '应该', '就是', '差', '不', '多'], 
    ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']]
    
    bm25Model = bm25.BM25(corpus)

    test_strs = [
        ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁'],
        ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁', '问题', '第1', '个'],
        ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁', '问题', '第1', '个','来', '问', '几', '个', '问题'],
        ['应该', '差', '不', '多', '一定', '要', '退', '60', '岁'],
        ['差', '不', '多', '一定', '要', '退'],
        ['一定', '要', '差', '不', '多', '退'],
        ['一定', '要', '退'],
        ['一定', '差', '不', '多'],
    ]
    for test_str in test_strs:
        scores = bm25Model.get_scores(test_str)
        print('测试句子：', test_str)
        for i, j in zip(scores, corpus):
            print('分值：{},原句：{}'.format(i, j))
        print('\n')

if __name__ == '__main__':
    test_gensim_bm25()

运行结果

测试句子： ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']
分值：0.2828807225045471,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0.226504790662966,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.42164043562468434,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：2.2007072441488233,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子： ['应该', '差', '不', '多', '一定', '要', '退', '60', '岁']
分值：0.202827468444139,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0.09756782248085916,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.42164043562468434,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：1.2213019690359779,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子： ['差', '不', '多', '一定', '要', '退']
分值：0.15212060133310423,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.3240726131438252,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：1.1406697377282669,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子： ['一定', '要', '差', '不', '多', '退']
分值：0.15212060133310423,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.3240726131438252,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：1.1406697377282669,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子： ['一定', '要', '退']
分值：0.0,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：0.898773043805134,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子： ['一定', '差', '不', '多']
分值：0.15212060133310423,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.3240726131438252,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：0.24189669392313295,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']