浅析 ElasticSearch 默认算法 —— BM25

厕所博士

已于 2025-02-05 15:06:05 修改

阅读量2.1k

点赞数 31

CC 4.0 BY-SA版权

文章标签： elasticsearch

于 2024-07-06 22:21:39 首次发布

本文链接：https://blog.csdn.net/x123453316/article/details/140234078

1.背景

最近在做 ES 相关东西，只最会在查询的时候给不同的字段设置不同的权重，但是得分具体怎么算的不太明白，花了4-5 天研究和总结了一下。这样不至于被别人问到“这个分数怎么算出来的？”，两眼一抹黑，不知其所以然，所以自我总结了下；

2.准备

在这里插入图片描述

我创建了一个 book 索引，是一个分片一个副本,有三条数据；我 match 查询 java 时， java 编程思想 的得分 0.5619609，深入理解 Java 虚拟机得分 0.40390933；（分片会影响得分，请先使用一个片，后面会给出解释）

3.详情

使用 explain 参数查询会给出得分计算过程
把 detail 全拿出来就是

"details" : [
            {
              "value" : 0.5619609,
              "description" : "score(freq=1.0), computed as boost * idf * tf from:",
              "details" : [
                {
                  "value" : 2.2,
                  "description" : "boost",
                  "details" : [ ]
                },
                {
                  "value" : 0.47000363,
                  "description" : "idf, computed as log(1 + (N - n + 0.5) / (n + 0.5)) from:",
                  "details" : [
                    {
                      "value" : 2,
                      "description" : "n, number of documents containing term",
                      "details" : [ ]
                    },
                    {
                      "value" : 3,
                      "description" : "N, total number of documents with field",
                      "details" : [ ]
                    }
                  ]
                },
                {
                  "value" : 0.54347825,
                  "description" : "tf, computed as freq / (freq + k1 * (1 - b + b * dl / avgdl)) from:",
                  "details" : [
                    {
                      "value" : 1.0,
                      "description" : "freq, occurrences of term within document",
                      "details" : [ ]
                    },
                    {
                      "value" : 1.2,
                      "description" : "k1, term saturation parameter",
                      "details" : [ ]
                    },
                    {
                      "value" : 0.75,
                      "description" : "b, length normalization parameter",
                      "details" : [ ]
                    },
                    {
                      "value" : 3.0,
                      "description" : "dl, length of field",
                      "details" : [ ]
                    },
                    {
                      "value" : 5.0,
                      "description" : "avgdl, average length of field",
                      "details" : [ ]
                    }
                  ]
                }
              ]
            }
          ]

3.1 粗略查看 ES 得分详情

我们发现第四行好像就是公式，而且与 details 数组的元素对应
而且每个元素都有一个 value 值，把 value 值带进公式，正好等于 0.5619608507173045

3.2 详细查看 es 得分

第一项 2.2 不用解释，是 es 默认的一个常数，我们看第二项 idf, computed as log(1 + (N - n + 0.5) / (n + 0.5)) from:和第三项 tf, computed as freq / (freq + k1 * (1 - b + b * dl / avgdl)) from:
第二项截图

小 n ：number of documents containing term，翻译一下，包含词项(也就是 java) 的文档数量，因为我们查询的是 name 字段，所以就是所有文档中 name 字段，包含 java 的文档数量，即 Java 编程思想 和***深入理解 Java 虚拟机*** ，vulue 等于 2 。
大 N ：total number of documents with field，翻译一下，有 name 这个字段的文档的数量，我们的三个文档都有 name 这个字段，即 Java 编程思想 、深入理解 Java 虚拟机 、Spring 5 个核心原理 value 等于 3 。
log(1 + (N - n + 0.5) / (n + 0.5)) = log(1 + (3 - 2 + 0.5) / (2 + 0.5) = log(1 + 1.5 / 2.5) = log1.6 =0.47000363，取的是自然数的对数，如图:

3.2 第三项

第三项截图

freq：occurrences of term within document，翻译一下，freq 是 frequency 的简写，频率的意思，即词项（java）在 ***Java 编程思想***发生的频率， value 等于 1.
k1：term saturation parameter，翻译一下，词项饱和度参数，value 是一个常数 1.2
b：length normalization parameter，翻译一下，长度规格化参数，value 是一个常数 0.75
dl：length of field，翻译一下，“字段”的长度，这里长度可不是 Java 编程思想.length()***，而是***Java 编程思想***能分成多少个词，看下面 3.3 截图，
avgdl：average length of field，翻译一下，“字段”的平均长度，同样也不是***Java 编程思想、深入理解 Java 虚拟机、Spring 5 个核心原理.length()/3，而是***Java 编程思想、深入理解 Java 虚拟机、Spring 5 个核心原理***分词后的长度除以 3，***3***是有name 字段的数量,也看下面 3.3 截图

3.3 ik 分词器分词

在这里插入图片描述

Java 编程思想、深入理解 Java 虚拟机、Spring 5 个核心原理，分词后词项太多截图不全，我放到 JSON 解析器下，可以看到数量是 15 ，平均数量是 5
freq / (freq + k1 * (1 - b + b * dl / avgdl) = 1 /(1 + 1.2 * (1 - 0.75 + 0.75 * 3 /5)) = 1 / (1 + 1.2 * (0.25 + 0.75 * 0.6)) = 1 / (1 + 1.2 * 0.7) = 1 / 1.84 = 0.54347826 约等于0.54347825，不纠结那 0.00000001至此，得分的所有项解读完毕，另一个查询结果“深入理解 Java 虚拟机”也可以按照这个方式计算出来

4.公式解释

已经知其然了，现在看知其所以然。主角就是 BM25 算法，公式如下
我们在 kibana 上 explain 后公式的第二项和第三项分别对应这个公式的这两部分：
倒写的 3，表示求和，就是***查询项***分词后，每个分词都要计算分数，把每个查询词项的分数相加，比如我查询的是 “Java Spirng”，那么会把 Java 得分计算出来，再把 Spring 得分计算出来，然后相加；
第二项，原谅我打不出这个公式，就是上面截图中上面两个箭头的第一个， idf 是 inverse document frequency 的简写，翻译一下，逆文档频率，详情是 log(1 + (N - n + 0.5) / (n + 0.5))；如果小 n 趋近于大 N，那么整个公式值越小，大家可以把 N 固定为 3，然后小 n 分别为 1、2、3 时，换算下是不是小 n 越大，计算结果越小。翻译成人话就是，当一个词在所有文档中都出现了，那么它显得不那么重要，得分就低了。
第三项，上面截图中上面两个箭头的第二个，如果说第二项是各个文档之间的纵向的比较，那么第三项更倾向于定位某个文档后的横向比较，
**第三项（1），比较频率，即这个词项出现的次数，ES 的的公式是freq / (freq + k1 * (1 - b + b * dl / avgdl))，比 BM25 分子少乘了一个 (k1 + 1)，有区别，但差别不大；因为分母 k1 * (1 - b + b * dl / avgdl))可以看作是一个常数，那么当 freq 越大时，freq / (freq + k1 * (1 - b + b * dl / avgdl))值越大，但是最大值不超过 1，是无限趋近于 1 的数，当 freq 越小时，计算结果越小，翻译成人话也好理解，词项频率越高，得分越高。
**第三项（2），比较词项占比，这里的此项是 name 字段分词后的个数除以所有 name 字段分词平均值，当 dl越大时分母越大，得分越小，翻译成人话是，比如我的 name 有一千个字且包含 java ，其他文档是十个字且包含 Java，那么我一千个字里面有个 Java 显得没那么重要。

4.分片情况下

如果你按照我上面计算时，发现中分词数量计算不对，那么很可能是你有多个分片，ES 不会把同一个字段各个分片的内容统一计算，而是每个片单独计算得分后就排名了，你可以通过指定 routing 来固定某个分片，验证得分结果。
在这里插入图片描述

5.前人的解读，帮助很大

bm25算法详解-bilibili
Elasticsearch BM25相关度评分算法超详细解释

6.一个不太成熟的使用

我项目中有一个索引，有两个字段，分别记录用户搜索的内容 searchFor 和这个内容被搜索的次数 count，我想要把 count 也融入得分公式中，ES 默认的得分记作 _score,我本想把 count 按 log10 取对数变成 _score*log10(count),但是当 count 超过很大时会把 _score的得分放大很多倍，不同次数的文档得分跨度也比较大；
研究 ES 的得分步骤后，我发现我的次数和第三项 freq / (freq + k1 * (1 - b + b * dl / avgdl))特别像，count 没有字段长度的比较所以我直接把关于长度 b(饱和度)和dl/avgdl去掉了，改成 count / (count+k1) = count / (count + 1.2），最终得分是 _score*count / (count + 1.2)
当然这样算不一定成熟，但是达到我的效果了，不同次数的文档得分跨度也变小了；因为我工作中的测试数据量不够，这个类 BM25的公式可能也不能这么硬套，要经过实际数据测试及业务需求匹配度验证后才能下定论，这只是一个不太成熟但是有点道理的使用，希望大家多留言讨论