没有合适的资源?快使用搜索试试~ 我知道了~
BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法
资源推荐
资源详情
资源评论






















BM25 算法浅析
2011-02-10 13:38:00 by deepblue
BM25 算法,通常用来作搜索相关性平分。一句话概况其主要思想:对 Query 进行语素解析,
生成语素 qi;然后,对于每个搜索结果 D,计算每个语素 qi 与 D 的相关性得分,最后,将 qi 相
对于 D 的相关性得分进行加权求和,从而得到 Query 与 D 的相关性得分。
BM25 算法的一般性公式如下:
其中,Q 表示 Query,qi 表示 Q 解析之后的一个语素(对中文而言,我们可以把对 Query 的分
词作为语素分析,每个词看成语素 qi。);d 表示一个搜索结果文档;Wi 表示语素 qi 的权重;
R(qi,d)表示语素 qi 与文档 d 的相关性得分。
下面我们来看如何定义 Wi。判断一个词与一个文档的相关性的权重,方法有多种,较常用的是
IDF。这里以 IDF 为例,公式如下:
其中,N 为索引中的全部文档数,n(qi)为包含了 qi 的文档数。
根据 IDF 的定义可以看出,对于给定的文档集合,包含了 qi 的文档数越多,qi 的权重则越低。
也就是说,当很多文档都包含了 qi 时,qi 的区分度就不高,因此使用 qi 来判断相关性时的重要
度就较低。
我们再来看语素 qi 与文档 d 的相关性得分 R(qi,d)。首先来看 BM25 中相关性得分的一般形
式:

其中,k1,k2,b 为调节因子,通常根据经验设置,一般 k1=2,b=0.75;$ 为 qi 在 d 中的出
现频率,q$ 为 qi 在 Query 中的出现频率。dl 为文档 d 的长度,avgdl 为所有文档的平均长度。
由于绝大部分情况下,qi 在 Query 中只会出现一次,即 q$=1,因此公式可以简化为:
从 K 的定义中可以看到,参数 b 的作用是调整文档长度对相关性影响的大小。b 越大,文档长度
的对相关性得分的影响越大,反之越小。而文档的相对长度越长,K 值将越大,则相关性得分会
越小。这可以理解为,当文档较长时,包含 qi 的机会越大,因此,同等 $ 的情况下,长文档与
qi 的相关性应该比短文档与 qi 的相关性弱。
综上,BM25 算法的相关性得分公式可总结为:
从 BM25 的公式可以看到,通过使用不同的语素分析方法、语素权重判定方法,以及语素与文
档的相关性判定方法,我们可以衍生出不同的搜索相关性得分计算方法,这就为我们设计算法提
供了较大的灵活性。
剩余9页未读,继续阅读
资源评论


Archy_Wang
- 粉丝: 2842
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 如何禁止c盘安装软件.doc
- 基于创新驱动的智慧城市建设研究.doc
- InventoiLogic设计方案自动化技巧及案例分享.doc
- MATLAB课程设计-图像的变换域分析.doc
- 针对网络犯罪之认定探讨-兼评刑法相应立法的完善.docx
- 单片机智能循迹小车设计方案与制作.doc
- 单片机与PC机通信的研究与设计开发.doc
- 大数据时代对市场营销的影响.doc
- (xuexue)全国计算机等级考试级辅导讲义.doc
- 立足实践型人才培养深化计算机专业课程建设.doc
- 工程项目管理附方法.doc
- 光纤通信系统的光接收机前端电路的方案设计课程方案设计.doc
- 第十四章相对论-电脑基础知识-IT计算机-专业资料.ppt
- MATLAB语言说课课件.ppt
- 配网自动化在电力企业配网运维中的应用.docx
- 水务集团信息化平台中心的方案筹划.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
