2、推荐系统中的数学考虑因素

sea99

于 2025-06-07 10:45:29 发布

阅读量157

点赞数 4

CC 4.0 BY-SA版权

分类专栏：构建高效推荐系统实战文章标签：推荐系统数据处理模型训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sea99/article/details/148674879

构建高效推荐系统实战专栏收录该内容

9 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

推荐系统中的数学考虑因素

1. 数据的形状

在推荐系统中，数据的形状和分布对系统的设计和性能有着至关重要的影响。常见的数据分布形态包括齐夫定律（Zipf’s Law）和马太效应（Matthew Effect）。这些现象不仅决定了数据的稀疏性和偏斜性，还影响了系统的架构决策。

1.1 齐夫定律

齐夫定律指出，大型语料库中独特项目的观察分布遵循一种特定的模式：出现频率呈指数级下降。例如，在一个文本语料库中，最常见的词出现的频率远远高于次常见的词，而次常见的词又比更少见的词出现得更频繁。这种分布模式在推荐系统中也普遍存在。

1.2 马太效应

马太效应则描述了热门项目的点击率或热门用户的反馈率显著高于平均水平的现象。例如，热门电影的点击次数远超普通电影，活跃用户的评分数量也远超普通用户。这种现象会导致推荐系统中的“富者愈富”现象，即最受欢迎的项目继续吸引更多的注意力，而冷门项目则难以获得曝光机会。

1.3 数据稀疏性

随着评分越来越倾向于最受欢迎的项目，最不受欢迎的项目因缺乏数据和推荐而陷入困境，这就是所谓的数据稀疏性。数据稀疏性不仅影响了协同过滤算法的效果，还可能导致推荐结果过于集中于热门项目，忽视了长尾项目。

2. 相似性概念

相似性是驱动现代推荐系统的底层数学思想。在推荐系统中，相似性用于衡量项目或用户之间的相似程度。以下是几种常用的相似性度量方法：

2.1 余弦相似度

余弦相似度用于衡量两个向量之间的夹角余弦值，适用于高维稀疏数据。计算公式如下：

[
\text{Cosin

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。