《推荐系统实践》第八章 评分预测问题

本文详细介绍了评分预测问题,从离线实验方法到各种预测算法,包括平均值、基于邻域的方法和矩阵分解模型。重点讨论了LFM模型及其改进,如加入偏置项和时间信息的SVD++模型,以及模型融合策略,旨在提高推荐系统的预测精度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TopN推荐,即给定一个用户,如何给他生成一个长度为N的推荐列表,使该推荐列表能够尽量满足用户的兴趣和需求。TopN推荐非常接近于满足实际系统的需求,实际系统绝大多数情况下就是给用户提供一个包括N个物品的个性化推荐列表。

评分预测问题最基本的数据集就是用户评分数据集。该数据集由用户评分记录组成,每一条评分记录是一个三元组(u,i, r),表示用户u给物品i赋予了评分r,本章用r_{ui}表示用户u对物品i的评分。因为用户不可能对所有物品都评分,因此评分预测问题就是如何通过已知的用户历史评分记录预测未知的用户评分记录。

8.1 离线实验方法

评分预测问题基本都通过离线实验进行研究。在给定用户评分数据集后,研究人员会将数据集按照一定的方式分成训练集和测试集,然后根据训练集建立用户兴趣模型来预测测试集中的用户评分。对于测试集中的一对用户和物品(u, i),用户u对物品i的真实评分是r_{ui},而推荐算法预测的用户u对物品i的评分为\widehat{r}_{ui},那么一般可以用均方根误差RMSE度量预测的精度:

评分预测的目的就是找到最好的模型最小化测试集的RMSE。

8.2 评分预测算法

8.2.1 平均值

最简单的评分预测算法是利用平均值预测用户对物品的评分的。

1. 全局平均值

它的定义为训练集中所有评分记录的评分平均值:

而最终的预测函数可以直接定义为:

2. 用户评分平均值

用户u的评分平均值\overline{r_{u}}定义为用户u在训练集中所有评分的平均值:

而最终的预测函数可以定义为:

3. 物品评分平均值

物品i的评分平均值\overline{r_{i}}定义为物品i在训练集中接受的所有评分的平均值:

而最终的预测函数可以定义为:

4. 用户分类对物品分类的平均值

假设有两个分类函数,一个是用户分类函数\phi,一个是物品分类函数\varphi\phi(u)定义了用户u所属的类,\varphi(i)定义了物品i所属的类。那么,我们可以利用训练集中同类用户对同类物品评分的平均值预测用户对物品的评分,即:

前面提出的全局平均值,用户评分平均值和物品评分平均值都是类类平均值的一种特例。
 如果定义\phi(u) = 0, \varphi(i) = 0,那么\widehat{r}_{ui}就是全局平均值。
 如果定义\phi(u) = u, \varphi(i) = 0,那么\widehat{r}_{ui}就是用户评分平均值。
 如果定义\phi(u) = 0, \varphi(i) = i ,那么\widehat{r}_{ui}就是物品评分平均值。

除了这3种特殊的平均值,在用户评分数据上还可以定义很多不同的分类函数。
 用户和物品的平均分:对于一个用户,可以计算他的评分平均分。然后将所有用户按照评分平均分从小到大排序,并将用户按照平均分平均分成N类。物品也可以用同样的方式分类。
 用户活跃度和物品流行度:对于一个用户,将他评分的物品数量定义为他的活跃度。得到用户活跃度之后,可以将用户通过活跃度从小到大排序,然后平均分为N类。物品的流行度定义为给物品评分的用户数目,物品也可以按照流行度均匀分成N类。

8.2.2 基于邻域的方法

基于用户的邻域算法和基于物品的邻域算法都可以应用到评分预测中。

基于用户的邻域算法认为预测一个用户对一个物品的评分,需要参考和这个用户兴趣相似的用户对该物品的评分,即:

S(u, K)是和用户u兴趣最相似的K个用户的集合,N(i)是对物品i评过分的用户集合, r_{vi}是用户v对物品i的评分, \overline{r_{v}}是用户v对他评过分的所有物品评分的平均值。

用户之间的相似度w_{uv}可以通过皮尔逊系数计算:

基于物品的邻域算法在预测用户u对物品i的评分时,会参考用户u对和物品i相似的其他物品的评分,即:

S(i, K)是和i最相似的物品集合,N(u)是用户u评过分的物品集合, w_{ij}是物品之间的相似度,\overline{r_{i}}是物品i的平均分。

物品的相似度可以用以下方式进行计算。(参见Item-based Collaborative Filtering Recommendation Algorithms,http://files.grouplens.org/papers/www10_sarwar.pdf

第一种是普通的余弦相似度(cosine similarity):

第二种是皮尔逊系数(pearson correlation):

\overline{r_{i}}是物品i的平均分。

第三种被Sarwar称为修正的余弦相似度(adjust cosine simila

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值