FLEN: 利用场信息缓解梯度耦合的大规模CTR预测模型

FLEN是一种解决大规模CTR预测中梯度耦合问题的模型,通过field-wise bi-interaction pooling技术和Dicefactor dropout策略,实现了在减少参数量和计算时间的同时,有效缓解梯度耦合,提高模型效果。实验证明,FLEN在线上和线下环境中均表现出色,尤其是在处理大规模特征时,相比FFM和NFFM等模型,其训练速度和效率更高。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是由美图公司,腾讯公司和厦门大学共同发表的一篇文章,题目为FLEN: Leveraging Field for Scalable CTR Prediction

文章提出了field-wise bi-interaction pooling技术,解决了在大规模应用特征field信息时存在的时间复杂度和空间复杂度高的困境,同时提出了一种缓解梯度耦合问题的方法,dicefactor。该模型已应用于美图的大规模推荐系统中,持续稳定地取得业务效果的全面提升

下面将从论文背景,梯度耦合问题简介,FLEN模型结构以及实验对比几个方面为大家介绍这篇文章~

背景

点击率预估问题中,建模特征交互对于模型的效果起着至关重要的作用。然而,大部分基于因子分解的模型都存在着一个梯度耦合的问题。

本文提出了一个Field-Leveraged Embedding Network (FLEN) 模型,该模型能够以一种时空高效的方法缓解广泛存在的梯度耦合问题,从而得以在生产环境中部署服务。

FLEN使用了一个filed-wise bi-interaction pooling技术。通过利用特征所属的场的信息,filed-wise bi-interaction pooling能够以更少的模型参数量和更短的计算时间消耗来同时捕获inter-filed和intra-filed之间的特征交互。

同时提出一种dropout策略Dicefactor。Dicefactor随机丢弃一定的bi-linear交互的结果(元素级别)来帮助缓解梯度耦合问题。

FLEN也是首次公开提出的能够将不同的浅层模型如FM,MF,FwFM通过一个统一的框架表达的模型。

关于梯度耦合问题

FM存在的梯度耦合问题

  • 假设有如下表达式
    y ^ F M = b + w 男 + w 伦敦 + w 周二 + < v 男 , v 伦敦 > + < v 男 , v 周二 > + < v 伦敦 , v 周二 > \hat y_{FM}=b+w_{男}+w_{伦敦}+w_{周二}+<v_{男},v_{伦敦}>+<v_{男},v_{周二}>+<v_{伦敦},v_{周二}> y^FM=b+w+w伦敦+w周二+<v,v伦敦>+<v,v周二>+<v伦敦,v周二>
    其中 v v v为FM模型的隐向量

  • 利用反向传播算法更新隐向量梯度时
    关于 v 男 v_{男} v的梯度为 ∇ v 男 y ^ F M = v 伦敦 + v 周二 \nabla_{v_{男}}\hat y_{FM}=v_{伦敦}+v_{周二} vy^FM=v伦敦+v周二

如果我们假设性别和星期是独立的,那么理想情况下应该有 v 男 v_{男} v v 周二 v_{周二} v周二是正交的,但是上述梯度会持续朝着 v 周二 v_{周二} v周二的方向更新 v 男 v_{男} v,反过来, v 周二 v_{周二} v周二也会朝着 v 男 v_{男} v的方向被更新

以上就是我们说的梯度耦合问题,由于FM使用了相同的隐含向量和不同场内的特征进行交互,在一定程度上损失了模型的表达能力,

  • 如何解决这个问题
    FFM模型提出了利用特征所属的场的信息来缓解梯度耦合方法,每个特征与不同场下的特征交互时都使用了不同的隐向量。

y ^ F F M = b + w 男 + w 伦敦 + w 周二 + < v 男 ( 与地点 ) , v 伦敦 ( 与性别 ) > + < v 男 ( 与星期 ) , v 周二 ( 与性别 ) > + < v 伦敦 ( 与星期 ) , v 周二 ( 与地点 ) >

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值