论文Disguise Adversarial Networks for Click-through Rate Prediction

本文引入了一个对抗性学习框架来提高广告推荐CTR预测。使用DAN方法给广告化妆。DAN将一个不受欢迎的广告impression(non-click)伪装成一个有趣的,然后鼓励分类器将这些伪装的广告分类到正类的推荐中。在另一方面,鉴别器将通过无监督的信息理论分配策略对这些伪装的广告进行优化分配到其本身的类别。

DAN由GAN而来。GAN有许多不同的创新,然而它的中心概念仍然是生成器G和分类器D的一个博弈过程。它们都可以用一个深度神经网络DNN来实现。生成器将一个随机的样本向量映射成一个图像。鉴别器从真实世界图像中确定出伪装的图像zi。这个博弈过程公式化如下:

广告数据中一个最重要的问题就是不平衡的标签分布,即有限的正例(点击过得)vs冗余的反例(未被点击的)。解决该问题的一个方案是增加小正群的信息。然而,现实生活中直接从真实世界中直接获得更多的正例信息也许不可能。受GAN的启发,可以考虑通过一个生成深度神经网络生成更多正例。

举个例子,如果我们能够对不喜欢的广告的一些属性稍作修改,它可能有机会变成一个有趣的。考虑广告特征向量包含一个表示广告展示时间的条目。如果广告impression在早上10点推送给用户(广告的时间特征标记为“早上”),这条广告可能不会被点击,因为这在早上是工作时间。相应的,一个没有被点击的记录累计在训练数据中,但是这并不是说该广告本身不好不被用户喜欢。因此,如果固定这个广告其他的所有特征,但是只修改广告展示时间,将“早上”改为“晚上”,这个不受喜欢的广告可能会变成一个受欢迎的,并且得到一个点击。

鉴别器有两个目的。第一个“艰难目的”是将所有伪装的广告分到反例(未被点击)类别中。然而这个目标太严格不合理。这里应该有许多成功伪装的广告,例如上面举的例子中,在化妆后该广告能够被分到正例类别中。如果将所有伪装的广告都视为非点击的,这些成功伪装的广告和他们相应的有趣特征内容可能不能正确分类到鉴别器的正例中。因此,我们为分类器提出了一个更合理的“温和目标”。根据他们本身的属性,将伪装的数据分成两类:点击和未点击。我们设计了一个聚类目标来鼓励两个类别之间的一个很大的边距。牢记:“温和目标”能够漂亮地看待成功和不成功伪装的样本而没有任何误判。

鉴别器神经网络处理伪装数据的两种手段:“艰难损失”或“温和损失”。采用“温和损失”,因为它允许一些负例数据转化为一个正例数据。然而难点在于不知道伪装数据的哪一部分表现像正例样本,哪一部分仍然像反例。为了解决这一问题,最大化正例和反例伪装样本之间的信息理论边距(已有的工作)。和其他监督学习中的边距不同,这种信息理论边距是绝对无监督的。这种方法也称为在多重早期工作中的鉴别集群。

结合前面两部分损失,为鉴别器神经网络形成一个最终的训练目标:

前两项来自于真实世界标签数据的交叉熵,最后一项小化伪装数据的边距。

详细的训练步骤如下:

实验使用的两种数据集:

使用了和没有使用伪装对抗策略的鉴别器比较:

在图中,我们用虚线和实线表示监督的鉴别器和DAN。不同的颜色对应不同的数据集。在训练开始的时候,监督的和对抗的鉴别器有相似的性能。在第5个epoch后,对抗训练策略在两个数据集上都有了明显的AUC提升。此外,曲线的趋势暗示着DAN在博弈过程中的进化。在每次迭代中都实现一个相对高的性能。

用于CTR预测和推荐不同算法的性能比较:

将DAN和别的方法比较。DNN和SVM作为监督算法。表2中,在不平衡给出的3个方法,第一个Centroid应用的是下采样策略,后两个是上采样方法。

除了SGAN,大多数其他的GAN不是为分类而设计的。因此,只是对现有的GAN稍作修改(Modified-GAN),使之能应用于CTR问题。实现:首先运行一个传统的GAN来生成许多伪造的广告。在GAN训练后,生成的伪造广告能够成功通过可靠性验证步骤(即传统GAN中的鉴别器)。随之将其作为无监督样本,和有监督的CTR记录一起用于半监督训练。最后,除了本文提出的DAN,还引入了两种变体。第一个变体是tough-lossDAN,另一个变体是Noise-DAN,使用一个随机的生成器为鉴别器生成更多的样本。在NoiseDAN中,鉴别器神经网络和DAN中的一样,但是伪造的样本都是随机生成的。

表2中汇报了这些方法的性能。除了AUC指示器外,还有两种指示器。第一个是推荐频率(Rd-frequency):一个推荐有多频繁地被提出。只有CTR预测模型指示为正例类别才进行推荐。因此,推荐频率表示通过推荐方法预测为正例的概率。此外,调查基于Rd-CTR的CTR,计算所有推荐中的CTR。这种评估策略和线下评估策略类似。

即使基于性能最好的DAN模型,在两个数据集上,推荐频率也只有11%和5%。但是,DAN大量提升了Rd-CTR的性能。从AUC的得分来看,DAN比其他学习方法出色。只有DAN模型在两个数据集上的AUC得分超过了0.7.通过比较连个数据集可以发现,移动数据集要比显示数据集糟糕。这部分因为Criteo显示数据已经由数据提供方上采样了,保持有一定的平衡度,而移动数据更接近真实世界的数据。此外,当与深度学习方法相比时,没有发现现有不平衡分类算法明显的优势(通过比较表2中“监督”类别的DNN结果和“不平衡”类别中的所有方法)。这表示深度学习模型也许在处理不平衡标签分布的样本自带有一些健壮的属性。但是对抗深度学习(例如DAN)模型进一步提高传统监督深度学习。

实验结果可以发现,在深度学习中,训练数据越大分类性能越好。但是,当考虑进复杂度,在DAN中减少样本大小也许是个权衡。在测试数据上发现,即使把训练样本大小减少至10%,AUC也不会显著下降。而且还比表2中的大部分方法好。这部分是由于在对抗学习框架中增加自身数据的机制。因此,减少总的训练大小的同时保持一个好的性能是合理的。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值