CAN: Feature Co-Action Network for Click-Through Rate Prediction
Weijie Bian, Kailun Wu, Lejian Ren, Qi Pi, Yujing Zhang, Can Xiao,Xiang-Rong Sheng, Yong-Nan Zhu, Zhangming Chan, Na Mou, Xinchen Luo, Shiming Xiang, Guorui Zhou, Xiaoqiang Zhu, Hongbo Deng
Alibaba Group, Chinese Academy of Sciences
https://dl.acm.org/doi/pdf/10.1145/3488560.3498435
特征交互在机器学习中是一种重要的任务,在点击率预估中非常有必要。近年来,深度神经网络可以从原始稀疏特征中自动学习隐含的非线性交互,因此在工业界点击率预估中广泛应用。
然而,深层神经网络学到的隐含特征交互无法完全保持原始以及经验特征交互的完备表示能力,无法保证没有损失。比如,学习特征A和特征B的简单组合方式为显式笛卡尔积时,所得到的新特征效果可以优于先前隐式特征交互模型,比如基于因子分解机的模型,及其变体模型。
这表明,在显式和隐式特征交互模型中仍然有比较大的差距。但是,学习所有显式特征交互表示需要很大的样本空间,比如需要N倍原始参数的空间,在大多数工业界应用中,N可能会特别大。
这篇文章中,作者们提出了一种协同作用网络,CAN,来近似显式结对特征交互,同时不引入过多额外的参数。更具体的,给定特征A和关联特征B,二者之间的交互可以通过学习两个参数集合来得到,其中一个是特征A的embedding,还有一个是特征B的多层感知机表示。
近似特征交互可以通过输入特征A的embedding来得到,同时借助特征B的多层感知机网络。作者们将这种特征交互称为特征协同作用,这种特征协同网络单元可以提供一种特别强的能力,可以对复杂特征交互进行拟合。
除此之外,当多层感知机只有一层并且只有一个输出时,因子分解机可以看做CAN单元的一种特例。
在公开和工业界数据集上的实验结果表明,CAN可以超越STOA点击率预估模型以及笛卡尔积方法。此外,CAN已经部署在阿里的战士广告系统中,CTR提升了12%,千次展示收益提升8%,商业价值层面提升巨大。
特征交互图示如下