今天周日,分享一篇特征交叉算法 Deep Crossing 的介绍。相比传统需要大量人工设计特征组合的做法,Deep Crossing 提供了一种几乎“零特征工程”的解决方案,尤其适用于广告推荐、点击率预测等大规模离散特征场景。在工业界中,它最初被应用于搜索广告系统中,通过结合深度神经网络结构与大规模并行训练,既提高了建模效率,也显著提升了模型效果。
接下来,我将深入对这篇论文展开全面解读。和以往一样,我会严格依照论文的结构框架,从研究背景、核心论点、实验设计到最终结论,逐一对文章的各个关键部分进行细致剖析 ,力求为大家呈现这篇时间序列预测论文的全貌,挖掘其中的研究价值与创新点。
1. Abstract
手工构造的组合特征一直是许多成功模型背后的“秘密武器”。然而,在网页规模(web-scale)的应用中,由于特征种类繁多、数据量庞大,这些手工构造特征的创建、维护和部署成本非常高。本文提出了一种名为 Deep Crossing 的模型,这是一种深度神经网络,可以自动组合特征,从而构建更优的模型。Deep Crossing 的输入是一组个体特征,这些特征可以是稠密的(dense)也可以是稀疏的(sparse)。网络会自动识别和学习重要的组合特征,而无需显式手工构造。该模型由嵌入层(embedding layer)、堆叠层(stacking layer)以及一系列残差单元(Residual Units)构成。
Deep Crossing 是通过一种建模工具实现的,该工具名为 Computational Network Tool Kit(CNTK),运行在多 GPU 平台上。借助它,研究者从零开始为一个大型付费搜索引擎构建了两个网页规模的模型,并且仅使用了生产模型特征子集的一部分,就取得了更优的效果。这表明,Deep Crossing 作为一种通用建模范式,不仅有潜力改进现有产品,还可以大大减少对特征工程和专业领域知识的依赖,从而加快新模型的开发进程并降低投入成本。
2. Introduction
传统的机器学习算法被期望能够充分利用所有输入特征来对新样本进行预测和分类。然而,单纯使用原始特征往往难以取得最优效果。因此,在工业界和学术界,有大量关于如何对原始特征进行变换工程的研究。其中一种主要的变换方式是基于多个特征构造函数,并将其输出作为学习器的输入。这类组合特征(combinatorial features)有时也被称为交叉特征(cross features)或多维特征(multi-way features)。