Tech Insight 栏目持续解读京东零售技术的最新技术论文和研究成果,为大家提供清晰的分析和有价值的洞见。
近期,京东零售技术团队5篇研究成果成功入选SIGIR 2025。
SIGIR全称为国际计算机学会信息检索大会(International ACM SIGIR Conference on Research and Development in Information Retrieval),是中国计算机学会CCF推荐的A类国际学术会议。SIGIR 2025会议共有1105篇投稿,接收率仅为21.5%。
本次分享的5篇研究成果聚焦电商搜索推荐和广告投放中的“精准匹配”问题。探索如何让用户更快找到想要的商品、让广告点击预测更准确,能精准触达需要的人。这些成果不仅攻克了复杂场景下的技术瓶颈,更在真实业务中验证了其推动增长的价值,邀请大家一起探讨。
01
Graph Isomorphism Network-Based Cohort Modeling in Click-Through Rate Prediction
| 中文标题:基于图同构网络的群组建模在点击率预测中的应用
| 下载地址:
https://dl.acm.org/doi/10.1145/3726302.3731936
| 论文作者:Xuan Ma, Hao Peng, Jia Duan, Zhanhao Ye, Langlang Ye, Zehua Zhang, Jie He, Changping Peng and Zhangang Lin
| 论文简介:
点击率预估任务通常会面临冷启动问题,即新用户因历史行为数据不足而难以进行准确预测。近期研究尝试通过编码器-解码器网络,基于活跃用户数据为冷启动用户生成虚拟行为表征。然而,现有方法存在两大缺陷:对活跃用户行为的编码技术过于简单化,且直接使用虚拟行为表征会导致用户兴趣表达受限、模型泛化能力不足。
为解决这些问题,我们提出创新性的基于图同构网络的群体建模方法。该方案通过GIN网络有效捕捉用户-物品高阶交互关系,从而更精细地刻画用户多样化兴趣。结合群体建模策略,可显著减少嵌入构建偏差,增强模型泛化能力。我们在公开数据集和工业数据集上的实验表明,相较现有方法,新方案对活跃用户和冷启动用户均带来显著效果提升。
02
Post-event Modeling via Causal Optimal Transport for CTR Prediction
| 中文标题:基于因果最优传输的后验信息建模用于CTR预测
| 下载地址:
https://dl.acm.org/doi/10.1145/3726302.3731942
| 论文作者:Yizhou Sang, Congcong Liu, Yuying Chen, Zhiwei Fang, Xue Jiang, Changping Peng, Zhangang Lin, Ching Law and Jingping Shao
| 论文简介:
精准的点击率(CTR)预测对在线广告至关重要,其依赖于浏览历史、用户画像等常规特征,以及广告位、页面行为等post-event特征。然而,post-event特征在推断阶段不可得,常面临训练-推断不一致性和低覆盖率问题,尤其是停留时间等仅存在于被点击item的点击后特征。
为解决这些挑战,我们提出因果最优传输框架(Causal Optimal Transport, COT),其创新性体现在:(1) 通过半监督伪标注生成点击后伪特征;(2) 利用因果分布调整器(Causal Distribution Shaper, CDS)实现精准的因果特征分布生成;(3) 通过最优传输优化特征分布,最小化分布差异以促进知识迁移。基于真实数据的实验验证了COT在通过改进用户兴趣建模和偏差缓解来提升CTR预测方面的优越性。理论分析证明了该框架的鲁棒性。
03
ADORE: Autonomous Domain-Oriented Relevance Engine for E-commerce
| 中文标题:基于领域自适应的电商相关性判别系统
| 下载地址:
https://dl.acm.org/doi/10.1145/3726302.3731944
| 论文作者:
Ming Pang, Chunyuan Yuan, Xiaoyu He, Zheng Fang, Donghao Xie, Fanyi Qu, Xue Jiang, Changping Peng, Zhangang Lin, Zheng Luo, Jingping Shao
| 论文简介:
针对电商相关性判别场景所面临的难样例数据稀缺,线上浅层模型推理判别能力较弱的问题,本文提出了基于思维链推理的相关性大模型,自动分析在线曝光商品并生成领域特定的难样本,并通过KTO强化学习算法自动对齐线上用户行为。此外,还设计了错误类型感知的生成大模型,根据线上模型易错场景自动生成对抗性样本。最后,为了将大模型知识迁移到线上浅层模型,我们从COT分析结果中提取关键属性特征显式增强学生模型的表示与推理能力。大规模实验及在线AB实验表明,ADORE在相关性和广告收入等关键指标上显著优于其它方法,为工业级相关性建模提供了资源高效的新范式。
04
Multi-objective Aligned Bidword Generation Model for E-commerce Search Advertising
| 中文标题:多目标对齐广告买词生成模型用于电商搜索广告
| 下载地址:
https://arxiv.org/abs/2506.03827
| 论文作者:Zhenhui Liu, Chunyuan Yuan, Ming Pang, Zheng Fang, Li Yuan, Xue Jiang, Changping Peng, Zhangang Lin, Zheng Luo and Jingping Shao
| 论文简介:
检索系统是电商搜索广告中将用户查询与广告匹配的关键模块。用户的多样化表达方式往往会产生大量长尾查询,这些查询无法与商家的关键词匹配,导致检索效率低下。现有的方法,例如查询日志挖掘和向量匹配,无法同时优化改写的相关性、真实性和广告收益。
本文提出了一种新颖的多目标对齐买词生成模型 (MoBGM),它包含判别器、生成器和偏好对齐模块。为了同时提高查询和重写的相关性和真实性,并最大化平台收益,我们设计了一个判别器来预测每个查询和改写对的三个得分。利用判别器的反馈信号,我们训练了一个多目标对齐的买词生成器,以最大化这三个目标的综合效果。大量的离线和在线实验表明,我们提出的算法显著优于目前最先进的算法。该算法部署后,为平台创造了巨大的商业价值,验证了其可行性和鲁棒性。
05
Hierarchical User Long-term Behavior Modeling for Click-Through Rate Prediction
| 中文标题:层次化用户长期行为建模在点击率预估中的应用
| 下载地址:
https://dl.acm.org/doi/10.1145/3726302.3730207
| 论文作者:Mao Pan, Xuanhua Yang, Nan Qiao, Dongyue Wang, Feng Mei, Xiwei Zhao, Sulong Xu
| 论文简介:
在工业界,点击率(CTR)预测的最先进方法主要依赖于基于 Transformer 的网络及其变体。然而,随着用户行为序列变长,在受限的推理时间内采用自注意力网络进行 CTR 预测面临重大挑战。为解决这一问题,主流方法采用经典的两阶段范式:通用搜索单元(GSU)用于从长期行为中快速检索相关物品,精确搜索单元(ESU)用于对 GSU 筛选出的物品应用有效的多头目标注意力(MHTA)。这些两阶段算法存在一定局限性:首先,GSU 需要为不同的目标物品检索不同的目标子序列,这使得 ESU 只能采用次优的 MHTA 网络,而非更有效的基于 Transformer 的网络;其次,GSU 仅从用户行为序列中检索部分物品,忽略了用户兴趣的演变以及不同兴趣点之间的关联。
为此,本文提出一种端到端层次化用户长期行为建模网络用于 CTR 预测(HBM)。具体而言,首先采用多兴趣路由层将用户的长期行为分流到多个聚合的兴趣簇中;此外,引入精细兴趣学习网络,从初始聚合表示中筛选出 top-k 个兴趣;随后,利用 Transformer 网络对与这些 top-k 兴趣相关的用户行为序列进行精细化建模,同时在粗粒度层面捕捉不同用户兴趣之间的内在关联。在京东推荐平台的在线 A/B 有很大的提升。
扫一扫,加入技术交流群