论文链接:Mamba4Rec: Towards Efficient Sequential Recommendation with Selective State Space Models
摘要
序列推荐旨在评估动态的用户偏好以及用户历史行为之间的序列依赖关系。尽管基于transformer的模型已被证明对序列推荐是有效的,但它们受到注意力算子的二次计算复杂性导致的推理效率低下的问题的困扰,特别是对于长程行为序列。受最近状态空间模型(ssm)成功的启发,本文提出Mamba4Rec,这是第一个探索选择性ssm高效序列推荐潜力的工作。基于基础的Mamba模块,即一个带有硬件感知并行算法的选择性SSM,我们结合了一系列序列建模技术,在保证推理效率的同时,进一步提升模型性能。在两个公开数据集上的实验表明,Mamba4Rec能够很好地解决效果-效率困境,在效果和效率上都优于基于RNN和基于注意力的基线。代码可以在https://github.com/chengkai-liu/Mamba4Rec上找到。
- 关键词:序列推荐,状态空间模型
1.引言
个性化在线服务严重依赖顺序推荐系统来捕捉动态的用户偏好[15,16,25]。这些系统旨在通过有效建模用户历史行为之间的时序依赖关系来预测用户未来的交互行为。早期的神经方法采用卷积神经网络(CNNs)[23]和循环神经网络(RNNs)[10,14],它们率先将神经网络应用于顺序推荐,但面临灾难性的遗忘问题[13,19]。最近,研究人员开始引入Transformer[24]作为骨干模块,并利用自注意力机制对动态用户行为序列进行建模[11,26]。尽管这些基于注意力的方法具有显著的性能,但由于注意力算子固有的二次计算复杂性,这些方法普遍存在推理效率低下的问题,特别是对于长用户行为序列或大规模数据集
。
为了解决推荐性能和推理效率的两难问题,文中将状态空间模型(SSM)[5]作为序列推荐的核心算子。SSM(如S4[5]、S5[20]、Mega[17])在各种自然语言任务中被广泛用作rnn、cnn和transformer的替代品。由于递归性,它们具有固有的推理效率,同时通过结构化状态矩阵处理长程依赖关系具有强大的性能。此外,最近提出的一种SSM变体(Mamba[3])进一步引入了数据依赖的选择机制,通过高效的硬件感知设计来解决先前SSM的数据和时不变问题。这使得模型可以根据输入数据有选择地提取必要的知识,并过滤掉不相关的噪声,从而带来卓越的序列建模性能
。
本文提出Mamba4Rec,这是第一个探索选择性SSM高效序列推荐潜力的工作。在基本Mamba块[3]的基础上,结合并讨论了一系列技术(如位置嵌入[24]、残差连接[8]、层归一化[1]和位置前馈网络[24]),补充了系统的非线性,稳定了训练动态,从而进一步提升了序列建模能力。
本文的主要贡献如下:
- 本文首次探索了选择性SSM在序列推荐中的潜力,解决了推荐性能和推理效率的困境。
- 本文提出Mamba4Rec,将基本Mamba块与各种技术相结合,如层规范化和前馈网络,在不牺牲推理效率的情况下,进一步提高了顺序建模能力。
- 在两个公开数据集上的实验表明,与基于RNN和基于注意力的基线方法相比,Mamba4Rec在有效性和效率方面均具有优越性。
2.预备知识
2.1 问题陈述
在序列推荐中:
U = { u 1 , u 2 , … , u ∣ U ∣ } \mathcal{U}=\left\{u_1, u_2, \ldots, u_{|\mathcal{U}|}\right\} U={
u1,u2,…,u∣U∣}:用户集
V = { v 1 , v 2 , … , v ∣ V ∣ } \mathcal{V}=\left\{v_1, v_2, \ldots, v_{|\mathcal{V}|}\right\} V={
v1,v2,…,v∣V∣}:商品集
S u = { v 1 , v 2 , … , v n u } \mathcal{S_u}=\left\{v_1, v_2, \ldots, v_{\mathcal{n_u}}\right\} Su={
v1,v2,…,vnu}:用户 u u u对应的按时间顺序排列的交互序列,其中