文章目录
1 引言
1.1 问题
在竞争激烈的CRM(客户关系管理)领域,邮件和推送通知等沟通方式的效果至关重要。优化这些沟通内容能显著提升用户参与度,这对于维护客户关系和推动业务增长非常关键。
在Uber,这些沟通通常从使用邮件模板创建内容开始,模板通常包含多个组成部分:主题行、预览文本、标题、横幅、正文等。其中,主题行和预览文本对邮件的打开率尤为关键,它们通常是客户首先接触的元素,能够显著影响邮件的打开率。为了克服静态优化方法(如A/B测试)的局限,我们采用了一种称为上下文多臂赌博机(contextual bandits)的多臂赌博机方法。
1.2 为什么这是一个上下文多臂赌博机问题?
每个客户与邮件内容的互动都是独特的,受其个人偏好、过去行为以及接收信息时的具体环境影响。例如,有些用户可能偏爱简洁、行动导向的主题行,而另一些用户则可能喜欢带有表情符号的详细且信息丰富的主题行。类似地,不同用户群体对预览文本的效果也会有很大差异。
传统的A/B测试方法会将固定流量分配给每个创意设计,并在测试结束后推广表现最好的版本。
该方法存在三个缺点。首先,获得有意义的结果需要大量样本,这限制了可测试设计的数量。例如,一个传统的A/B测试通常需要4-6周时间才能比较2-3个版本,而扩展到100个以上版本可能需要数年时间,因为需要足够的数据达到统计显著性。
相比之下,多臂赌博机方法能动态重新分配流量给表现更好的版本,使得测试100个以上版本在几周内即可收敛。其次,洞察结果仅在测试结束后可用,导致长时间暴露于次优体验,影响活动表现并减缓迭代速度。最后,在动态环境中,用户偏好可能随时间变化,使得A/B测试结果在实验结束时失去相关性。
另一方面,这种多样性正是经典的上下文多臂赌博机问题,其中上下文包括每个用户的具体偏好和创意内容信息。上下文多臂赌博机方法允许我们动态调整创意内容以优化用户参与度。通过将邮件每个组成部分的不同组合(如图1所示)视为赌博机的臂,将用户上下文视为环境,我们可以应用机器学习模型预测并提供能最大化打开率的最优邮件版本。
图1:通过组合各组件不同备选值生成的邮件版本示意图。
基于上述考虑,上下文多臂赌博机算法不断从历史用户数据中学习,逐步优化策略,更有效地实现内容个性化。这种方法提升了每次沟通的相关性,并通过满足多样化的用户期望进一步推动更高的参与度。
1.3 我们取得了什么成果?
我们采用了GPT嵌入技术来生成变体内容特征,使传统机器学习模型成为解决方案的第一步。我们还开发了基于XGBoost™的模型来解决跨活动的上下文多臂赌博机问题。
XGBoost专注于预测,而SquareCB则专注于探索与利用的平衡。作为工作的一部分,我们将新模型集成到Uber的内容优化平台中,以提升用户参与度。
2 架构
图2展示了Uber使用上下文多臂赌博机策略实现个性化CRM沟通的简化架构。营销经理作为系统的主要用户,负责收集CRM沟通受众、设置沟通调度器及创建沟通内容模板,之后个性化的CRM沟通才会发送给最终用户。
简而言之,当沟通发起时,选定用户被送入沟通调度器,基于其上下文特征渲染邮件内容。我们的模型接收输入,包括用户上下文特征和每个邮件变体的GPT嵌入,用以预测该用户打开对应邮件变体的概率。GPT嵌入将邮件内容转换为机器学习模型可处理的数值表示。选取预测概率最高的邮件变体,并结合后处理(如下文SquareCB所述),最终渲染并发送给用户。图2中的创意优化平台(COP)即是利用多臂赌博机和上下文多臂赌博机技术选择最有效沟通版本的优化工具。
用户对沟通的互动数据会被记录并存储于Uber数据存储中。这些用户行为数据被抽取和转换,用于训练和重新训练机器学习模型。
我们的解决方案利用Uber多个平台发送优化的沟通内容给终端用户,收集反馈和用户行为数据,并训练和服务于优化模型,以提升用户参与度。这些组件成功集成,打造了一个可扩展、灵活且可靠的Uber CRM个性化内容优化平台。
图2:基于上下文多臂赌博机策略的个性化CRM沟通解决方案架构。
3 优化模型
3.1 LinUCB
LinUCB是一种上下文多臂赌博机算法,假设奖励与上下文特征之间存在线性关系。它通过利用线性回归中置信区间的闭式计算,实现探索与利用的平衡。在每个时间步,算法选择使奖励上置信界最大的臂,公式如下(参考论文):
其中 a t a_t at为每步选择的臂, x t x_t xt为上下文特征矩阵,矩阵 A = X T × X + I A = X^T \times X + I A=XT×X+I。
该方法概念简单且易于实现。实际应用中,由于用户反馈延迟,模型通常批量训练,无法实现实时在线学习。LinUCB的一个优势是闭式公式的计算效率,允许在每个时间步对整个历史数据集进行训练,使模型无状态,便于高效更新和扩展。
3.2 XGBoost与SquareCB
为了捕捉上下文特征与奖励之间更复杂的关系,我们结合使用XGBoost和SquareCB算法,如图3所示。与假设线性关系的LinUCB不同,XGBoost能建模非线性交互。此外,通过将文本嵌入纳入输入特征,XGBoost可以利用全局信息并从跨活动数据中学习。
然而,估计XGBoost输出的预测区间较为困难。我们没有直接对XGBoost预测的不确定性建模,而采用更简单的方法。SquareCB算法根据每个动作得分与最佳臂得分的差距,反比例地分配概率。
图3:XGBoost模型与SquareCB算法的优化版本选择概览。
SquareCB算法的一个关键优势是其对预测模型的灵活性,不依赖于具体模型类型,非常适合与XGBoost集成。这种适应性使得即使使用复杂模型如XGBoost,也能实现高效且有效的探索与利用策略。
3.3 泛化性与可扩展性
使用文本嵌入的通用解决方案消除了对每种文本类型单独建模的需求,允许任何新模板或变体输入进行预测。一旦开发完成,XGBoost与SquareCB模型可应用于各种模板和活动。相比之下,LinUCB模型需为每个变体单独训练线性回归,且对新模板存在冷启动问题,同时其线性假设限制了泛化能力,尽管可能带来一定提升。
3.4 特异性与效率
XGBoost与SquareCB模型功能全面,但在数据有限的情况下可能不理想,需要更具体的解决方案。此时,轻量级模型如LinUCB更合适,部署更简便且在简单问题中表现优于通用解决方案。
4 机器学习模型的关键特征
4.1 用户上下文特征
模型设计用于分析和整合多种用户行为特征,有效捕捉用户对创意设计的偏好。通过考察用户与Uber CRM沟通的历史互动,模型能洞察其对不同创意内容类型的偏好,包括哪些消息、视觉元素或促销活动更能引起用户共鸣。
除了CRM互动,模型还考虑用户在Uber应用中的活跃模式,包括使用频率、最常用功能及整体行为。通过整合这两类数据——CRM沟通历史和应用活跃度,模型能个性化优化用户体验,致力于为每位用户提供最相关、最吸引人的创意设计,从而提升用户满意度和参与度。
4.2 变体内容特征
CRM沟通模板包含多个可优化性能的组件,如主题行、预览文本、正文、图片等。每个组件可有多个备选项,组合形成不同的变体,即最终发送给用户的沟通内容。机器学习模型旨在基于内容预测邮件打开率,学习用户上下文特征与变体内容特征间的关系。图4展示了变体内容特征生成的三个阶段。
图4:变体内容特征生成的三个阶段。
-
阶段1:变体内容生成。 以邮件为例,我们的主要目标是提升发送给用户的沟通的打开率。打开率的提升对提升点击率(CTR)至关重要。影响打开率的两个主要组件是主题行和预览文本,因为它们是用户首先注意到的元素。为生成变体内容,我们将主题行和预览文本(含表情符号)合并为单一字符串,用于后续嵌入生成。
-
阶段2:变体内容嵌入生成。 合并后的变体文本作为预训练GPT模型(text-embedding-ada-002)的输入,生成嵌入。每个输入文本生成一个1536维的浮点向量嵌入。表情符号也被考虑在内。
-
阶段3:将嵌入转换为特征。 高维嵌入在进行打开率预测时计算资源消耗大,且输入文本(仅主题行和预览文本)词数较少,直接使用高维嵌入不切实际。我们引入PCA(主成分分析)降维,将变体内容嵌入降至128维的特征向量。实验表明该维度还可进一步压缩。
5 用户创意偏好嵌入
如前所述,用户行为特征可能无法始终准确反映用户对创意设计的偏好。但通过大量历史CRM沟通数据及用户反馈,可以训练出有效捕捉整体创意偏好的用户嵌入。具体来说,历史变体内容特征被聚合后输入DNN(深度神经网络)编码器,生成用户嵌入。这些嵌入可与其他特征结合用于CRM上下文多臂赌博机建模,也可应用于其他创意优化场景,如应用内用户参与度提升。
5.1 XGBoost优化的后处理
在COP中引入了自动化和模块化的后处理函数,以实现基于XGBoost的优化策略中的探索。与固有支持探索-利用的LinUCB模型不同,XGBoost模型本身缺少探索机制。若无后处理,解决的将是相关的回归问题,而非上下文多臂赌博机问题。
我们采用SquareCB作为XGBoost预测结果的后处理方法,适用于所有活动变体。具体细节见其原始论文及讲义。基于Michelangelo OPS返回的预测分数,利用该算法计算新分数,再通过随机采样根据新分数选择变体。通过精细调节探索参数,确保部分选中变体不是XGBoost模型得分最高的,从而引入必要的探索。
后处理可采用多种方法,如SquareCB、Thompson Sampling或UCB。我们的平台提供即插即用解决方案,用户可通过简单配置自由选择和切换不同方法,无需复杂设置,灵活方便。图5展示了用户可自由配置机器学习模型与后处理方法的组合,预测最佳内容变体。
图5:用户可自由配置机器学习模型与后处理方法组合,预测最佳内容变体。
6 后续工作
现有框架为探索更广泛的特征输入和模型结构奠定基础。团队正在考虑引入图像嵌入,以增强模型优化邮件中视觉内容的能力,使模型能更有效地根据学习到的用户偏好定制视觉元素。
此外,团队正在评估除XGBoost之外的其他模型结构,以充分利用新型特征输入。包括测试神经网络和强化学习算法,以更好地整合和利用多样化数据。持续工作还将简化配置管理,提高模型迭代和活动级模型配置的效率。
最后,团队正在开发基于先进模型洞察的新内容生成策略,实现基于用户偏好和行为模式的更个性化、更有效的内容创作。
7 结论
本文探讨了如何结合生成式AI的上下文多臂赌博机策略优化Uber的个性化CRM沟通。我们讨论了营销内容优化的重要性及其与上下文多臂赌博机方法的契合点。通过考虑用户上下文和对不同沟通内容的偏好(由变体内容特征表示),最终提升用户参与度。
方法的关键在于利用嵌入技术生成内容特征供XGBoost模型使用。我们利用GPT嵌入将文本组件转换为高维向量,再通过PCA降维生成适合机器学习的特征。平台支持两类上下文多臂赌博机解决方案:LinUCB实现活动级优化,XGBoost结合SquareCB后处理实现必要的探索,构建了全面的内容优化方案。
全文来自:Enhancing Personalized CRM Communication with Contextual Bandit Strategies