AB测试(A/B测试)是一种科学的实验方法,用于比较两个或多个版本(A和B)的效果,以确定哪个版本在特定目标指标上表现更好。
它广泛应用于互联网、金融、产品设计等领域,通过随机分配用户流量到不同的实验组,收集数据并进行统计分析,从而帮助决策者做出更准确、更有效的决策。
大背景下是流量增长见顶、存量竞争,精细化运营比之前变得更加重要。现在金融类企业对ABTest逐渐重视,如何良好设计和结果评估,是数据分析师需要掌握的基础能力。
一、 什么是ABTest?
AB测试的核心思想是“单一变量原则”,即在实验中只改变一个变量,其他条件保持不变,以便准确测量该变量对结果的影响。
例如,测试不同金融资讯对阅读量的影响时,除了标题外,其他内容(如图片、排版等)应保持一致,通过这种方式可以确保实验结果的可解释性和有效性。
将基金持仓客户随机分为至少两组,在某个时间节点,对他们施加不同的策略(一般只设定唯一的变量,其他条件保持一致)。不施加其他影响的组为对照组A,实施新营销策略组为实验组B。
通过对比A组和B组的差异,评估基金新营销策略的申购、复购等效果,帮助业务决策的目的。
进行ABTest可以减少主观决策带来的损失,业务人员根据自身经验决策发生错误的概率是50%,可以避免主观决策的不确定性导致的损失。
二、 ABTest适用的金融营销场景
理论上基金产品营销方案不唯一的场景,都可以通过 ABTest来解决,可以归为4类。
产品功能:
产品整体布局、功能交互流程、App按钮大小、App视觉颜色等,都可以通过ABTest来决策。比如支付宝和工商银行同为基金代销平台,两者的产品布局有很大不同。
运营策略:
常见场景一种是用户运营策略,比如天天基金App优惠券的发放人群、优惠券额度、优惠券基金品类等。一种是文案策略,比如手机银行App的push文案、banner文案等。不同策略的转化率有较大差异,通过ABTest选择最优方案。
推荐算法:
相比产品功能、运营策略运用更广泛。推荐算法指App根据用户兴趣偏好,推荐更感兴趣的产品。推荐算法调整带来的不确定性较高。
客户端性能:
指用户启动App时长、内容加载方式等。如果App性能差,会直接导致用户体验变差,影响到推荐算法的推荐效果。
三、如何设计和评估ABTest?
1. 确定实验最短观测周期
对于不需要App发版的实验,实验开始后一周可出具实验报告,如果部分指标趋势仍然呈正向或负向加剧的趋势,则结论需要等所有变化指标稳定后给出。需要发版的实验,版本覆盖率达到80%以上后再观测。
2. 判断指标是否显著
显著性是一个95%的概率问题,不代表100%。实际工作中,推荐优先通过指标变化趋势线判断,如果趋势线观测到负向或者正向趋势,再辅助假设检验确定指标是否是显著正向或负向。虽然理论上ABTest要求每组无差异,但实际分组可能仍然存在组间差异。
举例说明,假设某日实验生效,base1和base2均为对照组,exp1和exp2为实验组。如果不观测分组差异,只观察生效日及之后的趋势,容易看到exp2组相比base1是+0.06%左右,该差异是由于分组不均带来的,对exp2组指标并未有正向影响。指标变化与选取的时间段有关,假如我们选取虚线的区间段,exp1的指标相比实验前是有明显的正向趋势的,但拉长观察周期,exp1也是在正常范围内波动。
指标是否显著,需长线观察指标变化趋势,辅助统计学检验来确定指标是否显著。
3. 实验决策
ABTest不适宜长期观察,对于一个基金产品,不宜同时存在多种方案,让用户之间存在明显差异。ABTest的客户端代码也会增加App的大小,新用户对此比较敏感,可能会影响下载转化。ABTest可用流量有限,长期占据也是一种资源浪费,需要对实验结果尽快决策。
如果实验组的关键指标显著负向,可以先下线实验,业务方有了新的优化方案再上线观察。如果观察到的关键指标变化不大,但是功能本身的改动很大,建议先扩大流量观察,再推全。如果实验组指标有正向收益,可以直接推全。
ABTest可以量化不同方案的优劣,但不能展示最优答案,也不能展示指标变化的因果关系。现实中我们要辅以对金融业务的专业判断,以及历史累计的经验来综合决策,避免 ABTest造成的资源浪费。
在金融行业中,应用数据分析是非常适配的,金融行业数据量庞大、发展快。CDA数据分析师在各行业的数据岗中认可度非常高,一般都要求考过CDA数据分析师二级,CDA二级中包含了模型搭建的详细内容,对于数据岗的工作来说特别有帮助。