文章目录
第14章 程序化交易核心技术
广告交易平台ADX
优化目标为:
max
a
1
,
⋯
,
T
∑
i
=
1
T
b
i
d
C
P
M
(
a
i
)
\max_{a_{1,\cdots,T}}\sum_{i=1}^T bid_{CPM}(a_i)
a1,⋯,Tmaxi=1∑TbidCPM(ai)
广告交易平台分成或包断媒体资源,因此没有成本项;收入项与用户或上下文无关,因为只是平台。
cookie映射
解决供给方和需求方用户身份对应的问题。
在Web环境下投送的广告,用户身份标识可以用HTTP协议提供的cookie机制来完成。cookie机制在安全性方面有很多好处,比如每个域名下的服务只能访问本域名下的cookie,这实际上是由浏览器保证了不同Web应用之间用户数据的隔离。不过cookie在用户跟踪的有效性方面受到一些限制:首先,用户可以主动清除cookie,于是广告系统对该用户的跟踪就中断了;另外,由于广告网络往往是在其他域名的网站上跟踪用户和投放广告,其种植的cookie是第三方cookie。而对于第三方cookie,浏览器一般有更为严格的限制,有的浏览器甚至会在默认情况下禁止第三方cookie,这也成为行为定向的障碍。随着市场对用户隐私问题越来越关注,W3C 还进一步制定了“Do Not Track”(DNT)的标准,用于用户主动向网站要求不要被跟踪,或者不要被网站上的第三方应用所跟踪。
用户登录信息很好用,但是游戏性质较强的产品中由于“马甲”的存在会导致不准确。
cookie映射的场景有涉及两个域名的,即在一个域名的服务上像另一个域名发动,典型的例子是媒体与DMP之间的身份对应问题。
用户访问媒体后,媒体向自己的映射服务请求一段js代码,如果js判断需要映射,则向DMP发起请求,传送两个参数:媒体的标识(mid)以及媒体方的cookie(mck)。DMP返回一个1×1的beacon,并记录下媒体方cookie(mck)与己方cookie(dck)的对应关系。DMP保存映射,可以比较方便地将自己的用户标签与媒体cookie 对应,并传回给媒体。
涉及三个域名的是一个第三方域名发动另外两个域名间的cookie映射,典型的例子是DSP与ADX之间的用户标识对应问题。
DSP判断映射需求,在广告主页面上发动映射,并由DSP保存映射关系。
询价优化
一种是工程规则的思路,按照广告主定制标签来采买流量的DSP一般来说只会在自己感兴趣的人群,也就是cookie映射过的用户群上出价,因此ADX可以不向未发生映射的DSP询价。
另一种是带约束优化,类似在线分配。有很多的DSP并不是仅仅在广告主用户集合上出价,约束往往设置成各个DSP获得流量比例的一个上限,避免DSP无法获得流量从而退出市场。在询价优化的需求下,ADX 也需要eCPM 估计。
需求方平台
DSP除了优化eCPM,还需要降低成本,目标为:
max
a
1
,
⋯
,
T
∑
i
=
1
T
{
μ
(
a
i
,
u
i
,
c
i
)
⋅
v
(
a
i
,
v
i
)
−
p
(
u
i
,
c
i
)
}
\max_{a_{1,\cdots,T}}\sum_{i=1}^T\{\mu(a_i,u_i,c_i)\cdot v(a_i,v_i)-p(u_i,c_i)\}
a1,⋯,Tmaxi=1∑T{μ(ai,ui,ci)⋅v(ai,vi)−p(ui,ci)}
定制化用户标签
DSP 与其他广告产品相比,多了定制化用户划分功能( customized audience segmentation)部分,这是收集第一方数据的接口,这部分数据将用于加工第一方专用的用户标签,用于指导广告投放。两种方式:
- 直接在广告主的网站上布设DSP 域名的JavaScript 代码或者外链图片(也可以是不可见的beacon),自行收集分析。
- 线下数据接口的方式,定期传送(需要cookie映射)。
前者能够实时地获取访客信息,但是需要一段时间的数据积累才能覆盖广告主用户集合的大部分,而且在多个DSP 同时服务于一家广告主时需要加多段跟踪代码,这样会降低页面响应速度;后者虽然可以迅速得到访客集合,并且避免页面因多组跟踪代码而变得太重,却在数据更新时有一定的延迟,并且对广告主方的技术要求较高。
look-alike(新客推荐)要同时用第一方数据和第三方数据,筛选只有广告主和用户相关的数据训练预测用户成为客户的模型:
p
(
y
=
1
∣
x
(
a
,
u
)
)
p(y=1|x(a,u))
p(y=1∣x(a,u))
DSP中的点击率预测
由于RTB 环节的存在,点击率预测准确性的要求是更高的,因为直接影响利润。某部分流量上真实点击总数与各展示预估CTR之和的比例称为CoPC(Click on Predicted Click),它表征着某部分流量上是否存在明显的点击率高估或低估。
离线测试与线上测试存在一个系统性的偏差。在线上,点击率高估的部分获得的流量比例会上升,最终平均预测点击率发生的偏差。由于模型本身会影响流量的分布,对点击率预测和其他算法问题效果的理解要有新的思考方式,并更多地根据线上实测的结果来判断一个模型的好坏与取舍。
点击价值估计
点击价值估计:
v
(
a
,
u
,
c
)
=
h
(
a
,
c
)
⋅
c
(
a
,
u
)
⋅
t
(
a
)
v(a,u,c)=h(a,c)\cdot c(a,u)\cdot t(a)
v(a,u,c)=h(a,c)⋅c(a,u)⋅t(a)
h是到达率,即实际打开广告落地页次数与点击次数的比例,与广告主网站的页面打开延迟关系最大,与媒体的属性、特别是误点情况也有一定关系。c转化率主要与用户对广告主产品的兴趣有关。t转化单价一般与广告主有关。不过公式中只是主要因素,可能有别的。
在没有充足的行业数据支持的情形下,实践中比较可行的办法基本上都是简单统计与运营经验相结合来估算转化率。
出价策略
在有预算约束的情况下,希望每次展示的利润率尽可能高,需要对当前
展示的市场价格有所估计。供给节点是流量,广告是需求节点,在线分配。
供给方平台SSP
网络优化问题是指SSP在接入多个广告网络以后,在线动态决定将广告请求发给哪个广告网络,从而优化整体收入的问题。类似询价优化,但没有带宽约束,并且缺少数据,往往只能采用粗略的数据分析和建模手段来估计其eCPM。
第15章 其他广告相关技术
介绍一些外围问题,了解实际广告系统的各个环节。
创意优化
这两个创意向用户传达的诉求有着相当大的区别:前者的目的是向潜在用户渗透性地宣传品牌的定位,以利于将来长期的用户转化和利润空间;而后者的目的则是短期内的转化效果,但对品牌特质的宣传有所不足。创意优化的前提是基本诉求保持相对稳定。
程序化创意
用程序自动进行,而不是预先做好大量的素材,思路有:
- 地域型创意。将明确地域指示性的内容体现在创意上。
- 搜索重定向创意。根据用户的搜索行为提供的重定向图片广告,曾经的搜索词。
- 个性化重定向创意。展示的单品是在线动态决定的,创意也是在线合成的。
点击热力图
将某一个创意各位置被点击的密度用热力图的方式呈现出来,帮助创意优化者直观地发现和解决其中的问题。
实验框架
每层都可以将流量切分成不同的测试子集或域,不同层上的实验是可以共享流量的。非重叠测试域(domain)目的是方便有时需要进行的、联合调整各层参数的一些特殊实验。发布层用于将实验通过的参数逐渐灰度发布到全流量上。在其上可以进行A/B testing,即让一部分用户继续用产品特性A,一部分用户开始用产品特性B,如果用户对B没有什么反对意见,那么逐步扩大范围,把所有用户都迁移到B上面来。优先采用实验层参数,其次是发布层参数,最后是默认参数。
流量不能随机分配,因为多次广告展示之间的相关性会对测试的结果产生影响。正确的做法是按用户划分,即某个用户的广告展示请求都被固定地发送到同一个域中。这样做的目的是使得一个广告策略的高阶或长期影响能够真实地表现出来。
流量保护和效果监测
一是去除非主动用户访问行为,主要是爬虫行为;二是反作弊,即对于恶意展示或流量来源的去除。从技术难度上看,主要关注后者。
反作弊
媒体作弊动力最强,点击作弊或展示作弊。广告平台作弊可以通过混入劣质流量的广告展示、制造虚假点击以及通过一些作弊手段为广告主带来虚假转化来作弊。广告主竞争对手可以通过重复点击广告消耗预算来作弊。
单一IP或cookie进行大量展示或点击的作弊可以设定一定时间段内上限,超过就加入黑名单。
正常的用户点击,在创意上的位置分布往往呈现与创意关键区域相关的比较自然的分布;而机器产生的用户点击,其分布要么过于均匀,要么过于集中,很容易与自然点击分布相区别。
从JavaScript代码或SDK中收集到更多其他的物理信息,可建立模型,但这种技术高度保密。
流量劫持,就是在无权投放广告的地方强行投放,或者改变广告创意甚至落地页的内容。一般来说,只有一些网络底层服务的提供商,如DNS、CDN、电信运营商等,才有能力进行这种劫持,手段有:
- 信道弹窗。通过电信运营商对信道的控制能力,在用户上网时强行向下行内容中插入弹窗广告创意
- 创意替换。
- 搜索结果重定向。
- 落地页来源劫持。在用户访问广告主落地页时,直接在URL上加上广告来源代码,误导广告主。
前三种手段主要损害的是媒体利益。
广告监测
在线广告区别于线下广告的重要特征就是可监测性。可以采样,但对于兴趣标签意义不大。
广告安全
保证品牌安全,广告不出现在某些媒体上,关键技术是广告投放验证(ad verification)和可视性(viewability)验证。
广告投放验证工作模式是当广告投放到页面以后,如果发现页面的内容不符合品牌安全的诉求,则停止展示广告主的创意。
可视性验证的技术方案一般是判断浏览器是否对广告创意发生了渲染过程,但是在移动应用内广告中,目前还没有很好的检测办法。也可以过滤可视比例低的广告位。
隐私保护和数据安全
隐私保护问题
隐私保护除了关心那些成批的用户资料泄露意外,更大的挑战是针对熟人的隐私窥探,即窥探者在了解被窥探者一些背景信息的基础上,即用这些背景信息进一步试图获取其更多的隐私信息。
隐私保护原则有:
- 要严格避免使用个人可辨识信息(Personal Identifiable Information,PII),例如身份证号、电话号码、电子邮件地址、家庭住址等。
- 用户有权要求系统停止跟踪和使用自己的行为数据。
- 不应长期保留和使用用户行为数据。过期的数据如果并非与业务直接相关,物理上不应再存储。
- 工程上还需要特别注意权限的严格分配和最小数据访问的原则。
组合在一起有可能让熟人确定出对应的人, 这样的信息称为“Quasi-Identifier”。可以进行泛化,即K-Anonymity。
行为数据的特点是极为稀疏,即很少有相同的。稀疏行为数据给隐私保护带来的巨大风险还并没有成熟的解决方案。
程序化交易中的数据安全
供给方数据安全。在RTB 过程中,ADX 需要向参与竞价的DSP广播每次展示的URL和cookie,使得DSP 理论上存在规模化监听媒体用户行为的可能。但询价优化的存在使得收集数据的DSP往往不会获得机会。
如果DSP希望制造更加激烈的竞价环境,获得更高的利润,那么它实际上可以将这两个广告主的顾客集合合并在一起,并生产一个相应的用户标签吸引双方来对此标签竞价。这种做法的实质是在竞争对手之间倒卖顾客集合,并且可以通过比较模糊的标签名字(例如为上面两个广告主的访客集合打上“英语教育”的人群标签)非常隐蔽地操作。随着竞价激烈程度的增加,原本属于广告主的利润就向市场其他环节发生了转移,这个问题就是需求方数据安全性问题。暂时方法不充分。