【RegretNet】Optimal Auctions through Deep Learning: Advances in Differentiable Economics

Optimal Auctions through Deep Learning: Advances in Differentiable Economics
2019ICMl
https://github.com/saisrivatsan/deep-opt-auctions/tree/master/regretNet

摘要

设计一个能最大化期望收入的激励相容拍卖是困难的任务。单物品拍卖在1981年被Myerson解决。但两个及以上的物品拍卖仍然是困难的。本文探索深度学习解决最优拍卖。

1. 引言

在标准的独立私人估值模型中,每个竞标者对于物品子集的估值函数由独立但不一定同分布中抽取。假设拍卖方知道价值分布,并可以在设计拍卖时使用这些信息。一个挑战是估值是私密的(ps只知道分布,而不知道具体取值),竞标者可能不会如实报告他们的估值。(ps因此需要IC使得广告主诚实报价,进而获取其私人估值)
1981年Myerson解决了单个物品的最优拍卖问题。IC分为贝叶斯激励相容和占优策略激励相容,本文考虑更鲁棒的DSIC拍卖。

1.1 贡献

首次提出一个一般意图的、端到端的方法求解多物品最优拍卖问题。使用MLP编码拍卖机制,将竞拍者的私人价值作为输入,输出分配和支付。通过从竞拍者价值分布中采样并满足IC下最大化收入来进行训练。将这个总体框架称为可微经济学,其涉及到利用经济规则的可微分表示。这样就可以利用随机梯度下降,这在深度学习领域已经是一个非常成功的流程。
主要的技术挑战是如何实现激励相容,这样竞拍者在均衡状态下会如实报价。提出两种方法解决IC约束:

  • 第一种方法RochetNet。使用IC机制的特性结果,对网络结构进行合适的约束。
  • 第二种方法RegretNet。使用零期望事后后悔取代IC约束。在训练期间,充分利用增强的拉格朗日优化。通过损失函数中引入惩罚项,以对应于激励相容性的违反情况。在训练期间最小化负的收入(ps广告主效用)和IC违反的惩罚项。将这种网络结构称为RegretNet。这种方法适用于多竞标者、多物品的场景,对于这些场景,我们没有可行的IC机制解析,但通常只能找到近似激励相容的机制。(ps:是一种近似)

通过大量实验表明,这两种方法能够覆盖过去40年来理论解决方案所涵盖的几乎所有拍卖设计。对于RegretNet,我们显示其对DSIC的近似是非常好的。我们还表明,这个深度学习框架对于反驳有关最优拍卖结构的假设或生成支持性证据非常有用,并且在RochetNet的情况下,该框架可以用来发现设计,然后可以证明这些设计是最优的。我们还提出了泛化界限(generalization bounds),通过以下三个要素为预期收益和预期事后后悔值提供了置信区间:

  • 训练过程中达到的经验收益(empirical revenue)和经验后悔值(empirical regret);
  • 用于编码分配规则和支付规则的神经网络的描述复杂性(descriptive complexity);
  • 训练网络所使用的样本数量。
1.2 讨论

部分:对于非凸的最优化问题,深度学习方法通常会陷入局部最优,但不是阻碍在在其他应用域深度学习的成功应用,对于没有局部最优的现象。例如尽管机制问题是非凸的,我们的神经网络结构实现了最优拍卖。
ReGretNet能够提供近似的DSIC保证。使用期望的事后后悔值(expected ex post regre),其是IC约束的量化松弛,was first introduced in (D¨utting et al., 2014)。一个关键点在于,它量化了在知道竞标者其他出价的情况下,相对诚实出价的遗憾(因此称为“事后”)。因此,事后后悔值是衡量接近DSIC的一个度量。我们的实验表明,这个松弛是非常有用的工具来近似最优的DSIC拍卖。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值