具有循环条件gan的实值(医疗)时间序列生成-2017

最新推荐文章于 2024-08-08 00:05:28 发布

爱吃榴莲的妹妹

最新推荐文章于 2024-08-08 00:05:28 发布

阅读量2.8k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： gan生成时间序列论文研读文章标签：生成对抗网络人工智能神经网络

本文链接：https://blog.csdn.net/Crystalxxtt/article/details/128380922

REAL-VALUED (MEDICAL) TIME SERIES GENERATION WITH RECURRENT CONDITIONAL GANS

ABSTRACT

生成对抗网络(GANs)作为一种训练模型以产生逼真数据的框架已经取得了显著的成功。在这项工作中，我们提出了循环GAN (RGAN)和循环条件GAN (RCGAN)来生成真实的实值多维时间序列，重点研究了它们在医疗数据中的应用。rgan在生成器和鉴别器中使用循环神经网络(RNNs)。在rcgan的情况下，这两个rnn都以辅助信息为条件。我们在一组玩具数据集中演示了我们的模型，在其中我们从视觉上和定量上(使用样本似然和最大平均差异)表明它们可以成功地生成现实的时间序列。我们还描述了针对GANs的新颖评估方法，其中我们生成一个合成标记的训练数据集，并在真实测试集上评估在合成数据上训练的模型的性能，反之亦然。我们用这些指标说明rcgan可以生成对监督训练有用的时间序列数据，而在实际测试数据上的性能仅略有下降。这是通过“序列化”MNIST的数字分类和对来自重症监护室的17,000名患者的医疗数据集进行早期预警系统训练来证明的。我们进一步讨论和分析了使用RCGAN生成真实的合成医疗时间序列数据时可能出现的隐私问题，并演示了RCGAN的差异私人训练的结果。

1 INTRODUCTION

在针对特定领域问题开发机器学习解决方案的过程中，访问数据是瓶颈之一。标准数据集(与相关任务)的可用性有助于提高学习系统在多个任务中的能力。然而，在其他领域，如医学，进展似乎滞后。人们很容易认为医学领域的任务更难——数据更复杂，噪音更大，预测问题的定义更不明确。尽管如此，研究人员获取数据的缺乏阻碍了模型比较、可重复性和最终的科学进步。然而，由于医疗数据的高度敏感性，其访问通常是高度控制的，或需要涉及和可能不完善的去识别。因此，这项工作的动机是利用和开发生成对抗网络(GANs)的框架来生成真实的合成医疗数据。这些数据可以在没有隐私问题的情况下共享和发布，甚至可以用于增加或丰富在不同或较小的患者队列中收集的类似数据集。此外，构建一个能够合成真实医疗数据的系统意味着对生成这些信息的过程进行建模，因此它可以代表开发在医疗环境中创建预测系统的新方法的第一步。

除了对机器学习研究社区的实用之外，这样的工具还有利于医学界在训练模拟器中的使用。在这项工作中，我们专注于合成实值重症监护室(ICU)的时间序列数据。在重症监护室，医生必须在时间压力下迅速做出决定，他们不能犹豫。在医疗培训中，使用模拟来培训医生已经成为标准，但这些模拟往往依赖于手工设计的规则和物理道具。因此，能够生成多样化和现实的ICU情况的模型可以立即应用，特别是当能够根据患者的潜在“状态”进行条件调节时。

GANs在生成逼真图像方面的成功(Radford et al.， 2015;Ledig等人，2016;附近,2014;Reed等人，2016)认为它们适用于这项任务，然而有限的工作利用它们来生成时间序列数据。此外，GANs的评估在很大程度上仍然是一个尚未解决的问题，研究人员通常依赖于生成示例的可视化评估，这种方法既不切实际，也不适用于多维医学时间序列。

这项工作的主要贡献是:

1. 演示使用对抗性训练生成实值序列的方法。

2. 展示评估GANs的新方法。

3.生成合成医疗时间序列数据。

4. GANs和差分私有GANs的经验隐私分析。

2 RELATED WORK

自2014年问世以来(Goodfellow et al.， 2014)， GAN框架吸引了研究界的大量关注，其中大部分工作都集中在图像生成上(Radford et al.， 2015;Ledig等人，2016;附近,2014;Reed等人，2016)。值得注意的是，(Choi等人，2017)设计了一种GAN来生成合成电子健康记录(EHR)数据集。这些电子病历包含二进制和计数变量，如ICD-9账单代码、药物和程序代码。他们专注于离散值数据和生成患者快照，这是对我们的实值、时间序列重点的补充。未来的工作可以结合这些方法来生成多模态合成医疗时间序列数据。

大多数使用GAN生成的顺序数据集中在对自然语言处理有用的离散令牌上(Y u等人，2016年)，其中使用基于强化学习(RL)的替代方法来训练GAN。我们知道只有一项使用GAN生成连续值序列的初步工作，该工作旨在使用带有LSTM生成器和鉴别器的GAN生成复调音乐(Mogren, 2016)。主要的区别是架构上的:我们不使用双向鉴别器，并且生成器的输出不作为下一个时间步骤的输入反馈。此外，我们还介绍了这个循环GAN的条件版本。

条件GANs (Mirza & Osindero, 2014;Gauthier, 2014)根据附加信息调整模型，因此允许我们指导数据生成过程。这种方法主要用于图像生成任务(Radford et al.， 2015;米尔扎和奥辛德罗，2014年;Antipov等人，2017)。最近，有条件GAN架构也被用于自然语言处理，包括翻译(Yang等人，2017)和对话生成(Li等人，2017)，其中没有一个使用RNN作为鉴别器的首选，并且如前所述，由于数据的离散性，使用RL方法来训练模型。

在这项工作中，我们还介绍了一些新的方法来评估GANs，使用生成的合成数据的能力来训练有监督的模型。以相关的方式，在(Salimans et al.， 2016)中引入了一种基于gan的半监督学习方法。然而，我们的目标是生成数据，这些数据可用于训练GAN训练时未知任务的模型。

我们简要探讨了使用差分私有随机梯度下降(Abadi et al.， 2016)来生成具有更强隐私保证的RGAN，这与敏感的医疗数据尤其相关。另一种方法是使用PATE方法(Papernot et al.， 2016)来训练鉴别器。在这种情况下，不是将噪声引入梯度(如(Abadi et al.， 2016))，而是训练学生分类器来预测教师集合的噪声投票，每个教师都在不相交的数据集上进行训练。