对抗性水印转换器:通过数据隐藏追踪文本来源
- 核心思想
引入了对抗水印转换器(AWT), 它具有联合训练的编码器-解码器和对抗训练,给定输入文本和二进制消息,生成使用给定消息不显眼地编码的输出文本。
进一步研究不同的训练推理策略,以金量减少对输入文本的语义和正确性的更改。
AWT是第一个端到端模型,它通过自动学习(没有基本事实)单词替换及其位置来隐藏文本中的数据,以便对消息进行编码。
整体流程包括输入文本,隐藏网络,揭示网络。输入文本进入隐藏网络,同时还有一个Input message,这里的1010表示要嵌入到文本中的水印信息,经过隐藏网络处理后,输出文本与输入文本在表面上看起来几乎相同,但实际上已经嵌入了水印信息。再将带有水印的输出文本输入到揭示网络中,能够重建出之前嵌入的消息,即1010,从而验证水印的正确性和存在。
目标是在语言中自动且不受阻碍地隐藏数据,最终为文本生成模型的输出添加水印。 - AWT对抗性水印变压器
无需配对训练数据或设计基于规则的编码即可自动隐藏自然语言数据的解决方案。与序列到序列机器翻译模型类似,AWT由变压器编码器-解码器组件组成,该组件接收输入句子和二进制消息并生成输出文本。该组件用作隐藏网络,与变压器编码器联合训练,该编码器仅接收输出文本并用作消息解码器来重建二进制消息。使用对抗性训练,并训练这两个组件对抗在输入和修改后的文本之间进行分类的对手。该模型经过联合训练,使用最少的变化对消息进行编码,成功解码消息,同时欺骗对手。
AWT架构,该模型由一个数据隐藏网络(序列到序列模型)、一个用于解码消息的数据揭示网络和一个鉴别器以及在微调步骤中使用的辅助组件组成。