摘要
假新闻检测在社会取证领域引起了广泛的研究兴趣。许多现有的方法引入了定制的注意机制来融合单峰特征。然而,它们忽略了模式之间的跨模式相似性的影响。同时,预训练的多模式特征学习模型在FND中的潜力还没有得到很好的开发。这篇论文提出了一种FND-CLIP框架,即基于对比语言图像预训练(CLIP)的多模式假新闻检测网络。FND-CLIP使用两个单峰编码器和两个成对的CLIP编码器一起从新闻中提取深层表示。CLIP 生成的多模态特征通过两种模态的 CLIP 相似性进行加权。 我们还引入了模态注意力模块来聚合特征。 进行了大量的实验,结果表明所提出的框架在挖掘假新闻检测的关键特征方面具有更好的能力。 所提出的 FND-CLIP 在三个典型的假新闻数据集上可以取得比之前的作品更好的性能。
索引术语:虚假新闻检测,多模态学习,CLIP,多模态融合
步骤:
- 使用预训练模型提取单模态特征(eg.,ResNet50,ViT,Transformer,BERT(对于长句子使用t2模型提取摘要) etc.)
- 使用CLIP模型测量跨模态的相似性(CLP)
- 使用轻量级网络实现分类(线性层)
Introduction
使用机器学习的假新闻检测(FND)是检测假新闻广泛传播的有效方法,可以帮助读者识别偏见和错误信息并消除负面传播。 假新闻检测的早期工作侧重于分析纯文本或纯图像内容[1],并在单模态假新闻检测上表现出了良好的性能。 然而,现代新闻和帖子包含丰富的信息,例如同时包含文本和图像。 在一些假新闻中,真实图像可能与完全捏造的谣言结合在一起,并且可能使用正确的词语来描述经过篡改的图像。在这些情况下,单峰 FND 方法不足以发现不同模式之间的相关性。
近年来,许多工作通过聚合多模态特征来检测新闻和帖子中的异常[2]-[4]。 研究人员更喜欢使用各种来源的特征,例如文本、图像、评论、点赞率,甚至传播图表,来评估帖子的真实性。 然而,这些附加方式并不总是同时可用。 因此,我们只关注仅具有文本和图像模式的 FND [3]、[5]、[6]。
据悉,多地已出现用残疾骆驼乞讨的情况。 前几天我也在广州见过面。 为了博取同情而伤害动物是可恶的。
预测: Fake
标准化相似度: 0.852
我没事,但是我的心好痛……
预测: Fake
标准化相似度: 0.308
图 1. 在微博数据集上使用 FND-CLIP 进行假新闻检测的示例。 模态之间的相关性与新闻的真实性没有直接关系,但相似性可以指导使用图像和文本模态的决策。
多模式 FND 涉及分析新闻帖子的文本和视觉内容。 然而,这些模态并不总是强相关,并且并非每种模态都包含可用于检测的有效信息。 这对开发有效的 FND 方法提出了重大挑战。 图 1 显示了微博数据集中的两个帖子示例。 第一篇帖子的文本和图像相关,而第二篇帖子的文本包含的事件信息很少,文本和图像之间的相关性较弱。 这种弱相关性会对多模态融合期间网络的性能产生负面影响。 陈等人。 [4]提出了一种通过计算相关性并生成融合特征来解决这个问题的方法。 他们训练了一个变分自动编码器来压缩图像和文本,并对比学习如何最小化具有正确图像文本对的新闻的 Kullback-Leibler 散度。 然后使用跨模态模糊度分数来重新加权多模态特征。 该方法在多模态检测中取得了良好的性能。 然而,仍有几个悬而未决的问题需要解决。 例如,目前尚不清楚如何准确计算不同模态特征的相似性以及它如何影响 FND 中的决策过程。
这项工作的主要贡献可以总结如下:1)我们提出了FND-CLIP,一种多模态假新闻检测模型。 我们采用基于 CLIP 的学习方法来提取语义信息并显式测量文本和图像之间的相关性,并将其用作权重参数。 2)我们提出了一种动态调整单峰和融合特征的使用的方法。 具体来说,我们引入了一个注意力层,它自适应地输出通道分数来测量每种模态的重要性这里重点看一下如何平衡每个模态的重要性的,还有它的做法是否涉及到上面阐述的Point1 和Point2?并相应地调整其使用。 3)在三个著名数据集上的实验表明,FND-CLIP 优于最先进的方法。 实验结果分析说明了我们方法的优点和周到性。
Related Work
虚假新闻检测
人们提出了几种方法来从 FND 新闻文章的图像和文本中提取有价值的特征。 该领域的早期方法侧重于为多模态特征融合设计先进的黑盒注意力机制[8]。 其中一些方法建议在将不同模态提取的特征输入分类器之前更好地对齐它们。 这是通过使用辅助任务来完成的,例如 EANN [3] 中的事件分类、MVAE [2] 中基于变分自动编码器的表示或 CAFE [4] 中的相关计算。 辛格哈尔等人[9]提出了Spotfake,它采用VGG和BERT来提取特征,然后进一步完善了Spotfake+ [5]中的方法来检测长篇文章中的假新闻。 SAFE [10] 计算新闻文章中文本和视觉信息之间的相关性。 LIIMR [11] 抑制来自较弱模态的信息,并在每个样本的基础上从强模态中提取相关信息。 MCAN [12]堆叠多个共同关注层来融合多模态特征。
有些方法不只关注网络设计,而是利用数据集中的更多信息。 例如,齐等人 [13] 认为图像特征提取器无法理解图像中的视觉实体,例如名人、地标和文本。 因此,他们手动提取此类信息作为语言辅助。 阿莱因等人 [14]提出了 DistilBert,它利用新闻文章和用户生成内容的潜在表示来指导模型学习。 舒等人 [15]提出了 dEFEND,它具有一个句子评论共同注意子网络,利用新闻内容和用户评论来联合检测假新闻。 韩等人[16]提出了 GNNCL,它利用 GNN 来区分社交媒体上假新闻和真实新闻的传播模式。
尽管这些方法在多模态 FND 中取得了不错的性能,但在明确测量图像和文本之间的相关性以及有效且高效地利用不同模态做出决策方面仍然存在挑战。
多模态学习
多模态机器学习在过去十年中引起了广泛关注[17]。 在多模态任务中,使用不同模态的先验和特征至关重要,仅具有单模态的算法或深度网络是无效的。 已经开发了几种通用技术来学习图像内容和自然语言的联合表示。 例如,CLIP 模型 [7] 充当计算机视觉和自然语言处理之间的桥梁。 它接受了一组不同的图像-文本对的训练,以预测给定图像的最相关的文本片段,而不直接针对任务进行优化。 CLIP 可以识别最相似的配对图像和文本以匹配图像文本对。 尽管基于 CLIP 的多模态学习已应用于各种下游任务 [18]、[19],但其在 FND 中的应用尚未被探索。
PROPOSED METHOD
方法概述
对于多模态 FND,我们重点关注同时包含文本和图像的样本。 设每个样本为X=(XTxt,XImag)X = (X_{Txt},X_{Imag})X=(XTxt,XImag)。将真实标签表示为yyy。当y=0y=0y=0时,xxx为真新闻,否则为假新闻。首先从$ x_{Txt}$ 和 xImgx_{Img}xImg 中提取丰富的特征集。然后将这些特征融合并投影为y^\hat{y}y^的单个值,即real或者fake。
该过程如(1)所示,其中 FTxtF_{Txt}<