深度学习神经网络学习笔记-多模态方向-多模态综述02-Recent Advances and Trends in Multimodal Deep Learning: A Review

翻译为机翻

Recent Advances and Trends in Multimodal Deep Learning: A Review

在这里插入图片描述

深度学习已经实现了广泛的应用,近年来变得越来越流行。我们的目标多模态深度学习是创建可以使用各种模态处理和链接信息的模型。尽管虽然单模学习得到了广泛的发展,但它仍然不能涵盖人类学习的所有方面。多通道当各种感官参与信息处理时,学习有助于更好地理解和分析。这篇论文侧重于多种类型的模式,即图像,视频,文本,音频,身体手势,面部表情和生理信号。详细分析了过去和当前的基线方法,并深入研究了多式联运的最新进展提供了深度学习应用程序。各种多模态深度学习应用程序的细粒度分类法是提出,更深入地阐述了不同的应用。这些应用程序中使用的体系结构和数据集也是如此讨论,连同他们的评估指标。最后,每个领域的主要问题都分别突出显示未来可能的研究方向。

摘要

在这里插入图片描述
机器学习(ML)在最近的研究中越来越受欢迎。它已经在一个巨大的应用范围包括图像识别、多媒体概念检索、社交网络分析、视频等推荐、文本挖掘等。深度学习(DL)在这些应用中得到了广泛的应用[117]。指数计算技术的增长、令人难以置信的发展和数据可用性促成了DL的研究。深度学习的成功一直是解决更复杂的机器学习问题的激励因素。此外,深度学习的主要优势是它以层次形式表示,也就是说,它可以通过一个通用的目的学习过程有效地学习。各种新的深度学习方法已经开发来,并显示出令人印象深刻的结果跨多个应用,如视觉数据处理,自然语言处理(NLP),语音和音频处理和许多其他广为人知的应用程序。多模态深度学习(MMDL)最近引起了人们的兴趣由于深度学习的发展而产生的重大研究意向。表1列出了一系列缩写词。我们对周围事物的体验是多模态的;我们能看、能听、能摸、能闻、能尝。多个方面被捕获的物体以不同的媒介形式传递信息,如图像、文本、视频、图形、声音、等。模态指定存储特定类型信息的表示格式。因此,上述各种媒介形式涉及到形态,以及这些多重形态的表现一起可以定义为多模态[47]。在单式运输方面得到了广泛的发展。尽管如此,它不足以模拟人类的所有方面。在方法进展的地方,单模态工作得更好只在一种模式下需要。多模态学习表明,当各种各样的感官参与信息的处理。本文的重点是各种类型的模态,即图像。视频,文本,音频,身体手势,面部表情,以及从MMDL角度的生理信号。的MMDL的主要目标是构建一个能够处理来自不同模态的信息并将其关联起来的模型。

在这里插入图片描述
在这里插入图片描述

人工智能(AI)的未来已经被深度学习彻底改变。它解决了几个复杂的问题这些问题在人工智能社区中已经存在了很多年。对于MMDL,有各种深度的体系结构快速设计不同的学习框架。机器被开发成与人类或人类相似的行为在自动驾驶汽车、图像处理、医疗诊断和预测等其他应用领域甚至更好预测等[129]。MMDL的最新进展和趋势来自于视听语音识别(AVSR)。[173],多模态情感识别[26],图像和视频字幕[58,89],视觉问答(VQA)[161],到多媒体检索[134]等。

对其他调查的贡献和相关性

在这里插入图片描述

近年来,大量研究(如,C. Zhang et . [174] 2020, Y. Bisk et . [16] 2020, J. Gao et . [40] 2020, A。摩加迪拉等[101]2019,张顺丰等[176]2019,郭伟等[47]2019,T Baltrušaitis等[12]2018,李勇等人[83]2018和D Ramachandram等人[119]2017已经发表了与多模态主题相关的文章学习。这些评论文章将在1.1.1节中进一步分析和讨论。我们对此的贡献文章在第1.1.2节中进行了描述。表2列出了这些综述文章的摘要列表。1.1.1基线调查分析:C. Zhang等[174]讨论了自然语言和视觉模式NLP和计算机视觉(CV)。Y. Bisk等[16]回顾了基于NLP语境基础的研究。的Gao等人讨论了MMDL融合方法的基本原理及其面临的挑战[40]。摩加迪拉等。[101]提到了基于语言和视觉任务的十组不同的方法。数据集、评价本文还讨论了这些方法中使用的度量标准及其结果。张顺丰等[176],郭文等[47],等Y Li等人[83]解释了多模态表示学习的不同算法和应用趋势和挑战。T Baltrušaitis等人[12]描述了基于五个核心挑战的各种框架,即:多模态机器学习的表示、翻译、对齐、融合和共同学习。D Ramachandram等人[119]研究了深度多模态学习的最新发展及其局限性和障碍
活跃的研究领域;提出了优化多模态融合结构的正则化策略和方法突出显示。
1.1.2我们的贡献:所有这些文献调查只对多式联运的一个特定领域进行了综述
学习。一些作者只讨论了表征学习的方法和应用,一些作者则讨论了融合学习。其他人则讨论了表征和融合学习方法,使用视觉等几种模式或文本。如前所述,摩加迪拉等人[101]使用图像、视频解释了MMDL的不同模型还有文本模式。然而,我们已经更进一步;随着这些模式,本文提供技术审查各种模型使用音频,身体手势,面部表情和生理信号形式。我们的主要重点是独特的,我们试图从最新的深度学习调查文献使用更多模态的概念。本文的主要贡献如下:

为了阅读方便,这里单独再放出来一遍
在这里插入图片描述
提出了一种新的多模态深度学习应用的细粒度分类方法
更深入地阐述不同组的应用程序。

  • 各种模型利用图像、视频、文字、音频、身体手势、面部表情和生理
    信号模态一起讨论。
  • 在3.1.1、3.1.2和3.1.3节中讨论了MMDL在图像描述方面的最新进展。
  • 在视频描述和VQA任务中,3.2.1、3.2.2、3.2.3和3.3.1节讨论了最新的文献。
    分别为3.3.2、3.3.3。
  • 在3.4.1和3.5.1节中,深度学习框架对语音合成和情感的贡献对识别进行了详细说明。
  • 每个申请小组分别强调了主要问题,以及他们未来可能的研究方向。

在这里插入图片描述
表2。相关文献调查列表

Structure of Survey

在这里插入图片描述
本文其余部分的结构如下。第2节将讨论MMDL的一些背景知识。第三节给出了各种MMDL应用程序组。MMDL中使用的体系结构将在第4节中讨论。数据集和评估量度分别在第5节和第6节中讨论。在第7节中,我们简要讨论了和提出这一活跃领域未来的研究方向。最后,第8部分对调查论文进行总结。

背景

在这里插入图片描述
在过去的十年中,已经开发了许多ML方法来处理多模态数据。多通道应用程序出现于20世纪70年代,分为四个时代[102]。这些时代的描述在2.1节中有解释。在本文中,我们主要关注多模态应用的深度学习时代。

多模式学习时代

在这里插入图片描述

  • 行为时代(BE)BE开始于20世纪70年代到80年代末。在这个时期,AA拉撒路[76]
    提出了基于七个不同人格维度的多模态行为治疗方法形式。RM Mulligan & ML Shaw[103]提出了多模态信号检测方法,其中检测任务,汇集的信息是检查从其他方式,即听觉和视觉刺激。

  • “计算时代(CE)”:行政长官任期由八十年代末至二零零零年。在这个时期,ED Petajan [115]提出了一种“自动唇读增强语音识别”。英国石油公司。Yuhas等[173]增加了基于神经网络的语音识别系统在噪声环境下的性能研究(神经网络)。隐马尔可夫模型(Hidden Markov Model, HMM)[70]在语音识别中变得如此流行,是因为
    固有的统计框架,训练算法估计模型参数的方便性和可及性
    从有限的语音数据集。

  • “交互时代(IE)”IE从2000年开始到2010年。在这个时代,第一个里程碑是AMI会议语料库23,有超过100小时的会议记录,全部完整注释和转录。AMI试图创建会议存储库并评估对话。孩子project motive[148]使用ML方法自动提取人类非语言行为。卡洛会议Assistant (CALO-MA)[145]实时会议识别系统采用语音模型。CALO-MA架构包括实时和离线语音转录,动作项目识别,问答
    配对识别,决策提取和总结。

为方便阅读,将此图再放一遍
在这里插入图片描述

深度学习时代(DLE): DLE从2010年开始至今。这个深度学习时代是我们的主要关注点评审论文。我们将在第3节MMDL体系结构中全面讨论不同的应用程序组。在第4节中,第5节中的数据集和第6节中提出的评估指标。

多模态深度学习的应用

在这里插入图片描述
在DLE期间,使用多模态深度学习技术设计了各种应用程序。在本文中,这些应用程序在多个研究领域中具有相关性和主导地位。分类法这些应用程序的示意图如图1所示。

多模态深度学习的图像描述

在这里插入图片描述
图像描述主要用于生成通过输入图像提供的视觉内容的文本描述。在深度学习时代,两个不同的领域被合并来执行图像描述,即CV和NLP。在在这个过程中,使用了两种主要的形式,即图像和文本。图像描述的一般结构如图2所示。图像描述框架分为基于检索的、基于模板的和基于dl的图像描述。检索和基于模板的图像描述是最早的一种描述图像视觉内容的技术。本文介绍了基于dl的图像描述技术的详细解释,它们进一步分类为基于编码器-解码器,基于语义概念和基于注意力的图像描述。
在这里插入图片描述
基于编码器-解码器的图像描述(EDID): EDID在图像字幕任务中起着至关重要的作用
DL架构。CNN架构主要用作编码器部分,从图像中提取和编码数据;和RNN架构作为解码器部分,用于解码和生成字幕。吴俊,胡红华[159]级联递归神经网络(CRNN)用于图像描述。为了学习视觉语言互动,CRNN从正向和反向两个方向采用级联网络。在这种方法中,有两个为实现密集词的表达,构建了嵌入层,为映射设计了堆叠GRU (Stacked GRU, SGRU)将图像转换为其相应的语言模型。R. Hu等[60]提出了端到端(E2E)组合•J. Summaira,等。
在这里插入图片描述
在这里插入图片描述
联合学习图像区域定位和语言表示的模块化网络(CMN)模型。在这个模型中,参照表达式是基于主体-实体、客体-实体和关系来观察的。郭亮等。[46]提出了一种使用CNN、GAN、LSTM和GRU架构的多风格图像字幕框架。在这个在框架下,介绍了五种不同的图片字幕风格:浪漫、消极、积极、事实和幽默的风格。X. He等[54]在Part of的指导下,提出了一种图像标题生成框架演讲(PoS)。在单词生成部分,将词类标签输入到LSTM中作为指导,以更有效地生成单词图像标题。Y. Feng等[37]提出了一种无监督图像字幕框架。首先在这个模型中尝试在没有任何标记的图像-句子对的情况下对图像进行说明。为此,约抓取了200万个句子,以方便无监督的字幕场景。

在这里插入图片描述

3.1.2基于语义概念的图像描述(SCID):从图像中提取的语义概念集合图像被SCID方法选择性地寻址。这些概念是在编码阶段提取出来的然后将图像的其他特征合并为隐藏状态的语言模型,并用于生成输出基于语义概念的图像描述。W. Wang等人[154]提出了一种基于属性的图像标题生成框架。使用显著语义属性提取视觉特征,并将其传递为输入到LSTM编码器。这些语义属性可以从图像中提取更多的语义相关数据进行增强生成的标题的准确性。P. Cao等[22]提出了一种基于语义的图像描述模型。在该模型采用基于语义注意力的引导,用于LSTM架构生成图像的描述。
L. Cheng等[29]提出了一种基于多阶段视觉语义注意机制的图像描述模型。在这种方法中,自上而下和自下而上的注意模块相结合来控制视觉和语义,用于生成细粒度图像描述的级别信息。

在这里插入图片描述
3.1.3基于注意力的图像描述(Attention-based Image Description, AID): AID对图像的描述起着至关重要的作用根据上下文聚焦图像的不同区域。近年来,各种技术
已经提出了通过应用注意机制来更好地描述图像。这些注意基于机制的图像描述技术;L. Li等[80]提出了一种新的描述框架图像通过使用局部和全局的注意机制。根据上下文使用局部和全局注意机制将选择性对象级特征与图像级特征相结合。因此,更合适生成图像描述。P. Anderson等[7]提出了自下而上和自上而下的注意基础图像描述框架,鼓励更深层次的图像理解和推理。M. Liu等人提出了a基于双重注意机制的中文[86]和英语[87]语言图像描述框架。的采用文本注意机制提高数据可信度,采用视觉注意机制提高数据可信度通过整合各种图像标签进行中英文描述,加深对图像特征的理解。

表三
在这里插入图片描述
在这里插入图片描述
B. Wang等人[150]提出了一种使用语义注意的E2E-DL图像描述方法机制。在这种方法中,使用注意机制从特定的图像区域提取特征生成相应的描述。这种方法可以转换英语语言的知识表示翻译成中文,以获得跨语言图像描述。Y. Wei等[158]提出了一种图像描述方法框架采用多注意机制提取局部和非局部特征表示。陆Jiasen[68]等人提出了一种基于自适应注意机制的图像描述模型。注意机制
将CNN架构提取的图像视觉特征与LSTM架构提取的语言特征进行融合。在深度学习时代(2010年至今),许多作者通过提出各种技术做出了很大贡献在图像描述领域中描述图像的视觉内容。不同的图像描述根据体系结构对3.1.1、3.1.2和3.1.3节中描述的方法进行比较分析,多媒体、出版年份、数据集和评估指标见表3。这些建议中使用的体系结构技术将在第4节中简要说明。同样,数据集和评估指标将在章节中讨论分别是5和6。

多模态深度学习的视频描述

在这里插入图片描述
与图像描述一样,视频描述用于对所提供的视觉内容生成文本描述通过输入视频。它在视频字幕、视障视频、视频监控、手语视频描述,人机交互。这一领域的进步为各种应用领域提供了许多机会。在这个过程中,主要使用两种方式,即视频
流媒体和文本。视频描述的总体结构图如图3 (a)、(b)和图4所示。在深度学习时代,许多作者通过各种方法为视频描述做出了贡献。在此基础上,提出了一些经典的和统计的视频描述方法。对象、动词(SVO)元组方法[2]。

在这里插入图片描述
这些基于SVO元组的方法为描述视频的视觉内容。深度学习方法可以解决视频的开放域描述问题。本文将详细讨论用于描述视频视觉内容的深度学习方法。有两个视频深度学习技术中的描述阶段,即视觉特征提取和文本生成。在视觉上特征提取阶段,实践了各种架构,如CNN, RNN或LSTM。对于文本生成可以使用phase、RNN、BRNN、LSTM或GRU架构。在本研究中,视频描述方法是基于以下用于视觉特征提取和文本生成的体系结构组合进行分类。从体系结构、多媒体、出版年份、数据集、和评估指标见表4。

在这里插入图片描述

3.2.1 CNN-RNN架构:在视频描述领域使用最广泛的架构组合是CNN-RNN。图3(a)给出了使用CNN-RNN架构的视频描述过程的总体视图。在视觉提取(编码器)阶段使用CNN架构的变体和句子的哪里使用了RNN架构的生成(解码器)阶段变体。在深度学习时代,一些作者提出了描述基于这种编码器、解码器组合的视频的技术。克里希纳等Al .[73]提出了一种使用动作/事件检测的视频描述技术,通过应用密集字幕
机制。这是第一个检测和描述多个事件的框架,但它并没有显著改进视频字幕。B. Wang等人[149]使用编码器解码器重构器架构提出了一种视频描述重构网络,该网络既利用前向流(从视频到句子),也利用后向流(从句子到视频)。W. Pei等[114]提出了一种基于注意机制的编码器-解码器框架查看视频描述。为了提高视频描述的质量,采用了额外的基于内存的解码器。N Aafaq等[1]提出视频字幕,并利用视频的时空动态进行提取采用二维和三维cnn分层的高级语义,GRU用于文本生成部分。美国刘[88]等人提出了SibNet;用于视频描述的同胞卷积网络。使用了两种体系结构同时对视频进行编码,即内容分支对视觉特征进行编码,语义分支对视觉特征进行编码对语义特征进行编码。这两个分支的特征通过使用一个软算法被馈送到RNN架构中的注意机制。

在这里插入图片描述
为方便阅读,将本图再次放出
在这里插入图片描述

RNN-RNN架构:在DL时代,RNN-RNN也是一种流行的架构组合,因为许多作者通过使用这种组合提出了各种方法,做出了很多贡献。作者提取视觉对象使用 RNN 架构而不是 CNN 的视频内容。图3(b)显示了视频的一般视图使用 RNN-RNN 架构的描述过程。视觉提取(编码器)和句子生成使用RNN架构的(解码器)阶段变体。H. Yu等人[169]提出了一种基于分层的双RNN架构,具有视频描述任务的注意力机制。此方法用于句子和视频的段落生成。M. Rahman et al. [118] 提出了一个视频字幕框架,该框架修改了使用空间硬拉取和堆叠注意力机制生成的上下文。这种方法说明为多层编码器安装注意层将导致语义上更正确的描述。Z.Fang et al. [36] 提出了一个生成输入视频常识性字幕的框架。常识描述旨在识别和描述视频的潜在方面,如效果、属性和意图。一个新的数据集“视频到常识(V2C)”也被提议用于该框架。

在这里插入图片描述

为方便阅读,将本图再次放出

在这里插入图片描述
深度强化学习 (DRL) 架构:DRL 是一种机器学习机制像人类一样聪明地从行动中学习,可以从他们的经验中学习。在其中,代理人受到处罚或根据使模型更接近目标结果的行动获得奖励。DRL 在许多 ML 领域表现出色自 2013 年以来,在谷歌 Deep Mind 平台之后变得更加流行。作者的主要贡献使用 DRL 架构是;X. Wang et al. [155] 提出了一种基于分层的强化学习(HRL)用于描述视频的模型。在此框架中,一个高级管理者模块设计了子目标和低层次工作人员模块识别实现这些目标的操作。ResNet-152 从视频中提取视觉特征编码阶段,这些特征随后由低级BLSTM [128]和高级LSTM处理[56]在解码阶段,HRL用于生成语言描述。Y. Chen 等人 [28] 提议基于 RL 的框架,用于从输入视频中选择信息帧。需要的帧更少在此方法中生成视频描述。为了尽量减少计算,平均 6∼8 键/信息量选择帧来表示完整的视频。L. Li & B. Gong [79] 提出了一个 E2E 多任务强化学习框架用于视频说明。在这个框架中,CNN和LSTM架构同时被训练为第一个时间。该方法在训练过程中将RL与属性预测相结合,得到与现有基线方法相比,改进了视频描述的生成。J. Mun et al. [104] 提出了一个框架,其中事件序列生成网络用于监视生成的一系列事件视频中的字幕。该框架以监督方式进行训练,而RL进一步增强了模型以获得更好的上下文建模。W. Zhang等人[177]提出了一种用于描述视觉的重建网络。内容,同时对前向流(从视频到句子)和反向流(从句子)进行操作到视频)。编码器-解码器利用前向流进行文本描述和重构器(本地和全局)利用逆流。W. Xu等人[165]提出了一种抛光网络,该网络利用RL技术来完善
生成的字幕。该框架由单词去噪和语法检查网络组成,用于微调生成的句子。RL的策略梯度算法策略优化了这些网络的参数。魏等[157]提出了一个框架,用于更好地探索RL事件,以生成更准确和详细的视频。

多模态视觉问答

在这里插入图片描述
VQA是一种新兴技术,引起了CV和NLP小组的兴趣。这是一个领域研究创建能够回答自然语言问题的人工智能系统。它是多式联运建筑系统,其中机器通过结合CV和NLP社区。从输入图像/视频中提取的特征和问题进行处理并组合以回答关于图像的问题,如图 5 所示。CNN架构用于提取图像/视频特征,而 RNN 架构用于提取问题特征。
与其他视觉和语言功能(如文本到图像检索、视频)相比,VQA 更复杂字幕、图像字幕等因为;
(1)VQA中提出的问题不是具体的或预先确定的。
(2)VQA中的视觉信息具有高度维度。通常,VQA需要更彻底的以及对图像/视频的详细了解。
(3)VQA解决了几个CV子任务。
对图像内容的搜索和推理是VQA的显着差异。这是一个多学科的人工智能领域处理属于CV,NLP和知识表示与推理的几个子任务的问题,例如,目标检测与识别、属性与场景分类、常识与知识库推理,计数、活动识别或对象之间的空间关系。在深度学习时代,许多作者通过使用各种方法为VQA领域做出贡献。这些方法分为三种群,即多模态联合嵌入模型、基于多模态注意力的模型和多模态外部基于知识的模型。表5比较分析了这些模型的各种方法。
在这里插入图片描述

在这里插入图片描述
3.3.1 多模态联合嵌入模型(MMJEM):MMJEM连接并学习公共特征空间中多个模态的表示。在VQA中,通过执行更多的推理,进一步改进了这一基本原理。比图像/视频描述的方式。H. Ben-Younes et al. [15] 提出了一个 MUTAN 框架来开发 VQA。一个基于张量的塔克分解模型与低秩矩阵约束一起使用,以参数化双线性视觉和文本解释之间的关系。MT Desta等人[34]提出了一个框架,该框架合并了具有抽象推理的视觉特征和语言。从图像优化中提取的高级抽象事实推理过程。R. Cadene等人[21]提出了一个用于VQA的E2E推理网络。本研究的主要内容
贡献是引入MuRel单元,它产生问题和相应之间的相互作用通过矢量表示的图像区域,并使用成对组合对区域关系进行建模。这个穆雷尔网络比注意力图更精细。B. Patro et al. [113] 提出了一个联合答案和文本解释生成模型。协作相关(编码器、生成器和相关)模块用于确保答案及其生成的解释是正确和连贯的。S. Lobry et al. [90] 提出了一个 VQA 框架遥感数据,可用于土地覆被分类任务。OpenStreetMap数据用于此目的框架,可以进一步细分为低分辨率数据集和高分辨率数据集。用于遥感域中,这些子数据集查询生成问题和答案所需的数据。方志明等[36]
提出了一个开放式的VQA框架,用于在语言部分使用常识推理的视频,其中询问有关效果、意图和属性的问题。

在这里插入图片描述
在这里插入图片描述
基于多模态注意力的模型(MMAM):在编码阶段,通用编码器-解码器可以在预测阶段提供一些嘈杂和不必要的信息。MMAM旨在改善克服此问题的一般基线模型。注意力机制的主要目标是使用局部图像/视频的特征,并允许系统为从不同区域提取的特征分配优先级。在图像中,注意力部分识别出突出区域,然后语言生成部分更加集中
在这些区域进行进一步处理。此概念也用于VQA中,以通过以下方式增强模型的性能根据所问的问题专注于图像的特定部分。注意步骤会做一些额外的事情在推理部分进行处理,在进一步语言之前专注于图像/视频的特定部分
计算。在深度学习时代,基于注意力机制的VQA任务提出了各种方法,如P.等人[153]提出了基于共同注意力机制的VQA框架。在此框架下,共同关注机制可以处理更高阶的事实、图像和问题。Z. Yu et al. [172] 提出了一个因式分解双线性池化方法,具有VQA任务的共同注意力学习。双线性池化方法性能优异传统的线性方法,但由于其高计算复杂度和高维表示,实际适用性受到限制。P. Anderson等人[7]提出了自下而上和自上而下的方法基于注意力的VQA框架。这种注意力机制使模型能够根据对象或显著图像区域。Z. Yu et al. [171]提出了一个用于VQA的深度模块化协同注意力网络任务。每个模块化协同注意层由问题引导的图像自注意机制组成,使用图像和问题注意力单元的模块化组合。L. Li et al. [78] 提出了一种关系感知图VQA的注意机制。该框架将提取的图像的视觉特征编码为图形,为了学习问题自适应关系表示,一种对象间建模的图注意力机制关系。W. Guo等人[48]提出了一种基于VQA的重新注意力机制。注意力模块关联一对对象词,并在彼此的指导下生成问题和图像的注意力图。
为方便阅读,将本图再次放出
在这里插入图片描述
在这里插入图片描述
多模态外部知识库模型(MMEKM):传统的多模态联合嵌入和基于注意力的模型仅从训练集中存在的信息中学习。现有数据集没有涵盖现实世界的所有事件/活动。因此,MMEKM对于应对现实世界的场景至关重要。通过将知识库 (KB) 数据库链接到 VQA 任务,VQA 任务的性能将得到更多提高。自由基地[17],DBPedia [11],WordNet [99],ConceptNet [85]和WebChild [141]被广泛使用KB。强大的 VQA框架需要访问知识库中的广泛信息内容。它已被有效地集成到VQA中通过嵌入各种实体和关系来执行任务。在DL时代,为VQA任务提出了各种外部KB方法。P. Wang et al. [152]VQA任务的另一个框架名为“基于事实的VQA(FVQA)”,它使用数据驱动的方法和
用于映射图像/问题查询的 LSTM 体系结构。FVQA框架使用DBPedia,ConceptNet和WebChild。NBKM. Narasimhan & AG.Schwing [106] 提出了使用外部知识的 VQA 任务框架包含一组事实的资源。该框架可以回答基于事实和基于视觉的问题。K.Marino等人[95]提出了一个用于VQA的外部知识数据集,其中包含超过14,000个问题。该数据集包含几个类别,如体育、科学和技术、历史等。此数据集需要外部资源来回答,而不是仅仅了解问题和图像特征。K. 巴苏等 [14]提出了一个基于常识的VQA框架。在此框架中,提取图像的视觉内容并被 YOLO 框架理解并在答案集程序中表示。语义关系特征额外的常识知识回答了自然语言推理的复杂问题。俞俊杰

为方便阅读,将本图再次放出
在这里插入图片描述

在这里插入图片描述
人类行为最重要的方面是沟通(写作/说话)。人类可以使用文本和语音的自然语言,分别代表自然语言的书面和发声形式。语言和语音处理的最新研究帮助系统像人一样说话。语音合成是生成机器所说的自然语言的复杂过程。自然语言文本形式是由文本到语音转换 (TTS) 系统实时转换为其各自的语音波形形式。各种使用语音合成在现实世界中引入应用程序,例如人机交互系统,屏幕阅读器、电信和多媒体应用、会说话玩具游戏等主要研究
如今,TTS系统的目标是产生像人类的声音。因此,使用了各个方面用于评估TTS系统的质量,例如自然性(质量与生成的角度语音定时结构,渲染情感和发音),可理解性(在一个句子中,每个质量正在生成的单词),合成语音偏好(根据语音和信号质量选择听众更好的TTS系统)和人类感知因素,如可理解性(理解收到的质量)消息)。铰接 TTS、串联 TTS、共振峰 TTS、参数化 TTS 和深度学习 TTS 是语音合成过程的主要类别。本节讨论最近的研究趋势和进展的深度学习 TTS。

在这里插入图片描述
1 深度学习 TTS (DLTTS):在 DLTTS 框架中,DNN 架构对文本及其声学实现。DLTTS的主要优点是开发了其广泛的功能
没有人类的先入为主。此外,使用这些系统可以提高语音的自然性和可理解性。文本到语音合成过程在深度学习文本到语音的一般结构图中进行了解释使用 DNN 架构的框架,如图 6 所示。显示了这些方法的比较分析在表 6 中。Y. Wang 等人 [156] 提出了“Tacotron”,一个序列 2 序列 TTS 框架,它合成了来自文本和音频对。编码器嵌入提取其顺序表示形式的文本。基于注意力的解码器处理这些表示,之后,后处理架构生成合成的波形。在另一项研究中,SO Arik 等人提出了使用 DNN 架构的“Deep Voice”模型。[10] 从字符合成音频。该模型由五个重要块组成,用于生产从文本合成语音。与现有的基线模型相比,计算速度有所提高,因为该模型可以在没有人类参与的情况下进行训练。A. Gibiansky等人[42]提出了Deep Voice-2架构。该框架旨在改进现有的最先进的方法,即Tacotron和Deep Voice-1,通过通过低维可训练说话人嵌入扩展多扬声器 TTS。在深度的第三版中Voice, W. Ping et al. [116] 提出了一种基于全卷积模型的神经 TTS 系统,具有机制。该模型通过适应格里芬-林谱图反演、WORLD、和WaveNet声码器语音合成。“Parallel WaveNet”是A提出的WaveNet的高级版本。Oord等人[109]使用概率密度分布方法来训练网络。一位老师和一名学生WaveNet在此模型中并行使用。SO Arik等人[9]提出了一种神经语音克隆系统,该系统可以学习来自更少样本的人声。为此,有两种技术,即说话人适应和编码,是一起使用。Y. Taigman等人[139]为TTS系统提出了一个VoiceLoop框架。这个模型可以处理使用不受约束的语音样本,无需语言特征或对齐的音素。这框架使用短移记忆缓冲区将文本从语音转换为语音。沈建华等.[130]提出“Tacotron2.它是神经 TTS 架构,用于直接从文本合成语音。一个基于递归的序列到序列特征预测网络可以将字符映射到频谱图,然后这些频谱图用于通过使用修改版本的 WaveNet 声码器合成波形。平行Tacotron是最近由I. Elias等人提出的神经TTS方法的另一项杰出发明[35]。在推理和训练过程中,这种方法具有高度并行化,以实现最佳合成现代硬件。VAE的一对多映射特性增强了TTS的性能,同时也提高了其性能自然。

为方便阅读,将本图再次放出
在这里插入图片描述

其他的多模态应用

在这里插入图片描述
多模态情感识别(MMER):人类的情感是表达的方法之一,感情。MMER对于增强人与计算机之间的交互体验非常重要。ML的任务是使计算机能够学习和识别来自训练数据集的新输入,因此它可以通过计算机有效地检测、处理、响应、理解和识别人类的情绪,训练。因此,情感计算的主要目的是提供机器/系统的情商。能力。它有几个研究领域,如学习,健康,教育,沟通,游戏,个性化,用户界面、虚拟现实和信息检索。多模态情感识别框架可以
基于AI / ML的原型开发,旨在从各种中提取和处理情感信息,语音、文本、图像、视频、面部表情、身体手势、身体姿势和生理信号等形式。使用面部、文本和语音的乘法多模态情绪识别的一般结构图提示如图 7 所示。

在这里插入图片描述
在这里插入图片描述
在DL时代,不同的作者通过使用不同的架构和多种模式。比如,Y. Huang等人[63]提出了一种融合方法,用于使用两个模式,即面部表情和脑电图 (EEG) 信号。NN 分类器检测幸福感,中性、悲伤和恐惧的情绪状态。D. Nguyen et al. [108] 提出了另一种情绪处理方法使用音频和视频流进行识别。在此方法中,使用了C3D和DBN体系结构的组合。对视频音频流的时空信息和表示进行建模。S. Tripathi et al. [144]使用各种模式的多模态情感识别框架,如文本、语音、面部表情和IEMOCAP 数据集上的手部移动。模态的融合仅在最后一层进行,以改进情绪识别性能。D. Hazarika等人[52]提出了一种来自视频的情感识别框架。对话。此方法可以通过使用从视频中提取的上下文信息。他们还提出了另一种检测情绪的框架。使用注意力机制[51]。在此框架中,音频和文本模式用于检测
情绪。M. Jaiswal等人[67]分析了不同压力水平下情绪表达的变化个人。此任务的性能受词汇或声学特征程度的影响。L. Chong 等.[31]提出了一种新的在线聊天系统,称为“EmoChat”,可以自动识别用户的情绪。并在短时间内自动附加识别的情绪和发送的消息。聊天期间用户能在这个网络中了解彼此的情绪。M. Li et al. [81] 提出了一个多步深系统,用于可靠的通过使用收集的数据来检测情绪,这些数据也包含无效数据。神经网络用于过滤这种来自视频和生理信号的无效数据通过使用连续性和语义兼容性。黎海等人[75]提出了一种交互式对话中的情感识别模型。在这个模型中,不同的RNN具有可变上下文窗口大小的体系结构区分对话中上下文的各个方面以提高准确性。RH Huan等人[61]提出了一个使用注意力机制的模型。在此方法中,对于更好地利用视觉、文本和音频功能进行视频情感检测,双向 GRU 级联注意机制。注意力函数用于处理多种模态的各种上下文状态实时。Y Cimtay等人[33]提出了一种使用三种模式进行情感识别的混合融合方法,即面部表情、皮肤电反应 (GSR) 和脑电图信号。该模型可以识别实际情绪,当由于自然的欺骗性面部行为而突出或隐藏时的状态。

在这里插入图片描述
在本节中,介绍了使用多模态DL进行情感识别和分析的最新现有方法。这些技术的比较分析如表7所示。这篇关于情绪检测的文献综述是基于文本、音频、视频、生理信号、面部表情和身体手势模式。很明显一项实证研究表明,自动情绪分析是可行的,并且可以非常有益于增加

在这里插入图片描述
在这里插入图片描述
3.5.2 多模态事件检测:由于媒体共享在互联网上的普及,用户可以轻松共享他们的事件、活动和想法随时。多模态事件检测(MMED)系统的目的是发现来自多种形式(如图像、视频、音频、文本等)的操作和事件。据统计,百万每天发布推文,同样,YouTube 用户每小时发布超过 30,000 小时的视频。因此在许多CV应用中,需要自动事件和动作检测机制来自如此大的体积用户生成的视频。从这个广泛的数据集合中查找事件和操作是一个复杂且
具有挑战性的任务。它在现实世界中具有各种应用,如疾病监测、治理、商业、等,还可以帮助互联网用户了解和捕捉世界各地发生的事情。各种总结MMED方法如表7所示。研究人员在DL时代做出了很多贡献,并提出了许多事件和行动的方法使用多种模式进行检测。像Y. Gwon等人[50]提出了一种多模态稀疏编码方案,用于学习多种模态特征表示。在这种方法中,使用这些特征表示检测来自音频和视频媒体的事件。Y. Gao等人[41]提出了一种事件分类方法微博中的社交跟踪和深度学习。图像和文本媒体被馈送到多实例深度网络在此框架中对事件进行分类。S. Huang等人[62]提出了一种无监督的检测方法使用 DL 架构的拥挤场景中的异常事件。在这个模型中,视觉、运动图和能量特征是从视频帧中提取的。多模态融合网络利用这些特征检测使用 SVM 模型的异常事件。在另一项检测视频中突出事件的研究中,P. Koutras等人。[72]使用音频和视频模式采用了CNN架构。在此框架中,基于CNN架构在 C3D 网络上,网络用于检测来自视觉流的事件,2D-CNN 架构用于检测事件从音频流。实验结果表明,与显著事件检测的基线方法相比,所提方法的性能有所提高。Z. Yang等人[167]提出了一个事件检测框架。从社交和新闻媒体等多个数据域检测真实世界事件。统一的多视图数据在此框架中,表示是为来自社交和新闻领域的图像和文本模式构建的。类明智制定剩余单位以识别多媒体事件。
为方便阅读,将本图再次放出
在这里插入图片描述

多模态的架构

在这里插入图片描述
多模态处理、学习和感知具有一系列深度学习模型。深度学习是分层的计算模型,基于人工神经学习数据的多级抽象表示网络 (ANN)。DL的分层表示可以针对每种模式自动学习,而不是手动设计模态的特定功能。在本节中,简要介绍不同的体系结构介绍,用于第 3 节中提到的各种应用。这些体系结构按类别分类分为概率图模型、ANN 和其他架构组。

概率图模型

在这里插入图片描述
深度信念网络(DBN)[55],深度玻尔兹曼机(DBM)[127]和变分自动编码器[59]。受限玻尔兹曼机(RBM) 玻尔兹曼机[5]中最受欢迎的子类是RBM。RBM 是一个具有两层的随机和生成模型;一个是随机可见层 v ∈ {0, 1}
D 和另一个是随机隐藏层 h ∈ {0, 1}𝐹可以学习训练数据的分布。这是一个无定向的图形模态,其连接受到限制,因此它必须通过其神经元形成二分图。这RBM的结构图如图8(a)所示。在下列情况下,成果管理制可广泛推广到其各自的变式。考虑可见的稀疏计数或实值数据,如复制的softmax RBM [112],模糊RBM(FRBM)[24],
模糊去除冗余 RBM (F3RBM) [91]、高斯-伯努利 RBM (GBRBM) [140] 和规范化 RBM(NRBM)[3]. 深度信念网络(DBN)是另一种提供联合概率的概率图形模型可观察标签和数据的分布[55]。它是一个图形生成模型,学习如何提取训练数据的深层分层表示形式。DBN 由堆叠多个 RBM 和训练组成他们通过使用对比发散程序以无监督的贪婪方式。最初,DBN雇用一种高效的逐层贪婪学习策略,用于初始化深度网络并使用所需的并行输出。在顶层,它具有无向连接,在较低层,它具有定向连接。DBN的结构图如图8(b)所示。DBN已广泛应用于各个领域,以解决表示学习,语义散列和数据降维问题。DBN可以广泛扩展到其各自的变体,如模糊深度信念网络(FDBN)[178],判别性深度信念网络(DDBN)[92],竞争深度信念网络(CDBN)[166]和自适应分数深度信念网络(法新社)[94].
为方便阅读,将本图再次放出
在这里插入图片描述

在这里插入图片描述
深度玻尔兹曼机(DBM)是另一个概率图形模型;RBM用作建筑物块用于 DBM 模型。DBM 模型与 DBN 的主要区别在于,所有层之间的连接是无定向。它是一个完全生成模型,可以从缺少一些模式的数据中提取特征。正确选择隐藏层和可见层之间的交互可以产生更易于处理的 DBM 版本。它可以捕获多层复杂的输入数据表示,适用于无监督学习因为它们可以在未标记的数据上进行训练。尽管如此,它也可以以监督方式进行调整具体任务。在DBM中,所有层的参数都可以通过遵循近似梯度来共同优化下限变化。这在来自不同的异构数据学习模型的情况下特别有用方式。DBM的结构图如图8(c)所示,可以大致扩展到其各自的诸如坚固的尖峰和板坯深玻尔兹曼机(RossDBM)[175],批量归一化深玻尔兹曼等变体机器 (BNDBM) [147], 收缩板和尖峰卷积深度玻尔兹曼机 (CssCDBM) [162],和平均监督深度玻尔兹曼机(msDBM)[105]。变分自动编码器 (VAE) [59]是有向概率图模型,一种用于潜在表示学习的 DL 方法。VAE是其中之一无监督学习方法中最著名的复杂分布技术。它提供了一个概率定义潜在空间观测并确保潜在空间包含良好属性以实现生成过程。VAE也被认为是高分辨率网络,因为它用于设计复杂的网络。具有大型数据集的模型。它在生成面部、手写数字、分割、静态图像和语音合成的未来预测等。
在这里插入图片描述

生物神经元的计算能力激发了人工神经网络的灵感。这些 NN 是 AI 的起源,可以解决复杂的问题通过有效利用其自学能力来解决问题。它用于各种活动,包括简历,演讲识别、社交网络过滤、医疗诊断、机器翻译、视频游戏等根据ANN架构在第3节讨论的各种应用中的应用,三个基本的ANN类别有在本文中进行了简要解释,即 CNN、RNN 和 YOLO 架构。卷积神经网络(CNN) 架构是一种由输入层、隐藏层和输出层组成的 DL 算法,用于解决复杂的模式。这些隐藏层由卷积层、池化层和全连接层组成。卷积层包含不同的过滤器,在较少的维度切片中描述输入数据以生成特征图。然后池化层通过降低这些特征图的维数来执行这些特征图的子采样。所需的预处理
与其他分类算法相比,CNN架构要少得多。CNN于1989年引入,当时LeCuN致力于处理网格状时间序列和图像数据[77]。CNN用于各种应用图像分割、图像分类、视频处理、对象检测、语音识别、NLP、推荐系统、异常检测、医学图像分析、药物发现、媒体娱乐等。一个将军卷积神经网络架构示意图如图 9 所示。CNN 架构的变体
在第3节中讨论的不同模型中使用的是VGGNet [132],GoogLeNet [137],ResNet [53],Inception [138],
Inception-ResNet-V2 [136], ResNeXt101 [163], Xception [30], Faster R-CNN [124], Deep CNN , C3D [143], 和TextCNN [43] 架构。递归神经网络(RNN)架构用于增强NN的能力,可以获得输入
从固定长度数据到处理可变长度序列。RNN架构一次可以处理一个元素,隐藏节点的输出用作下一个元素的附加输入。它可以解决语音合成,时间序列和 NLP 问题。循环神经网络架构的一般示意图如图所示第11(a)条。RNN架构进一步扩展到存储单元的变体,包括LSTM [56]和GRU [32]。在第 3 节讨论的不同模型中使用的 RNN 架构的变体是双向 RNN (BRNN)[128],LSTM [56],双向LSTM (BiLSTM) [13],GRU [32]和堆叠GRU (SGRU) [159]。J·雷德蒙等.提出了一种“你只看一次”(YOLO)架构,可以有效地用于实时目标检测
[121]. 在本研究中,YOLO架构被重新用作回归问题而不是分类问题。YOLO 模型中使用单个神经网络来预测各种对象的边界框和关联类概率。对象检测问题比分类问题更复杂,因为对象更多而不是一次检测到一个,并且还会检测到这些对象的位置。应用 YOLO 算法一个聪明的CNN架构到整个图像,然后将它们分成不同的区域。然后概率
并预测每个区域的边界框。《你只看一次》的一般架构图是如图 10 所示。

为方便阅读,将本图再次放出
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

其他体系结构

其他架构,如支持向量机、生成对抗网络和隐马尔可夫模型用于第 3 节中介绍的各种模型。支持向量机(SVM)是一种传统的ML的监督学习方法,用于解决大数据分类问题,帮助多域应用[135]。SVM的特征是求解线性和非线性回归的统计学习算法或分类问题。SVM 的算法在数据之间创建一个超平面或线,以将其分隔为类。它试图在两个类之间创建可能很宽的分离,这有助于做出决策。在本文介绍了 SVM 及其变体 SVM-RBF 架构,用于基于检索和基于模板的图像描述任务、情感识别任务和事件检测任务的各种模型。生成对抗网络(GAN)是一种混合架构,由两个主要组件组成,即生成器和鉴别器网络。这些网络可以是神经网络的形式,如ANN,CNN,RNN,LSTM等。和鉴别器网络包含完全连接的层以及分类器 [44]。GAN架构由两个NN竞争组成尽量减少实际输入数据和生成数据之间的差异。鉴别器网络采取真正的数据和从生成器网络生成的数据,并尝试识别数据是真的还是假的。一个生成对抗网络的总体图如图11(b)所示。发电机网络可以训练完成后生成新的输出数据,即与实际数据没有区别。在本文中,GAN 和其变体 WaveGAN 架构用于基于编码器-解码器和基于注意力的各种型号图像描述任务和语音合成任务。隐马尔可夫模型(HMM)是使用的统计模型首次进行语音识别任务和生物序列分析[38]。这些模型用于收集来自顺序模式的机密信息。在HMM架构中,考虑建模方法一个未知的参数马尔可夫过程,目标是从给定参数中确定隐藏参数。许多 ML 技术都专注于在语音识别、计算中成功实现 HMM生物学、字符识别、移动通信技术、生物信息学、时间序列监测数据、等。在本文中,HMM架构用于各种基于模板的图像描述,视频描述,
情绪检测和事件检测任务。

多模态数据集

在这里插入图片描述
各种各样的数据集可用于多模态深度学习应用。这些数据集是主要的推动各种MMDL应用研究领域的加速发展。在这篇综述中,下面简要介绍第 3 节中讨论的多个应用程序中使用的数据集。

在这里插入图片描述
在本文献中,各种数据集用于图像描述任务,在此解释,Flickr 是最初由Ludicorp于2004年创建。这是一个用于托管图像和视频服务的美国在线社区。
在这里插入图片描述

数十亿张高分辨率以及专业图像可在在线社区中公开获得。不同Flicker数据集的版本可用于研究,即Flickr-8k[57],Flickr-8kCN [82],Flicker-30k [168]和FlickrStyle10k [39]。下面对这些数据集进行了简要说明,它们的数据集拆分总结在表 8.PASCAL数据集:2005年至2012年的PASCAL视觉对象类(PASCAL-VOC)挑战提供了
用于对象类识别的数据集。后来,C. Rashtchian et al. [120]提出了UIUC PASCAL句子数据集用于图像分类、对象检测和对象分割任务。此数据集包含 1000 张图像,为每个图像生成五个英语人类书面描述。图像描述任务的另一个数据集是 SBU 标题照片,其中包含一百万张过滤图像来自Flickr,并以文本的形式提供相关描述。V. Ordonez et al. [110] 首次尝试为图像描述任务准备大型数据集。分析显示了 SBU 标题的一些问题照片数据集的实用工具,例如包含不相关信息(名称、对象位置)的标题与每个图像的图像内容或简要说明。和 Microsoft-Common Object in Context (MS-COCO)数据集包含 328,000 张用于对象识别、字幕和分割的图像。[84]. MS-COCO数据集分为 91 个常见对象类别,91 个类别中有 82 个包含 5000 多个标签实例生成 2,500,000 个标签实例。此数据集包含每个类别的更多标签实例,并且每个图像包含五个描述。数据集被拆分为一个训练集,其中包含 164,000 张配对的图像每张图片有五个标题。验证和测试集包含 82,000 张图像,每张图像有五个标题图像。MS-COCO Captions [27] 和 MS-COCO QA [123] 是该数据集的其他变体,其统计数据是总结见表9。
SentiCap [97] 数据集通过自动生成带有负片的标题来表征带有情绪的图像或积极的情绪。它是MS-COCO数据集的子集,基于标有三个负片的COCO图像和三种积极情绪。正子集包括 998 张图像,其中包含 2,873 个用于训练的句子和 673 个包含 2,019 个句子的图像进行测试;同样,负子集包含 997 张图像和 2,468 个句子用于训练和 503 张图像和 1,509 个句子进行测试。SentiCap 数据集的统计数据和拆分为如表10所示。

在这里插入图片描述
在本节中,将讨论用于 VQA 任务的数据集,例如可视问答 (VQA) 数据集
可视化问答任务最常用的数据集。VQA有多种变体数据集如VQA v1.0 [8],VQA v2.0 [160],VQA-CP [6],VQA-X [64],Ok-VQA [95]和FVQA [151]。VQA v1.0 也
命名为VQA-真实数据集分为两部分;第一部分包含 123,287 张训练验证图像和 81,434 张

在这里插入图片描述
测试来自MS-COCO [8]的图像。第二部分包含50,000个抽象场景,用于高级
VQA 任务中的推理。在这个版本中,来自不同注释器的每个问题的十个答案被收集到这个版本中。VQAv2.0 [160] 建议通过添加另一个带有同一问题的不同答案。因此,VQA v2.0 数据集大小是版本 1.0 的两倍。VQA v2.0 数据集包含额外的免费图像,以应对上述限制,因此包含大约 443,000 个用于训练的(问题、图像)对、214,000 个用于验证的对和 453,000 个对进行测试。VQA v1.0 和 2.0 的统计数据汇总在表 11 中。DAtaset for QUestion Answer on Real-world Images (DAQUAR) [93] 是第一个重要的数据集对于 VQA 任务。DAQUAR 数据集包含 6,795 个用于训练集的 QA 对和 5,673 个用于对来自NYU-DepthV2数据集的1,449张图像进行测试。Visual7W [179] 是另一个用于 VQA 的数据集
在图像中包含对象本地化和密集批注的任务。Visual7W数据集由七个组成
问题(什么、何时、何地、为什么、谁、哪个以及如何。Visual7W中的问题要丰富得多,并且他们的答案也比VQA数据集长。它由 47,300 张图像上的 327,939 个 QA 对组成可可数据集。视觉基因组数据集是视觉感知的巨大结构化知识呈现和
完整的问答和描述集合[74]。属性、关系、并且每个图像中的对象都收集在此数据集中。此数据集包含大约 108,000 张图像。使用组合语言和基本视觉推理诊断(CLEVR)数据集[69]解决复杂的推理。它执行广泛的诊断,以更好地了解推理能力。它包含 100,000 张图像,其中 70,000、15,000 和 15,000 张图像用于训练、测试和分别验证集。任务导向图像理解挑战 (TDIUC) 数据集 [71] 包含
来自视觉基因组和MS-COCO数据集的167,437张图像。TDIUC 数据集包含 1,654,167 个派生的 QA 对来自三个不同的来源,分为 12 个单独的类别。其他VQA数据集的统计数据是总结见表12。

在这里插入图片描述

在这里插入图片描述
在本节中,简要介绍了用于视频描述任务的数据集,如TACoS多级数据集
[126]也通过AMT工作人员在TAcos Corpus[122]上进行了注释。TACoS-多级数据集包含 185长室内视频,大约每个视频都有六分钟长。这些视频包含各种演员,小
交互对象和有关烹饪方案的活动。多个 AMT 工作人员为视频序列添加注释间隔,将它们与一个简短的句子配对。用于视频描述任务的各种数据集的统计信息为
总结见表13。微软视频描述 (MSVD) 数据集 [25] 语料库包含不同的以文本形式对小视频剪辑进行众包描述。MSVD 数据集包含来自 1,970 个剪辑YouTube以AMT工作人员的句子格式进行了注释。大约 10-25 秒持续时间的视频剪辑用于说明此数据集中的活动,它还支持多语言描述,如表单英文、中文、德文等同样,蒙特利尔视频注释数据集(M-VAD)[142]由来自 92 部不同电影的 48,986 个视频剪辑,基于描述性视频服务。M-VAD 数据集包含92 部过滤电影和 92 部未过滤电影。平均而言,每个视频剪辑跨越 6.2 秒,整个整个数据集的运行时间约为 84.6 小时。它包含510,933个单词,48,986个段落和55,904句。数据集分为 38,949 个用于训练的剪辑、4,888 个用于验证的剪辑和 5,149 个用于验证的剪辑测试。
Microsoft Research-Video to Text(MSR-VTT)数据集[164]由更广泛的开放域组成
用于视频描述任务的视频。MSR-VTT 总共包含大约 7,180 个视频,它们是
细分为 10,000 个视频剪辑。组织了二十个不同的类别来对这些剪辑进行分组。数据集拆分为包含 6,513、497 和 2,990 个视频的训练、验证和测试集。二十个字幕是由AMT工作人员为每个视频添加注释。猜字谜数据集 [131] 包括 9,848 个各种日常生活的视频室内活动。部署了不同的 267 名 AMT 工作人员,以视频的形式捕获这些活动三大洲。记录是根据给定的脚本捕获的,该脚本包含操作和要记录的对象。这些视频的录制是通过15种不同的室内场景完成的。在此数据集,157个动作类和46个对象用于场景描述。它提供了 27,847 条描述所有拍摄的室内场景。ActivityNet Captions 数据集 [73] 包括 100,000 个自然密集描述来自ActivityNet的大约20,000个视频的语言[20]。这些视频的总周期约为849小时。在本文中,ActivityNet数据集用于视频描述任务。和视频到常识 (V2C)数据集 [36] 由大约 9000 个人工代理视频组成,这些视频实现了来自MSR-VTT 数据集。使用三种常识性描述通过招募来注释这些视频两组 AMT 工作人员。6,819 个视频用于训练集,2,906 个视频用于测试集。为这些视频生成了大约 121,65 个常识性字幕。此数据集的扩展名为还提出了V2C-QA以从常识知识的角度处理VQA任务。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
用于语音合成任务的数据集在此简要说明,如北美英语数据集[156]是使用单个说话人语音数据库构建的。此数据集中语音数据的持续时间约为24.6小时。专业女性演讲者用于说出此语音数据。此数据集用于语音合成过程。语音克隆工具包 (VCTK) 数据集 [146] 包含来自 109 个本机的语音读取数据讲英语的人有不同的口音。演讲者朗读了大约400个从报纸上挑选的句子。这些音频的累积长度约为 44 小时,采样率为 48-kHz。标准训练和测试此数据集中未提供拆分。LibriSpeech 语料库 [111] 包含有声读物中的英语朗读语音通过LibriVox项目衍生。大约 2484 名男性和女性演讲者参与创建此内容语料库。这些音频的累积长度约为 1000 小时,采样率为 16-kHz。
Lj 语音数据集 [65] 是一个公开可用的语音数据集;它包含13,100个小音频剪辑。这些剪辑由一位演讲者录制,他朗读了 7 本不同书籍中的段落。每个剪辑的持续时间不同,时间从 1 秒到 10 秒不等。这些剪辑的累积周期约为 24 小时。和专有语音
[35] 数据集用于语音合成过程。此数据集中语音数据的累积持续时间为约405小时。它总共包括 347,872 个话语,从 45 个不同的英语口音变化扬声器。在这 45 位发言者中,32 位具有美国英语口音,8 位具有英国英语口音,5 位有澳大利亚英语口音。
5.5 用于情绪识别的数据集:
本节将简要介绍用于情绪识别任务的数据集。电子人脸视听
数据库[96]包含1,166个视频序列。在这些序列中,902涵盖了男性视频记录,并且264 收录女性唱片。该数据库中表达了六种不同的情绪类别,即幸福,愤怒、恐惧、厌恶、惊讶和悲伤。用于情绪检测任务的不同数据集的统计信息为总结见表14。Hatice Gunes和Massimo Piccardi制作了双峰面部和身体手势悉尼科技大学的数据库(FABO)数据库[45]。此数据库创建双峰人脸以及用于自动研究人类情感活动的身体表情。各种志愿者聚集了视觉效果实验室环境中的数据,通过以所需的视角指导和请求参与者动作/动作。该数据库中表达了十种不同的情绪类别,即中性、快乐、愤怒、恐惧、厌恶、惊讶、悲伤、不确定、焦虑和无聊。互动情感二元运动Capture (IEMOCAP) [18] 是一个多扬声器和多模态数据库。视听的累积持续时间此数据集中的数据约为 12 小时。各种视频,面部动作,语音,文本转录都包含在这堆数据。多个注释器用于将此数据集注释为分类标签,例如幸福,沮丧、愤怒、悲伤、中立和维度标签,如激活、价和支配。MSP-Improvement [19]数据库被编译以记录即兴环境中的自然主义情绪。记录了来自 12 名演员的 6 个会话,并收集了 652 个包含词汇数据的目标句子。这每节课的持续时间约为三个小时。数据分为 2,785 个自然交互、4,381 个即兴转弯和 620 个阅读句子,总共 8,438 个话语。多模态压力情绪 (MuSE) [66] 数据库在自然的口头交流中识别情绪和压力之间的相互作用。此数据集包含来自28名参赛者的55种不同录音。每个参赛者都被记录为压力和无压力的会议。此数据集的累积持续时间约为 10 小时,从 2,648 条话语开始。持续情绪
使用非语言表达的彩色机器人互动(SEMAINE)[98]已经建立了实质性的视听数据库,用于创建敏感的人工监听代理,使人陷入长时间的情绪中谈话。五个高分辨率摄像头和四个麦克风同步使用,实现高质量录音。来自八个不同国家的150名参赛者总共记录了959次对话。远程COLlaborative and Affective (RECOLA) 数据库 [125] 由自发和自然情绪组成连续域。视频、音频、心电图和皮肤电活动方式用于此
数据库。46名讲法语的参赛者录制的累计时长约为9.5小时。

多模态的评估指标

在这里插入图片描述
评估指标决定了机器学习或统计模型的性能。对于任何项目,算法和 ML 模型的评估都是必不可少的。有几种评估指标可用于验证框架。为了测试模型,使用了单个和多个评估指标。因为架构的性能可能因不同的评估指标而异,使用一个可能会显示更好的结果指标,但使用其他指标显示不同的结果。因此,使用许多评估指标的视角提供了更广阔的视野。中使用的各种评估指标概述本文总结并介绍了其相关数据集和MMDL应用程序组,请参见表15。

在这里插入图片描述
第3节中提到的问题和限制或各种应用在下面突出显示。他们的可能性
未来的研究方向也单独提出。7.0.1 多模态图像描述:近年来,图像描述领域有了很大的改进,但有在某些方面仍有一些改进的空间。某些方法未检测到突出属性,
对象,并且在某种程度上不会生成相关或多个标题。在这里,一些问题及其可能
下面提到了未来的方向,以便在图像描述方面取得一些进展。

• 生成的字幕的准确性主要取决于语法正确的字幕,这取决于
强大的语言生成模型。图像字幕方法在很大程度上取决于质量和
训练数据的数量。因此,未来的另一个关键挑战将是创造大规模
图像描述数据集,以适当的方式提供准确而详细的文本描述。

• 现有模型在包含来自同一图像集合的数据集上演示其输出
域。因此,在开源数据集上实现和测试图像描述模型将是另一个
未来具有重要的研究前景。

• 在监督学习方法方面做了太多工作,培训需要大量的培训
的标记数据。因此,强化和无监督学习方法具有较少的
工作已经完成,未来还有很大的改进空间。

• 更高级的基于注意力的图像字幕机制或基于区域/多区域的字幕
也是未来的一个研究方向。

7.0.2 多模态视频描述:视频描述过程的性能通过
深度学习技术的进步。尽管目前视频描述方法的性能已经很远了
在人类描述过程之下,这种准确率正在稳步下降,但仍然有足够的
此区域可用于增强的空间。这里提到了一些问题及其可能的未来方向
下面在视频描述中取得一些进展。

•预计未来人类将能够与机器人互动,就像人类可以互动一样
彼此之间。视频对话是应对这种情况的一个有前途的领域,类似于音频
对话(如,你好谷歌,Siri,ECHO和Alexa)。在视觉对话中,系统需要训练
通过忽略对话以对话/对话方式与人类或机器人交流
陈述的正确性和错误性。

• 在简历中,大多数研究都集中在视觉内容的描述上,而没有提取音频/语音
视频中的功能。现有方法从视觉框架或剪辑中提取特征以进行描述
的视频。因此,提取这些音频特征可能更有利于改善
此描述过程。音频功能,如水花,猫,狗,汽车,吉他等的声音,提供
当视频中没有视觉线索时,偶尔/最终的信息。

• 现有方法已执行端到端训练,因此越来越多的数据被用于
提高模型的准确性。但广泛的数据集仍然没有涵盖现实世界的发生
事件。为了在未来提高系统性能,从数据本身中学习是一个更好的选择,
实现其最佳计算能力。

• 在视频描述过程中,大多数是人类根据广泛的先验来描述视觉内容
知识。它们并不总是完全依赖于视觉内容;一些额外的背景知识
也由领域专业知识应用。用一些现有的视频描述方法来增强视频描述方法
外部知识将是该研究领域有吸引力和有前途的技术。这种技术
在 VQA 中显示出更好的性能。最有可能的是,这将主导一些准确性的提高
这个域名也是如此。

在这里插入图片描述
视频描述可以与机器翻译结合使用,以实现自动视频字幕。这组合对娱乐和其他领域也非常有益。所以这个组合需要专注于使未来的视频字幕过程更容易且具有成本效益。
7.0.3 多模态视觉问答:近年来,VQA任务受到极大关注
并通过不同作者在这一特定领域的贡献加快了开发过程。VQA 是
特别诱人,因为它包含一个完整的AI任务,该任务考虑了自由形式的开放式答案
通过从图像/视频中提取特征和提出的问题来提问。VQA研究的准确性仍然
与人类同等的准确性相比,超越了回答基于视觉的问题。一些问题和
下面提到了他们对VQA任务的可能未来方向。

•到目前为止,图像/视频特征提取部分几乎固定在模型上,大多数时候ImageNet
使用挑战模型。在该模型中,通过将帧拆分为均匀的帧来提取图像特征
适用于对象检测的框,但 VQA 需要通过使用语义跟踪所有对象来提供功能
分割。因此,需要为VQA任务提供一些更直观的特征提取机制
未来探索。

• 面向目标的VQA研究数据集需要设计为功能以支持实时应用
比如指导用户玩游戏,帮助视障人士,支持数据提取
从庞大的数据池和机器人交互等。到目前为止,VizWiz [49] 和 VQA-MED [4] 是两个公开的
用于VQA研究的可用目标导向数据集。因此,在未来,更多面向目标的数据集
需要为上述应用程序构建。

• 大多数基线VQA方法都经过了传统的精度测量测试,足以满足
多项选择格式。未来,开放式框架的评估或评价方法
检查VQA任务以提高这些模型的准确性。

7.0.4 多模态语音合成:DLTTS模型使用分布式表示和完整上下文
用于替换 HMM 模型中决策树的聚类分析阶段的信息。因此,为了产生更好的
语音合成过程的质量与传统方法相比,使用几个隐藏层来映射
通过DLTTS方法将上下文特征转换为高维声学特征。更多的隐藏层不可避免地会提高
系统参数的数量,以达到更好的性能。因此,空间和时间复杂度
系统培训也有所增加。因此对于网络训练,大量的计算资源
并且语料库是必需的。除了这些成就之外,DLTTS模型在以下方面仍有空间
提高清晰度和语音自然度的质量。因此,一些问题及其特征研究
下面将讨论方向。

• DLTTS 方法通常需要大量高质量的(文本、语音)对进行训练,即
耗时且昂贵的过程。因此,未来E2E DLTTS模型的数据效率更高
通过大规模公开提供未配对的文本和语音录音,可以改善培训。

• 在前端文本分析方面进展甚微,无法提取有价值的上下文或语言特征
尽量减少文本-语音合成过程之间的差距。因此,这是未来的一个好方向
利用 E2E DLTTS 系统的特定上下文或语言信息。

• 并行化将是DLTTS系统提高系统效率的一个重要方面,因为大多数
DNN 架构需要许多计算。近年来提出的一些框架也使用并行
用于训练或推理的网络取得了一些不错的结果,但仍有实现的空间
未来最佳效果。

•至于DLTTS应用程序问题,将语音合成用于其他实际应用,如语音
转换或翻译、跨语言语音转换、音视频语音合成等都不错
未来的研究方向。

在这里插入图片描述
7.0.5 多模态情绪识别:自动情绪的分析需要一些高级建模和识别技术以及人工智能系统。对于更先进的情感识别系统的未来研究基于人工智能的自动化系统构成了该领域的更多科学进步。未来的一些方向

下面提到了多模态情绪识别的问题。
• 现有的基线方法是成功的,但进一步的经验、知识和工具是关于
需要分析和测量自动非侵入性情绪。

• 人类使用更多的模式来识别情绪,并与信号处理兼容;机器
预计会表现类似。但是自动化系统的性能受到限制
的数据。因此,为了克服这一限制,新的多模态录音具有更具代表性
今后需要考虑收集科目。

• 情绪检测中生理信号的预处理复杂性是一大挑战。在生理信号中,通过心电图、肌电图和皮肤温度检测情绪状态
仍在不断涌现。因此,为了确定这些技术的效力,可以进行详细的研究
将来会出来。

7.0.6 多模态事件检测:由于 Web 数据的指数级增长,多模态事件检测具有
近年来引起了广泛的研究关注。MMED旨在确定真实世界事件的集合
在大量社交媒体数据中。子空间学习是处理异质性问题的有效方法
用于从多模态数据中学习特征。另一方面,E2E学习模型更通用
因为它们的结构可以直接获得异构数据相关性。来自社交数据的MMED仍然是
具有挑战性,需要在未来的一些未解决的问题中进行改进。

• 多个特征向量的串联引发了“维数的诅咒”问题
方式。在维度的诅咒问题上已经取得了一些相当大的进展,但存在
在实现更好的社交学习准确性方面,技术仍需要一些改进
平台。比如,GAN或一些RNN架构的扩展对于改善特征学习很有价值。
多模态社交数据的准确性。

• 文本数据也与音频和视频媒体相吻合。因此,如果此文本,MMED 将得到改进
信息与这些媒体一起考虑。

•目前的研究主要集中在从单一社交平台识别事件。通过综合来自多个的信息来全面了解社交数据事件
社交平台。因此,可以同时实施事件检测方法来检查社交
使用迁移学习策略来自多个平台的数据。

8 结论:
在本次调查中,我们讨论了多模态深度学习的最新进展和趋势。各种DL型号
被分类为不同的应用程序组,并使用多种媒体进行彻底解释。本文专注于使用图像、音频、视频等各种形式对众多应用程序进行最新审查,文本、肢体手势、面部表情和生理信号与之前相关调查相比。一部小说提出了各种多模态深度学习应用的细粒度分类法。此外,简要讨论一下提供了这些 MMDL 应用程序中使用的体系结构、数据集和评估指标。最后,开放研究每组应用也分别提到了问题,以及可能的研究方向
详细列出了未来。我们期望我们提出的分类和研究方向将促进未来多模态深度学习的研究,有助于更好地了解这一特定领域未解决的问题面积。

参考文献

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丰。。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值