
Multimodal Deep Learning
文章平均质量分 77
Conn_w
JNU人工智能研一,多模态融合方向,欢迎前来交流
私信未回请q2952076316
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
BLIP-2 (ICML 2023)
BLIP-2是一种创新的视觉语言预训练模型,它通过利用现有的图像编码器和大语言模型,采用轻量级的两阶段预训练策略,有效地缩小了视觉和语言之间的模态差距。在第一阶段,BLIP-2从冻结的图像编码器中学习视觉语言表征;在第二阶段,它基于冻结的语言模型进行视觉到语言的生成学习。BLIP-2的优势在于高效利用预训练模型、强大的zero-shot图像到文本生成能力以及计算效率。它通过Querying Transformer (QFormer)实现视觉语言对齐,并在多种视觉语言任务上达到了最先进的性能。尽管存在一些局限原创 2025-05-22 13:50:33 · 518 阅读 · 0 评论 -
A Survey on Multimodal Large Language Models
(多模态幻觉问题)是指当不同感官的信息(如视觉、听觉、触觉等)相互作用时,可能导致个体产生不准确或扭曲的感知。例如,在某些情况下,看到某种物体的同时听到与之不相关的声音,可能会影响我们对该物体的理解或判断。代表“多模态内联学习”,旨在结合多种感知模式(如文本、图像、音频等)来提升模型的学习能力和性能。仅编码器模型,也称为自动编码模型,是使用掩码语言模型进行预训练的,在此过程中,输入序列中的某些。是“基于大语言模型的视觉推理”,将大型语言模型与视觉数据结合,帮助进行视觉推理。此外,还提到了多模态幻觉问题(原创 2025-02-19 15:44:12 · 1029 阅读 · 0 评论 -
RWKV: Reinventing RNNs for the Transformer Era
可以利用 RWKV 的状态(或上下文)来提高序列数据的可解释性、可预测性和安全性。RWKV 架构并不完美,可以通过修改公式或实现更大的内部状态等方面进行改进。更大的状态可以增强模型对先前上下文的记忆,并提高在各种任务上的性能。RWKV 所使用的机制可以应用于编码器-解码器架构,潜在地替代交叉注意力机制。状态的方式来增加模型的表达能力(expressivity),同时保持效率。,从而在训练过程中并行计算,并在推理过程中保持恒定的计算和内存复杂度。W: 权重,表示位置权重衰减向量,是模型中的一个可训练参数。原创 2025-02-17 17:16:57 · 418 阅读 · 0 评论 -
Image as a Foreign Language: BEIT Pretraining forAll Vision and Vision-Language Tasks
只有后面Feed Forward Network不一样,根据不同的Modality训练不同的Vision、Language、Vision Language三个不同的Expert,然后通过调整不同的Input Modality去选择模型分支。模型用了Multi-Way Transformer,前面的自注意力全都是。可能遮住了图像,可能是遮住了文本,模型训练学习去恢复它就可以。Mask Data Modeling目标函数。原创 2025-02-16 22:23:13 · 199 阅读 · 0 评论 -
BEIT: BERT Pre-Training of Image Transformers(ICLR 2022)
提出自监督BEiT的self-attention机制可以学习区分semantic regions(语义区域)和object boundaries(对象边界),即使是无标注数据。预训练机制,以明确鼓励模型生成全局图像表示,缩小补丁级预训练和图像级表示聚合之间的差距。预训练BEiT,并应用到下游任务图像分类和语义分割中(下游任务数据集中微调BEiT)。得到图像的视觉标志之后,我们使用这个视觉标志作为预训练模型的训练目标。这么做的目的是将图像映射到一个离散的语义空间,然后模型通过学习每个掩码。原创 2025-02-16 22:20:18 · 489 阅读 · 0 评论 -
VLMO: Unified Vision-Language Pre-Training withMixture-of-Modality-Experts
注:self-attention层是权重共享,也就是不论图像、文本还是图像文本信号,输入任何的token sequence,self-attention的model weights都是一样的,这个也是transformer架构的优势,目前有很多工作证明,同样的self-attention weights可以用来做不同的图像文本音频视频任务,不需要重新去训练自注意力参数。层做交互,然后每个模态走自己的专家模型,这在既可以进行深层交互,也可以在推理时支持单模态的前向过程。的预训练方法的实验结果。原创 2025-02-13 16:00:04 · 617 阅读 · 0 评论 -
BLIP: Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding and Genera
为了去除 VLP 文本监督信号的杂音,Salesforce 的研究者们在预训练完成的 MED 基础上引入了 CapFilt,它包括 Captioner 和 Filter 两个模块:Captioner 用于生成文本标注,Filter 用于去除文本噪声。BLIP 是一个全新的 VLP 框架,统一了视觉语言任务的理解与生成功能,并且通过嵌入 Captioner 和 Filter 去除网络资源中的文本噪声,提高了模型在下游视觉语言任务上的性能。但在本文中表明,噪声网络文本对于视觉语言学习来说是次优的。原创 2025-02-12 14:10:26 · 902 阅读 · 0 评论 -
Align before Fuse: Vision and LanguageRepresentation Learning with Momentum Distillation
Image Text Matching,属于一个二分类任务,就是给定一个图片,给定一个文本,图像文本通过ALBEF的模型之后输出一个特征,在这个特征之后加一个分类头,也就是一个FC层,然后去判断I和T是不是一个对,这个loss虽然很合理,但是实际操作的时候发现这个loss太简单,所以这个分类任务,很快它的准确度就提升得很高无法进一步优化。:生成的伪标签被用作训练数据中的软标签,提供额外的监督信号。)是一种技术,通过将一个复杂的大模型(教师模型)的知识迁移到一个较小的模型(学生模型),来提升学生模型的性能。原创 2025-02-10 14:58:03 · 640 阅读 · 0 评论 -
ViLT: Vision-and-Language TransformerWithout Convolution or Region Supervision
ViLT是针对视觉-语言任务(如图像字幕生成、视觉问答等)的一种模型。传统的视觉-语言模型通常使用复杂的视觉特征提取网络(如卷积神经网络)和语言处理网络(如Transformer),然后将这两部分的特征融合。ViLT的设计目标是简化这个过程,提高效率。1.1 抽取视觉特征的三种方式 现有的VLP模型(Vision-and-Language Pre-training,视觉文本多模态模型)抽取文本特征基本上都使用 pre-trained BERT的 tokenizer来得到text embeddi原创 2025-02-09 17:42:27 · 784 阅读 · 0 评论 -
Swin Transformer
在Swin Transformer中使用了Windows Multi-Head Self-Attention(W-MSA)的概念,例如在下图的4倍下采样和8倍下采样中,将特征图划分成了多个不相交的区域(Window),并且Multi-Head Self-Attention只在每个窗口(Window)内进行。论文的实验部分针对不同的任务,不同规模的模型,不同编码模式进行了详细的讨论,在不同的任务上都取得了不错的效果。模型在处理视觉数据时的效率和效果。在不同的视觉任务上取得了。领域的缺点,具有替换掉。原创 2025-02-09 17:14:59 · 416 阅读 · 0 评论 -
IPT:Pre-Trained Image Processing Transformer[CVPR 2021]
由于ImageNet基准中的图像具有高度多样性,其中包含来自1000个不同类别的100多万张自然图像。这些图像具有丰富的纹理和颜色信息。可以微调后应用于超分辨率、图像去噪、图像去雨等,整个网络由多对对应于不同任务的头部和尾部以及单个共享体组成。本文提出了一个基于transformer的预训练通用模型,针对。、去噪任务在不同噪声水平的原始图像中加入高斯噪声生成带噪图像。、超分辨率任务通常采用双三次下采样生成低分辨率图像,作者使用著名的ImageNet作为基线数据集,,并针对不同的任务使用各种降级模型。原创 2025-02-08 11:35:38 · 314 阅读 · 0 评论 -
Multimodal Deep Learning Vision Transfomer
上面通过Transformer Encoder后输出的shape和输入的shape是保持不变的,以ViT-B/16为例,输入的是[197, 768]输出的还是[197, 768]。在ViT中,LN是在每个Transformer block的输入处应用的,它可以更好地适应序列数据的统计特性,例如序列长度的变化和特征之间的相关性。- 在ViT中,LN通过调整每个特征的缩放和偏移,有助于提高模型的泛化能力和训练效果,特别是在面对不同尺度的输入数据时更为有效。)是一种用于处理视觉数据的深度学习模型,它是基于。原创 2025-02-08 11:30:40 · 588 阅读 · 0 评论 -
Multimodal Deep Learning 深度残差网络ResNets
原因:类似于上述的原因,假如都是大于1的时候,那么浅层的网络的梯度过大,更新的参数变量也过大,所以无论是梯度消失还是爆炸都是训练过程会十分曲折的,都应该尽可能避免。,虽然解决了梯度问题,但是深度加深了,却带来了另外的问题,就是网络性能的退化现象,可以简单的理解为,随着网络层数的增加,网络的效果反而下降了。的形式,而这样如果都是小于1的,这样的话,浅层网络参数值的更新就会变得很慢,这就导致了深层网络的学习就等价于了只有后几层的浅层网络的学习了。”,极大的消除了深度过大的神经网络训练困难问题。原创 2025-02-07 18:17:01 · 795 阅读 · 0 评论 -
Multimodal Deep Learning 注意力机制&Transfomer
它的主要目的是让模型能够在处理输入数据时,动态地分配不同部分的注意力或权重,以便更好地捕捉输入数据中重要的部分。在某些情况下,注意力输出也会作为输入提供给解码器(与通常的解码器输入一起)。1.输入和输出的关系:在序列到序列的任务中,输入序列通过编码器(Encoder)进行编码,然后解码器(Decoder)使用注意力机制来 获取编码器输出的不同部分的信息,以生成输出序列。深度学习中的注意力机制和人类视觉的注意力机制类似,就是在更多信息中把注意力集中放在重要的点上,选出关键信息,而忽略其他不重要的信息。原创 2025-02-07 17:38:10 · 636 阅读 · 0 评论