多模态大模型（2）--BLIP

最新推荐文章于 2025-05-17 04:08:37 发布

原创

最新推荐文章于 2025-05-17 04:08:37 发布 · 1k 阅读

·

22

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能 #AIGC #ai

大模型如火如荼，研究者们已经不再满足于基本文本的大语言模型（LLM, Large Language Model），AI领域的热点正逐步向多模态转移，具备多模态能力的多模态大型语言模型（MM（Multi-Modal）-LLM）就成了一个备受关注的研究主题。BLIP（Bootstrapping Language-Image Pretraining）是由Salesforce在2022年提出的多模态预训练模型，它旨在统一视觉语言任务的理解与生成能力，并通过对噪声数据的处理来提高模型性能。本文进行简要的介绍：

模型结构

BLIP模型采用了一种编码器-解码器混合架构（Multimodal mixture of Encoder-Decoder, MED），这种架构非常灵活，可以作为单模态编码器、图像引导文本编码器或图像引导文本解码器来使用。MED包括两个单模态编码器（图像编码器和文本编码器），一个以图像为基础的编码器和一个以图像为基础的解码器。
在这里插入图片描述

预训练方法

BLIP通过三种视觉语言目标进行联合训练：

图像文本的对比学习：通过对比学习，BLIP学习图像和文本之间的相似度。
图像文本匹配：BLIP学习匹配图像和相关文本。
图像条件语言建模：BLIP学习基于图像内容生成文本描述。

CapFilt 机制

BLIP引入了一种高效率利用噪声网络数据的方法，称为CapFilt。这个方法包括两个模块：Captioner和Filter。Captioner用于生成文本标注，而Filter用于去除文本噪声。通过这种方式，BLIP提高了数据的质量和数量，从而提高了模型在视觉语言任务上的性能。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。