大模型如火如荼,研究者们已经不再满足于基本文本的大语言模型(LLM, Large Language Model),AI领域的热点正逐步向多模态转移,具备多模态能力的多模态大型语言模型(MM(Multi-Modal)-LLM)就成了一个备受关注的研究主题。BLIP(Bootstrapping Language-Image Pretraining)是由Salesforce在2022年提出的多模态预训练模型,它旨在统一视觉语言任务的理解与生成能力,并通过对噪声数据的处理来提高模型性能。本文进行简要的介绍:
模型结构
BLIP模型采用了一种编码器-解码器混合架构(Multimodal mixture of Encoder-Decoder, MED),这种架构非常灵活,可以作为单模态编码器、图像引导文本编码器或图像引导文本解码器来使用。MED包括两个单模态编码器(图像编码器和文本编码器),一个以图像为基础的编码器和一个以图像为基础的解码器。
预训练方法
BLIP通过三种视觉语言目标进行联合训练:
- 图像文本的对比学习:通过对比学习,BLIP学习图像和文本之间的相似度。
- 图像文本匹配:BLIP学习匹配图像和相关文本。
- 图像条件语言建模:BLIP学习基于图像内容生成文本描述。
CapFilt 机制
BLIP引入了一种高效率利用噪声网络数据的方法,称为CapFilt。这个方法包括两个模块:Captioner和Filter。Captioner用于生成文本标注,而Filter用于去除文本噪声。通过这种方式,BLIP提高了数据的质量和数量,从而提高了模型在视觉语言任务上的性能。