本文是关于论文《MM-LLMs: Recent Advances in MultiModal Large Language Models》的简要介绍。大型语言模型沿着多模态方向发展成为目前越来越受关注的研究领域,这篇论文从方法角度整理了2022年到2024年2月的经典多模态大语言模型,并从技术角度给出了一些前瞻思路。本文主要按照作者提供的框架和案例进行介绍。
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
目录
1. 文章简介
1.1 基本信息
题目:MM-LLMs: Recent Advances in MultiModal Large Language Models
论文:https://arxiv.org/pdf/2401.13601.pdf?trk=public_post_comment-text
项目主页:https://mm-llms.github.io/
论文引用:
@article{zhang2024mm,
title={Mm-llms: Recent advances in multimodal large language models},
author={Zhang, Duzhen and Yu, Yahan and Li, Chenxing and Dong, Jiahua and Su, Dan and Chu, Chenhui and Yu, Dong},
journal={arXiv preprint arXiv:2401.13601},
year={2024}
}
1.2 多模态大语言模型简介
GPT诞生以来,一向以强大的自然语言处理能力而著称,人们试着将大型语言模型(Large Language Models,LL