多模态大语言模型调研《MM-LLMs: Recent Advances in MultiModal Large Language Models》简要介绍

原创

已于 2024-04-03 15:44:09 修改 · 1.8k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

于 2024-04-03 15:07:09 首次发布

本文是关于论文《MM-LLMs: Recent Advances in MultiModal Large Language Models》的简要介绍。大型语言模型沿着多模态方向发展成为目前越来越受关注的研究领域，这篇论文从方法角度整理了2022年到2024年2月的经典多模态大语言模型，并从技术角度给出了一些前瞻思路。本文主要按照作者提供的框架和案例进行介绍。

有关本专栏的更多内容，请参考大语言模型文献调研专栏目录

1. 文章简介
2. 多模态大语言模型的整体架构
3. 目前经典的多模态大语言模型的及其评测
- 3.1 当前经典的大语言模型
- 3.2 目前SOTA多模态大语言模型及其在特定领域的性能
4. 后续方向
附录：论文的思维导图（大图，请在新标签页打开查阅）

1. 文章简介

1.1 基本信息

题目：MM-LLMs: Recent Advances in MultiModal Large Language Models

论文：https://arxiv.org/pdf/2401.13601.pdf?trk=public_post_comment-text

项目主页：https://mm-llms.github.io/

论文引用：

@article{zhang2024mm,
  title={Mm-llms: Recent advances in multimodal large language models},
  author={Zhang, Duzhen and Yu, Yahan and Li, Chenxing and Dong, Jiahua and Su, Dan and Chu, Chenhui and Yu, Dong},
  journal={arXiv preprint arXiv:2401.13601},
  year={2024}
}