深度学习论文: SmolVLM: Redefining small and efficient multimodal models
SmolVLM: Redefining small and efficient multimodal models
PDF: https://arxiv.org/abs/2504.05299
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks
1 概述
大型视觉语言模型(VLMs)虽性能出众,却因对计算资源需求极高,难以在移动设备与边缘设备上部署。而小型 VLMs 往往照搬大型模型的设计思路,例如采用复杂的图像 token 化方案,这不仅导致 GPU 内存利用率低下,也严重制约了其在终端设备上的实际应用价值。
为此,本文提出了 SmolVLM—— 一系列专为资源高效推理打造的紧凑型多模态模型。通过系统探索针对低计算开销优化的架构配置、token 化策略与数据筛选方法,本文提炼出关键设计方案:既能显著提升图像与视频任务的性能表现,又能将内存占用控制在极小范围。