点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
来源:Xiaomi MiMo
Xiaomi MiMo-VL 接过 MiMo-7B 的接力棒,在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型,为Agent时代而来!
MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时,在多模态推理任务上,仅用7B参数规模,在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)大幅领先10倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o。
在评估真实用户体验的内部大模型竞技场中,MiMo-VL-7B 超越 GPT-4o,成为开源模型第一!
整体而言,虽是“以小搏大”,在实测场景中,MiMo-VL-7B 在复杂图片推理和问答上表现不凡:
向下滑动查看
在长达10多步的GUI操作上,MiMo-VL-7B 也展示了不错的潜力,甚至能帮你加购小米SU7至心愿单!
向下滑动查看
预训练 + RL 双发力
MiMo-VL-7B 全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法(Mixed On-policy Reinforcement Learning, MORL):
多阶段预训练:
收集、清洗、合成了高质量的预训练多模态数据,涵盖图片-文本对、视频-文本对、GUI 操作序列等数据类型,总计2.4T tokens。通过分阶段调整不同类型数据的比例,强化长程多模态推理的能力。
混合在线强化学习:
混合文本推理、多模态感知 + 推理、RLHF 等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升模型推理、感知性能和用户体验。
技术报告、模型权重、评估框架均开源
MiMo-VL-7B 已开源RL前后两个模型至:https://huggingface.co/XiaomiMiMo
MiMo-VL-7B 系列模型RL起点高、潜力足,完全可以替代主流开源7B~72B多模态模型,作为研究多模态RL和Agentic训练的全新基座模型。
相关技术报告也第一时间公开,全面展示了 MiMo-VL-7B 的训练细节:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf
同时,为了促进更加透明且适合推理模型的评估,MiMo-VL-7B 支持50+测评任务的框架也已经开源至 GitHub:https://github.com/XiaomiMiMo/lmms-eval
语言模型 MiMo-7B 持续迭代开源
距离MiMo-7B首次开源后仅一个月,模型经过持续 RL,推理和通用能力又大幅提升。
在多个数学代码竞赛中,新版本模型 MiMo-7B-RL-0530 已经与最强开源推理模型 DeepSeek R1 和 OpenAI 闭源推理模型 o1、o3-mini 相差无几。
在 RL 训练过程中,通过不断扩充训练窗口大小(32K->48K),MiMo-7B-RL-0530 的 AIME24 效果可以持续提升,并超过 DeepSeek R1。
我们相信,具备Reasoning能力的小模型,可以靠SFT/RFT创造一个更高的起点,并通过RL最终无限逼近大模型效果。
模型已开源至 HuggingFace:https://huggingface.co/XiaomiMiMo/MiMo-7B-RL-0530
What's Next
从 Generative AI 到 Agentic AI,是25年正在发生的主旋律,MiMo-VL 只是我们刚刚迈出的第一步。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~