小米推出开源多模态大模型 MiMo-VL-7B 在多项任务中性能领先

时间：2025-08-01 07:30

小编：星品数码网

在人工智能和机器学习快速发展的今天，多模态模型的应用逐渐成为研究的热点。作为一家在科技领域不断创新的企业，小米近日在其官方公众号上宣布了一项令人振奋的消息：公司推出的开源多模态大模型Xiaomi MiMo-VL-7B已正式发布。这一模型不仅在多个任务上展现出了卓越的性能，还在业内引起了广泛关注。

根据小米官方的介绍，MiMo-VL-7B在处理图片、视频、语言的通用问答及理解推理等多项任务时的表现远超同尺寸标杆模型Qwen2.5-VL-7B。在GUI Grounding任务中，该模型的效果与专用模型相当，显示出了其强大的适应性和表现能力。这意味着，MiMo-VL-7B不仅能够处理简单的多模态数据，还能够在复杂场景下进行有效的推理和互动。

值得一提的是，MiMo-VL-7B在保持其前身MiMo-7B在文本推理能力的同时，仅以7B的参数规模实现了在多模态推理任务中的显著优势。根据最新的比赛结果，该模型在奥林匹克竞赛（OlympiadBench）及多个数学竞赛（MathVision、MathVerse）中表现优异，甚至超越了一些参数数量达到10倍的竞争对手，如阿里的Qwen-2.5-VL-72B和QVQ-72B-Preview等。这为MiMo-VL-7B的高效性和实用性提供了有力的证明。

在内部大模型竞技场中，MiMo-VL-7B同样表现突出，成功超越了GPT-4o，成为开源模型中的佼佼者。这一成就不仅反映了小米在人工智能领域的技术实力，也标志着开源模型在智能问答、图片理解和视频分析等多方面应用上的潜力。

MiMo-VL-7B能够完成复杂的图片推理和问答任务，其能力使其在长达10多步的GUI操作上亦展现出了良好的潜力。某种程度上，这意味着用户可以通过与MiMo-VL-7B的互动，高效完成如加购小米SU7等任务。这种智能的交互方式，提升了用户的体验，缩短了消费决策的时间。

在模型的构建过程中，小米采用了高质量的预训练数据以及创新的混合在线策略强化学习（Mixed On-policy Reinforcement Learning，MORL）方法。通过收集、清洗和合成高质量的多模态预训练数据，包括图片-文本对、视频-文本对及GUI操作序列，MiMo-VL-7B的开放性和实用性得到了进一步增强。总计达2.4TB的tokens数据量为模型的运行提供了丰富的信息支撑。

通过分阶段调整不同类型数据的比例，MiMo-VL-7B在长程多模态推理能力方面得到了显著加强。模型在混合文本推理、多模态感知及推理方面的能力也得到了提升，并通过 RLHF（Reinforcement Learning from Human Feedback）等反馈信号进行优化，显著改善了模型的推理及感知性能，提升了用户体验。

小米此次开源的MiMo-VL-7B模型不仅对开发者和科研人员提供了一个高效的工具，也为更广泛的应用场景奠定了基础。伴随该模型的发布，小米还将开源两个RL（Reinforcement Learning）版本模型，并为开发者提供了丰富的技术支持。详细的开源链接和技术报告已经在小米MiMo的GitHub页面上公布，感兴趣的用户和开发者可以通过以下链接访问：

模型开源链接：[Hugging Face MiMo-VL-7B](https://huggingface.co/XiaomiMiMo)

技术报告链接：[MiMo-VL技术报告](https://github/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf)

测评任务框架开源链接：[lmms-eval GitHub](https://github/XiaomiMiMo/lmms-eval)

作为行业的重要参与者，小米在多模态人工智能领域的探索显然为未来的技术进步和应用开辟了新道路。随着越来越多的用户和开发者加入到开源生态中，MiMo-VL-7B及其系列模型的应用前景值得期待。

小米推出开源多模态大模型 MiMo-VL-7B 在多项任务中性能领先

精品推荐

相关文章