上海AI实验室发布InternVL3.5大模型 推出9种尺寸并强化多模态能力
时间:2025-09-04 07:00
小编:小世评选
近日,上海人工智能实验室宣布推出其最新版本的多模态大模型“书生・万象”,即InternVL3.5。该版本的发布标志着该实验室在人工智能领域的重要进步,模型通过更强大的推理能力、卓越的部署效率以及出色的通用性能,展示了其在多模态技术上的持续创新。
InternVL3.5模型提供了多达9种不同尺寸供用户选择,参数量从10亿到2410亿不等,能够满足多样化应用场景的需求。尤其值得一提的是,旗舰型号InternVL3.5-241B-A28B在多学科推理基准MMMU测试中取得了77.7分的优异成绩,使其在开源模型中脱颖而出。值得关注的是,该模型在多模态通用感知能力方面表现优异,已超越GPT-5,同时在文本处理能力上也具备领先优势,超出了一系列主流多模态开源大模型。
与前一代产品InternVL3.0相比,InternVL3.5在多个领域实现了显著提升。尤其在图形用户界面(GUI)智能体、具身空间感知以及矢量图像理解与生成等任务中,其性能得到了质的飞跃。上海AI实验室在这次升级中,特别关注实际应用能力的强化,使得模型在GUI交互、具身空间推理及矢量图形处理等关键场景中,实现了从“理解”到“行动”的跨越,形成了可操作的智能解决方案。
在GUI交互方面,InternVL3.5在ScreenSpot-v2元素定位任务中获得92.9分的高分,这一成绩超越了同类其他模型。该模型支持Windows和Ubuntu系统的自动化操作,并在WindowsAgentArena任务中表现出色,显著领先于Claude-3.7-Sonnet。本版本在具身智能体测试中还展示出了对物理空间关系深入的理解以及导航路径的规划能力,在VSI-Bench测试中取得了69.5分,战胜了竞争对手Gemini-2.5-Pro。在矢量图形理解与生成方面,InternVL3.5在SGP-Bench测试中刷新了开源历史记录,其生成任务的FID值亦超越了GPT-4o和Claude-3.7-Sonnet,标志着图形理解技术的进一步发展。
InternVL3.5的跨能力在行业中也引人注目。该模型能够在Windows、Mac、Ubuntu、Android等多个操作系统上运行,能够识别并自主操作界面元素,从而实现诸如恢复删除文件、导出PDF文件、添加邮件附件等任务的自动化。这一特性使得InternVL3.5在办公自动化、智能家居乃至其他更多领域展现出广泛的应用潜力。
值得一提的是,InternVL3.5还具有优秀的grounding能力,能够适应全新的、复杂且小样本的具身场景。结合高效的抓取算法,模型支持泛化的长程物体抓取操作,为机器人的物品识别、路径规划与物理交互提供了强有力的支持。这使得InternVL3.5在智能制造、仓储物流等领域的应用潜力巨大,能够助力相关行业的智能化升级与转型。
自推出以来,“书生・万象”系列模型在业内受到热烈关注,InternVL系列模型的全网下载量已突破2300万次。这一系列的成功不仅展示了上海AI实验室在人工智能技术研究领域的杰出成果,也促进了相关技术的普及与应用。InternVL3.5的发布则进一步巩固了该实验室在人工智能行业的领先地位,向世界展示了中国在这一技术领域的创新能力与发展潜力。
InternVL3.5的发布,不仅是上海AI实验室技术研发的结晶,更是未来多模态人工智能应用的一个重要里程碑。随着技术的不断优化与应用场景的不断扩展,可以预见,InternVL3.5有能力为更多行业带来智能化的解决方案,助力各个领域实现更高效、更智能的工作方式。