云从科技从容大模型荣登全球多模态榜首超越谷歌与OpenAI

时间：2025-06-07 02:15

小编：星品数码网

近日，云从科技自研的从容大模型在国际知名评测OpenCompass的最新全球多模态排行榜中，以80.7分的优秀成绩傲视群雄，摘得桂冠。这个里程碑式的成就不仅代表着中国在AI领域的进一步突破，也改写了国内AI模型在国际多模态评测中的最佳得分纪录，超越了许多全球顶尖科技公司，包括谷歌和OpenAI。

此次评测包含了众多来自不同领域的严苛测试，涵盖视觉感知、认知理解以及跨领域应用共八大核心数据集。从容大模型的卓越表现体现在医学健康、数理逻辑、艺术设计等多个专业领域，显示出其强大的技术实力。在MMBench中文测试、高难度学科综合评测（MMMU）以及高阶推理榜单（MMStar）中，该模型均以领先的表现问鼎，尤其在复杂场景下的文本识别（OCRBench）和开放域问答（MMVet）方面，始终保持在全球前列，其综合能力相较于国际顶尖模型GPT-4.1领先接近五分。

这一成就的背后，源自于云从科技在多模态领域的深入研究与不断创新。通过对通用视觉语言理解与推理任务的持续优化，从容大模型在多个核心技术领域实现了突破，确立了全球领先的技术壁垒。

多模态对齐的伟大创新

从容大模型最大的先锋之处在于其多模态对齐技术。团队自建了高质量的基准数据集，特别关注强化指令对齐，通过覆盖图文问答、多模态理解和多轮交互等任务场景，显著提升了多模态理解和任务指令遵循的推理表现。这一创新使得模型不仅能够理解复杂数据，还能更准确地完成任务指令。

类人化智能决策的先行者

在智能决策领域，从容大模型引入了双重对齐技术，结合了直接偏好优化（DPO）和生成式奖励优化（GRPO）的方法，使得模型在无需依赖奖励模型的情况下，就能实现类人化的推理决策。通过这种技术的突破，从容大模型成功在复杂问答及多轮交互中展现出更贴近人类思维的智能行为，提升了模型的决策能力。

高效工程优化技术的构建

为了简化高分辨率图像问答的复杂性，云从科技针对多模态文档理解（OCR）对模型的图像编码器进行结构优化，使其能够高效处理高分辨率图像与文档。例如，模型现在可以智能分析合同和发票等文档，支持智能审查、智能解析及智能问答等功能。这种高效的优化使得其在跨页文档分析与多轮对话等长文本场景中，可以准确追踪超过三万字的上下文逻辑，进一步增强了其实用性和灵活性。

原生多模态推理能力的全面升级

从容大模型在多模态推理方面进行了全面升级，支持面向多图和跨图场景的图文交错模式及原生视频模式。这种升级使得模型能够在多图问答、图文组合推理等复杂任务中游刃有余，从而提升了模型的理解深度与广度。

广泛实际应用场景

目前，从容大模型已经在金融、制造、政务等多个领域实现了广泛的落地应用。例如，某银行与云从科技合作打造的风控合规智能，通过AI智能体实现风险识别自动化和问责标准化，使得投诉数量下降超过50%。在电商领域，云从科技为正浩创新构建的智能客服，通过精准的多模态对齐与知识库匹配，成功将问答准确率提升至95%，同时提升客服的工作效率。

云从科技联合创始人姚志强指出：“技术创新最终要服务于社会价值。”团队将不断探索多模态技术的安全落地模式，致力于为全球智能化转型提供更加高效和包容的技术支撑。

随着从容大模型的持续进化，中国人工智能行业正以扎实的技术基础，开启赋能实体经济的新篇章。未来，期待云从科技能在国际AI的舞台上继续守住领先位置，引领行业向更加智能化、全自动化的方向发展。