上海人工智能实验室推出SFE评测基准，推动AI在科学研究中的深度应用

时间：2025-07-11 13:45

小编：小世评选

在当前的科技浪潮中，人工智能（AI）正逐步融入各个领域，尤其在科学研究中显现出巨大的潜力。我们所称的人工智能在科学中的应用（AI for Science，简称AI4S）正经历着深刻的变革，尤其是在大规模模型（MLLM）的推动下，科学研究的方法与流程正在被重新定义。要使这一技术成为科学研究的真正助力，仅依靠现有的评测体系与工具尚不足够，需要一个更科学、全面的评测标准来支持其深入应用。

上海人工智能实验室的AI4S团队针对当前科学评测面临的挑战，推出了全新的SFE（Scientific Framework Evaluation）评测基准，以推动人工智能在科学研究中的广泛应用。现阶段的科学评测主要集中于知识的记忆能力和简单的问答，但真实的科学研究需要从原始数据提取信息，并进行复杂的推理与分析，这就需要更高阶的认知能力。

SFE的技术报告可以通过以下链接访问：[SFE技术报告](https://arxiv.org/abs/2506.10521)，而SFE数据集则可以在这里找到：[SFE数据集](https://huggingface.co/datasets/PrismaX/SFE)。SFE评测基准也已上传至司南评测集社区，欢迎大家查看：[SFE评测集社区](https://hub.opencompass.org.cn/dataset-detail/SFE)。

SFE评测基准基于“信号感知-属性理解-对比推理”的三级评估体系，意在全面考察大模型在科学研究中的能力。当前的评测涵盖天文学、生命科学、地球科学、材料科学及化学等多个领域，共包括66个多模态任务，这些任务由领域专家共同考量并设计，以确保其高价值和实际应用意义。这些任务的构建，不仅提升了评测的科学性，还有助于推动学术界和工业界对AI4S的深入理解和应用。

在SFE的评测中，研究团队与多学科领域的专家进行广泛合作，以确保构建出的数据集和任务能真实反映科学研究的需求。其过程分为三个关键阶段，包括科学挑战的确定、具体任务的设计以及基准的搭建，所有任务均基于原始科学数据并以视觉问答（VQA）形式呈现。这种设计旨在通过全面的评估模式，考察模型从数据感知到高阶推理的综合能力。

通过SFE，研究团队对16个主流的开源和闭源模型进行了系统评测，发现闭源模型（如GPT-03和Claude-3.7-Sonnet）在科学认知能力上整体优于开源模型，尤其在更复杂的推理任务中表现更为突出。这种差异的原因主要归结为模型对推理过程的控制能力，彻底突显出科学数据处理的复杂性和挑战性。

虽然主流模型在传统基准上表现出色，但在SFE的高阶科学任务上的表现却不尽如人意，显示出其在科学任务中的潜在能力短板。特别是在涉及复杂推理和深层理解的任务中，部分模型的表现仍显不足。这为未来AI在科学研究中的应用提供了改进方向和研究重点。

除了推出SFE评测基准，研究团队还建立了“棱镜”（SciPrismaX）科学评测。该汇集了模型的能力、学科多样性、评估策略和工具等多个维度，致力于构建一个严谨且契合科研实践的评估生态。通过实时监控、动态更新及与社区的合作，棱镜将持续推进AI在科学研究中的应用以及基准的迭代。

未来，随着SFE评测基准和棱镜的推广，我们期待看到更多高效且具创新性的AI工具诞生，这些工具将为科学研究带来前所未有的效率与可能性。通过科学的评测与反馈，我们可以更好地理解模型的能力边界，推动学术界、产业界和社会各界共同努力，实现科学研究的质变和飞跃。

上海人工智能实验室推出SFE评测基准，推动AI在科学研究中的深度应用

精品推荐

相关文章