AI科研模型评估平台SciArena正式上线,揭示大模型科研能力
时间:2025-07-11 21:40
小编:小世评选
人工智能大模型在科学研究中的应用已经成为科研工作者的一种常态。根据ZIPDO 2025教育报告,AI技术已快速渗透到70%的研究实验室中,并预计在未来五年内将推动相关科研论文的数量激增150%。尽管AI在科研辅助方面进展显著,但一个亟待解决的核心问题仍然悬而未决:“大模型在科研任务中的真实能力究竟如何?”
传统的基准测试(benchmark)往往过于静态和片面,无法全面衡量科研任务所需的深入的上下文理解与推理能力。对此,人工智能研究组织Ai2与耶鲁大学、纽约大学携手推出了SciArena,一个专为科学研究设计的AI评估,正式拉开了科研智能评估的“擂台赛”序幕。
SciArena已经汇聚了23款领先的大语言模型,包括来自OpenAI、Anthropic、DeepSeek、Google等公司的尖端产品。在所有模型中,OpenAI的o3模型表现分外突出,其在科学任务中稳居前列,所生成的论文讲解内容深刻且技术含量高。而Claude-4-Opus在医疗健康方面展现了卓越的油资,DeepSeek-R1-0528则在自然科学领域表现优异。SciArena一经发布便受到Nature的特别报道,
被誉为“揭示大模型知识结构的新窗口”。
SciArena作为一个开放式评估,专为科研文献任务量身定制。科研人员可以通过该比较不同基础模型在科学任务中的表现,并对其结果进行投票评选。该引入了Chatbot Arena式的众包、匿名、双盲对决机制,使用真实的科研问题来验证大模型的能力。尤其是在科学探索的复杂性和开放性方面,SciArena系统优化了通用基准测试常常“失效”的问题。
具体SciArena由三个核心组件构成:是SciArena本身,科研人员可以在此提交科研问题,并“同台对比”不同基础模型的回复,选出他们更偏好的答案;其次是排行榜,该利用Elo评分系统进行动态排名,实时更新每个模型的性能评估;是SciArena-Eval,这是基于SciArena收集的人类偏好数据构建的元评估基准集,其核心目标是检验模型对人类偏好的预测准确性。
SciArena工作流程包括识别论文、调用模型响应及用户评估三个环节。与传统问答相比,科研问答面临最大挑战是必须依赖严谨的科学文献。为了保障信息质量和相关性,SciArena团队改编了Allen Institute for AI的Scholar QA系统,建立了一套多阶段的论文检索流水线,涉及查询分解、段落检索及结果重排序等多项步骤。科技问题提交后,会检索相关的科学论文,并将获取的上下文信息与用户问题结合,发送给两个随机挑选的基础模型进行回答。
这两款模型各自生成内容详实且附带标准引文的研究回答。将这两份响应进行统一处理,以确保格式一致,避免用户通过模型回答的风格进行区分。,用户对两份输出进行评估投票,选出自己偏好的答案。
值得注意的是,SciArena主要聚焦于可横向评估的“通用基础模型”。像OpenAI Deep Research等定制型智能体或闭源研究则不在其评估范围内。
SciArena团队修订的高标准数据把关流程是其成功的关键。在上线后的短短四个月内,团队已收集来自不同科学领域的102位专家的13000多次投票。参与者多为科研一线的在读研究生,他们每人持有两篇以上的科研论文,专业性高。所有参与的标注员都经过统一,确保评价标准的一致性。再加上盲评与盲选机制,SciArena的每一项评估结果均具有可靠依据。
在SciArena上,研究团队还基于元评估基本集SciArena-Eval,测试了“模型评模型”的自动评估方法。他们通过提供科研问题与两个模型的回答,判断哪个更可能被人类选择。结果显示,即使是表现最好的o3模型,其准确率也未能超过理想水平,而部分模型如Gemini-2.5-Flash和LLaMA系列几乎只能达到“投掷硬币选答案”的准确率。这与AI在通用领域的表现形成鲜明对比,后者在相似的评估中准确率可达70%以上。
这表明,“理解科研人员偏好”并非易事,不过,某些具备推理能力的模型在评估答案的优劣方面表现出了更好的趋势。例如,o4-mini在准确性上超越了GPT-4.1,DeepSeek-R1也在小幅超越其自家模型DeepSeek-V3。这些结果表明,具备推理能力的AI模型在处理科研问题时,更能把握其本质。
随着SciArena的上线,未来它有望成为科研AI评估的“新标准”,帮助科研人员更清晰地了解AI在科研领域的真正表现。这样的不仅为科研人员提供了更可靠的工具,也为AI在科研中的应用提供了有力的理论支持。通过这种方式,未来 AI 是否真正“理解”科研人员的需求,将在SciArena这个上得以有效检验与展示。