北大团队推出PHYBench基准测试；AI物理推理能力评估迈入新阶段

时间：2025-05-08 05:55

小编：小世评选

近日，由北京大学的多学科联合团队成立的物理推理基准测试体系——PHYBench正式推出。此次新基准的发布标志着人工智能在物理推理领域评估能力的显著进步。随着人工智能技术的快速发展，大型语言模型在语言生成、图像识别等众多领域的表现都取得了显著提升，但在物理推理方面却一直面临巨大的挑战。正因如此，设计出能够真正反映AI理解与推理能力的评估工具势在必行。

在AI的发展过程中，训练模型的算力需求以及电力消耗不断上升，以至于已超出人类的认知能力范围。机器的“学习”不再是问题，问题在于这些AI模型是否能够进行“思考”。现有的基准测试虽然能评价AI模型的表现，但往往在设计上缺乏真实世界的贴合度，使得模型在特定数据集上高分通过，但未必能在实际应用中展示相应的能力。就像是一个学术优秀的学生，然而在真实职场中却难以适应与发展。

北大团队研发的PHYBench正是针对这一问题而生。该测试体系包含500个经过精心选择的基于真实物理情境的问题，涵盖了力学、电磁学、热力学、光学、现代物理学等多个领域，其难度级别自高中习题至大学物理奥林匹克挑战题，应有尽有。这不仅为AI的物理推理能力提供了全新评估标准，同时也让人类在参与解题过程中为基准内容打磨出更具现实性的问题。

在PHYBench的评估中，团队引入了表达式编辑距离（EED）得分这一指标，该指数通过观察AI生成的符号表达式与标准答案之间的相似性，进一步分析模型的推理能力。通过此方法，研究者能够在细粒度上更为准确地评估模型与真实答案的接近程度，从而提供更加真实的反馈。例如，若AI模型在解题中偏差了一些系数，EED得分便显示出部分理解，而不是全盘失利的状况。

为了建立人类水平的基线，北大的研究团队还招募了该校物理系的本科生进行答题，以此为AI模型表现提供对照。结果显示，尽管Gemini 2.5 Pro这一先进模型在被评估重重问题中准确率仅为36.9%，依然远低于人类本科生的61.9%。这揭示出当前AI在长链推理任务中仍显不足，难以有效地运用物理知识进行解决。

PHYBench的设计思路是让大型语言模型在处理问题时，采用逻辑推理的方式，而非简单的数据回忆与拼凑。每道题目均基于明确的物理情境，要求模型在给定条件下推导出关键物理量的符号表达式，这种设计催生了对模型真实理解能力的评估。而长推理链的设定则强调了模型在逻辑思考上的严谨与连贯性，促使AI去主动挖掘物理问题内在的规律，而不是依赖于运算的顺序或136分的直觉反应。

团队在题目选择与设计上严谨，确保每道题目不仅具备挑战性，同时又不失实际应用的价值。通过这种方式，PHYBench为大规模语言模型提供了一种真实且富有深度的评估机制，并从中挖掘出它们在物理推理方面的不足与潜力。

这一全新基准的推出，不仅为AI物理推理能力的评估提供了新的仪表盘，也为未来人工智能在科学、工程等领域的广泛应用奠定了基础。人工智能在真实世界中有效应用，不仅需要其具备强大的学习能力，更需其具备对物理现象的深入理解与合理推理能力。正如北大团队所言，这种物理推理的测试标准不只是为了评价AI的表现，而是为了指引人类与AI共同走向更为智能化的未来。

通过分析与已经存在的模型与基准测试的局限性，PHYBench为下一阶段的AI模型研究揭示了方向，旨在优化模型的推理能力，使其更好地理解真实世界并和人类协同合作，迎接未来更复杂的挑战。

北大团队推出PHYBench基准测试；AI物理推理能力评估迈入新阶段

精品推荐

相关文章