AI基准测试‘人类最后一次考试’结果揭晓：顶尖模型通过率不足10%

时间：2025-01-25 17:40

小编：小世评选

编辑：KingHZ

在人工智能技术迅速发展的今天，很多人对AI模型的能力抱有极高的期望。最新发布的AI基准测试“人类一次考试”（Humanity’s Last Exam，简称HLE）的结果却揭秘了其真相——即使是最顶尖的语言模型（LLM），通过率也未超过10%。更令人意外的是，这些模型的表现显露出一种过度自信的现象。

测试背景

HLE不仅仅是一个简单的比拼，而是由Scale AI和Center for AI Safety（CAIS）携手研发，涵盖3000个经过专家精心设计的问题。旨在深入探索人类知识推理的边界以及当前人工智能在这一领域的局限性。测试问题涉及广泛的学科领域，帮助评估目前最佳AI模型的能力与不足。

在这项测试中，无论是大型语言模型GPT-40，还是Claude 3.5 Sonnect等其他最新模型，结果均显示其准确率未能突破10%。即便在有些问题上表现较好，但整体校准成效不佳，反映出它们对自身回答正确性的过度自信。

测试结构

HLE测试包括两类题型：精确匹配题和选择题。其中，精确匹配题占80%，要求模型给出完全匹配的答案；选择题则需要从多个选项中作出正确选择，构成不同难度的挑战。测试还引入了多模态元素，其中10%的问题需要理解文本与图像结合的信息，以检验模型的综合辨识能力。

问题的设计经过了严格的筛选与优化，确保其高难度与高质量。官方称，为此设立了50万美元的奖金池，吸引专家提交优秀问题。在此过程中，共收集了超过70,000个问题，最终筛选出3000个用于公开考试。

参与者及数据集创建

参与本次HLE测试的专家来自全球500多个机构，其中不乏活跃的研究员和教授。为保证问题的高难度和复杂性，数据集的创建经历了多轮筛选、迭代优化及手动审核的严格流程。确保每一道题目都能反映出对AI语言模型的挑战性，让参与模型真实地展现其能力。

在专家们的共同努力下，问题涉及化学、物理、数学等多项学科，涵盖从基础常识到专业知识的多种题型，旨在全面评估当前AI技术在面对复杂任务时的表现。

具体表现与分析

研究结果的揭示让人深思。测试涉及的7个前沿模型，包括Gemini系列与其他顶级AI名品，在HLE中的表现堪忧。除了准确率不足10%外，模型的校准性能亦不佳，这表现在其高RMS校准误差分数中。特别是在推理能力的展示上，一些模型为了获得合理的输出，需要消耗更多的计算资源和推理时间。

在各个模型生成的补全token数量分析中，使用深度推理的Gemini 2.0等模型所需生成的token数目明显高于其他非推理模型。这引发了对当前AI技术局限性的深刻反思。

未来展望

尽管目前的AI语言模型在HLE测试中的表现并不理想，但回顾历史可以发现，技术的进步往往具有惊人的加速度。实际上，从接近零的准确率迅速跃升至高达90%以上的表现在多个标准测试中已屡见不鲜。因此，展望未来，业内专家普遍认为到2025年底，模型在HLE上有可能突破50%的准确率。

需要明确的是，虽然HLE展示了当今模型在处理严谨学术问题方面的局限性，但这并不代表模型无法在其他领域取得突破。HLE关注的是在结构化、学术层面的表现，而非开放式研究或创造性问题解决能力。因此，“人类一次考试”不仅是对AI能力的一次全面测试，也是对未来发展的一个重要指引。

“人类一次考试”不仅为AI的发展提供了宝贵的参考数据，也激发了学术界对人工智能更深层次的思考。这场测试是为了捍卫人类智慧的界限，呼吁业内对AI技术的理性认知和未来发展方向的深入探讨。随着时间的推移，我们期待看到AI凭借持续的研发与创新，逐步向更高的目标逼近。

精品推荐