谷歌DeepMind推出QuestBench基准测试大型语言模型的推理能力与信息获取能力

时间：2025-06-13 18:55

小编：星品数码网

近日，谷歌DeepMind团队发布了一项新基准——QuestBench，旨在深入评估大型语言模型（LLMs）在推理任务和信息获取能力方面的表现。这一评估框架的推出，标志着对LLMs能力更全面的考量，并希望能为模型在不确定性环境中提供更可靠的解决方案铺平道路。

推理任务的新挑战

推理能力不仅涵盖传统的数学和逻辑问题，还涉及到复杂的规划和编码任务。在真实应用中，模型常常面对的是信息的不完整性。举个例子，当用户提出数学问题时，容易忽视一些关键细节，而在实际环境中，自主系统如机器人也必须在环境信息部分可观测的情况下进行决策。这种理想化的完整信息设定与现实中的不确定性形成了鲜明的对比，这便为LLMs提出了更高要求，尤其是在主动获取必要信息方面。

为了应对这种信息获取的挑战，研究者们开发了QuestBench基准，它不仅测试了LLMs的推理能力，还重点关注模型在识别缺失信息时的表现。QuestBench将各种问题转化为约束满足问题（CSPs），特别强调“1-sufficient CSPs”，即只需获取一个未知变量的值便可解决的任务。

QuestBench的设计与评估对象

QuestBench覆盖了逻辑推理（Logic-Q）、规划（Planning-Q）和小学数学（GSM-Q/GSME-Q）三个领域，通过变量数量、约束数量、搜索深度及暴力搜索所需猜测次数这四个维度进行分类。这样的设计不仅能够精准揭示模型在不同推理任务中的策略，还能有效识别其性能瓶颈。

在此次评估中，诸如GPT-4o、Claude 3.5 Sonnet和Gemini 2.0 Flash Thinking Experimental等多款领先的语言模型均参与了测试。这些测试将涵盖从2024年6月至2025年3月之间的288个GSM-Q和151个GSME-Q任务。评估过程包括零样本、思维链和四样本设置，力求真实反映模型在多样化条件下的表现。

评估结果与模型表现

初步结果显示，思维链提示的使用普遍提高了模型在推理任务中的表现，尤其在分析逻辑和做出规划方面，Gemini 2.0 Flash Thinking Experimental展现出了最佳的能力。虽然开源模型在逻辑推理的任务中表现出一定的竞争力，但在处理复杂的数学问题时却显得力不从心。

研究还指出，当前的模型在简单的代数问题上相对容易解决，但随着问题的复杂性增加，模型的表现却显著下降。这一现象突显出LLMs在信息缺口的识别和澄清能力方面，依然存在很大的提升空间。因此，如何提高模型主动获取信息的能力，将是未来研究的一大重点。

对未来的展望

QuestBench基准的出现，为LLMs的进一步发展提供了重要参考依据。随着技术的不断进步，未来的LLMs如果能够在更复杂的环境中有效地识别信息缺失，并主动获取所需信息，将使其在推理任务上的表现更为出色。同时，这也将推动LLMs在更多实际应用场景下的可用性，使其能够更好地服务于人类社会。

谷歌DeepMind通过推出QuestBench，不仅为大型语言模型的科研提供了一种新方法，也为理想化的理论研究与现实中开展的实际工作搭建了桥梁。这一基准的建立将推动人工智能的发展，使得未来的语言模型更加智能、灵活，更能应对复杂多变的现实挑战。随着QuestBench测试结果的不断深入解析，学术界和工业界都将能够更清晰地了解LLMs的潜力与局限，从而为更高效的应用奠定基础。

谷歌DeepMind推出QuestBench基准测试大型语言模型的推理能力与信息获取能力

精品推荐

相关文章

谷歌DeepMind推出QuestBench基准 测试大型语言模型的推理能力与信息获取能力

精品推荐

相关文章

谷歌DeepMind推出QuestBench基准测试大型语言模型的推理能力与信息获取能力