苹果AI论文引发争议，Researcher反驳称评估设置存在缺陷

时间：2025-06-14 12:25

小编：星品数码网

近日，苹果公司发布的一项AI研究论文《The Illusion of Thinking》在科技界引起了广泛的争议。该论文指出，即使是当今最先进的大型推理模型（Large Reasoning Models, LRM），在解决一些复杂问题时，依然会遇到不可逾越的障碍。这一观点引发了许多研究者的关注和讨论，其中包括Open Philanthropy的研究员Alex Lawsen，他对苹果的研究结果提出了严重质疑，并在其反驳文章《The Illusion of the Illusion of Thinking》中详细阐述了自己的观点。

在苹果的论文中，举例说明了汉诺塔问题（Tower of Hanoi）等经典任务，作为展示大型推理模型在复杂任务中表现欠佳的证据。汉诺塔问题是一种著名的递归算法问题，其中涉及三个柱子和多个大小不一的圆盘，任务是将这些圆盘从一根柱子移动到另一根柱子，并遵循某些规则。Lawsen认为，苹果的研究并未考虑到实验设计中的显著缺陷，导致其得出的存在偏差。

Lawsen在反驳中指出了苹果研究的几个关键问题，是输出限制。他提到，许多大型推理模型在处理8个以上圆盘的汉诺塔问题时，往往接近其输出上限，部分模型甚至会主动停止输出以节省token资源。这样的设计使得模型无法充分发挥其潜力，在真实情境下无法展现出其优秀的推理能力。

Lawsen对苹果所设计的River Crossing（过河）测试提出了批评。他表示，这个测试中包含了一些无解的谜题，例如船只的容量限制无法满足6个以上角色的搭配。这种设计显然不合理，因为它为模型设置了不可能完成的任务，使得模型在实际操作中自然会表现不佳。

，Lawsen坚称，苹果未能高效地区分推理失败与输出截断的问题，导致许多潜在的策略性输出被误判为失败。他指出，苹果的评估方式存在明显的不公，未能真实反映模型的推理能力。

为了进一步证明自己的观点，Lawsen重新设计了汉诺塔测试，要求模型生成递归的Lua函数来打印解决方案，而不是逐步骤列出所有步骤。这一改进后的评估方法产生了令人惊讶的结果，包括Claude、Gemini以及OpenAI的o3模型在内的多种大型推理模型在新的测试条件下表现超出了苹果报告中所描述的“零成功”复杂性界限。

Lawsen的实验结果提示我们，若去除人为输出限制，这些模型将展现出更强的处理高复杂任务的推理能力。因此，他认为问题的根源可能并不在于模型自身的局限，而更在于评估设计的不合理。

这一争论凸显了科学研究中实验设计与结果分析的重要性。苹果的研究虽然在某种程度上揭示了大型推理模型在复杂任务中可能遇到的困难，但其得出的方式却可能导致技术研究中不必要的误解。这也引发了对大型推理模型评估方式的更多思考，尤其是在如何合理验证这些模型在面对复杂任务时的实际表现。

同时，这场争论也显示了AI学术界的活跃与复杂性。在这个快速发展的领域，模型的能力与局限性仍然在不断被探讨和质疑。无论是发布一项研究还是对其进行反驳，每一个观点的提出都促进着人们对AI理解的深入，推动着这一领域的科学进步。

Lawsen的主张提醒我们，有必要在对大型推理模型进行评估时，设计更加科学合理的实验方案，在真实的上下文中考验其推理能力，并真正挖掘出这些技术的潜力和局限，以便为未来的研究提供更为坚实的基础。无论是苹果的研究还是Lawsen的反驳，都为科技界提供了一个重要的警示，让我们意识到在追求技术发展的路上，科学严谨与合理评估不可忽视。

苹果AI论文引发争议，Researcher反驳称评估设置存在缺陷

精品推荐

相关文章