苹果大模型版Siri跳票，新论文质疑AI推理能力引发热议

时间：2025-06-14 03:25

小编：星品数码网

6月10日的苹果开发者大会（WWDC25）上，备受期待的大模型版Siri正式宣布跳票，苹果在AI领域的进展再度遭到质疑。在这一背景下，苹果近日发布的一篇关于大型推理模型（LRMs）的论文引发了业内的热烈讨论。论文内容表明大型推理模型在处理复杂问题时的性能严重不足，且在问题复杂性超出一定阈值时，表现会迅速崩溃，准确率甚至接近于零。

论文题为《思维的错觉：通过问题复杂性视角理解推理模型的优势与局限性》，显然旨在评估当前主流AI推理模型的能力。苹果研发团队通过一系列实验对诸如Claude 3.7 Sonnet、DeepSeek-R1和o3-mini等多款推理模型进行了测试，结果显示这些模型在处理简单问题时存在“过度思考”现象，而随着任务复杂度的提升，它们的回答能力几乎不堪一击。

知名人工智能专家Gary Marcus评论称，这篇论文对大语言模型而言是“相当具有毁灭性的”，同时投资公司Bootstrapped的创始人Ruben Hassid在社交X上转发了这篇论文，称苹果证明像Claude和DeepSeek-R1这类模型实际上并没有推理能力，仅是优秀的模式识别机器，能够精准记忆和复制已有模式。

这篇论文的也引发了诸多争议。许多专家和用户对苹果的论证提出质疑，认为虽然苹果的确揭示了推理模型的不足，但并未证明人类的推理能力超越了机器。有人用“用锤子敲螺丝”来形容苹果的实验设计，认为其逻辑不严谨。论文的共同作者竟是一名计算机科学博士生的实习生，这让质疑者更加怀疑该论文的可信性。

针对苹果的实验设计，其使用的测评基准也备受争议，苹果团队未使用当下主流的基准测试，声称这些测试数据污染严重，无法深入评估推理轨迹的质量与结构，因而选择了25个谜题实例进行分析。尽管这种自定义的测试对推理模型进行了细致的评估，但其实验设计的有效性却受到广泛质疑，很多用户认为这些测试没有全面、真实地呈现推理模型的表现。

在细致分析推理模型的表现后，苹果发现，在低复杂度的任务中，传统的标准模型表现优于大型推理模型；而在中等复杂度的任务中则展现出一定的优势，尤其是当问题的复杂度增加时，推理模型表现出不可预期的崩溃。

更令人意外的是，在模型解决河内塔这种经典游戏时，即使在提示中明确提供算法，推理模型的表现仍然没有改善，显示出了其在遵循逻辑步骤、执行问题解决时的巨大缺陷。许多人指出，推理模型的性能无法与灵活、聪明的人类相比，这暴露了当前AI技术在解决复杂推理问题上依然存在的根本问题。

这一论文引发的争论不仅局限于技术层面，苹果对此次AI进展的谨慎态度也让业内关注，很多人认为，苹果是在错失了AI技术发展的最佳机遇，迫于压力而撰写此篇论文试图否定大模型的潜力。

不过苹果的这篇论文也为AI领域的未来发展提供了宝贵的思考。有些业内人士主张，虽然当前的AI推理模型面临诸多挑战，尤其在处理复杂问题时表现不佳，但这并不意味着AI技术的未来就此黯淡。随着持续的技术改进和研究深入，未来可能会涌现出能够克服这些瓶颈的新方法或新模型。

苹果针对大型推理模型的研究在行业内引发了不小的轰动。尽管论文的遭到广泛挑战，但它明确指出了当前AI技术的短板，促使研究者们重新思考推理模型的设计与实用性。此一举措可能标志着AI领域的又一次自我审视与技术革新的开始。而对苹果而言，如何在AI领域寻求突破，亦成为其迫切需要面对的问题。

苹果大模型版Siri跳票，新论文质疑AI推理能力引发热议

精品推荐

相关文章