免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 硬件资讯 > 苹果大模型版Siri跳票,新论文质疑AI推理能力引发热议

苹果大模型版Siri跳票,新论文质疑AI推理能力引发热议

时间:2025-06-14 03:25

小编:小世评选

6月10日的苹果开发者大会(WWDC25)上,备受期待的大模型版Siri正式宣布跳票,苹果在AI领域的进展再度遭到质疑。在这一背景下,苹果近日发布的一篇关于大型推理模型(LRMs)的论文引发了业内的热烈讨论。论文内容表明大型推理模型在处理复杂问题时的性能严重不足,且在问题复杂性超出一定阈值时,表现会迅速崩溃,准确率甚至接近于零。

论文题为《思维的错觉:通过问题复杂性视角理解推理模型的优势与局限性》,显然旨在评估当前主流AI推理模型的能力。苹果研发团队通过一系列实验对诸如Claude 3.7 Sonnet、DeepSeek-R1和o3-mini等多款推理模型进行了测试,结果显示这些模型在处理简单问题时存在“过度思考”现象,而随着任务复杂度的提升,它们的回答能力几乎不堪一击。

知名人工智能专家Gary Marcus评论称,这篇论文对大语言模型而言是“相当具有毁灭性的”,同时投资公司Bootstrapped的创始人Ruben Hassid在社交X上转发了这篇论文,称苹果证明像Claude和DeepSeek-R1这类模型实际上并没有推理能力,仅是优秀的模式识别机器,能够精准记忆和复制已有模式。

这篇论文的也引发了诸多争议。许多专家和用户对苹果的论证提出质疑,认为虽然苹果的确揭示了推理模型的不足,但并未证明人类的推理能力超越了机器。有人用“用锤子敲螺丝”来形容苹果的实验设计,认为其逻辑不严谨。论文的共同作者竟是一名计算机科学博士生的实习生,这让质疑者更加怀疑该论文的可信性。

针对苹果的实验设计,其使用的测评基准也备受争议,苹果团队未使用当下主流的基准测试,声称这些测试数据污染严重,无法深入评估推理轨迹的质量与结构,因而选择了25个谜题实例进行分析。尽管这种自定义的测试对推理模型进行了细致的评估,但其实验设计的有效性却受到广泛质疑,很多用户认为这些测试没有全面、真实地呈现推理模型的表现。

在细致分析推理模型的表现后,苹果发现,在低复杂度的任务中,传统的标准模型表现优于大型推理模型;而在中等复杂度的任务中则展现出一定的优势,尤其是当问题的复杂度增加时,推理模型表现出不可预期的崩溃。

更令人意外的是,在模型解决河内塔这种经典游戏时,即使在提示中明确提供算法,推理模型的表现仍然没有改善,显示出了其在遵循逻辑步骤、执行问题解决时的巨大缺陷。许多人指出,推理模型的性能无法与灵活、聪明的人类相比,这暴露了当前AI技术在解决复杂推理问题上依然存在的根本问题。

这一论文引发的争论不仅局限于技术层面,苹果对此次AI进展的谨慎态度也让业内关注,很多人认为,苹果是在错失了AI技术发展的最佳机遇,迫于压力而撰写此篇论文试图否定大模型的潜力。

不过苹果的这篇论文也为AI领域的未来发展提供了宝贵的思考。有些业内人士主张,虽然当前的AI推理模型面临诸多挑战,尤其在处理复杂问题时表现不佳,但这并不意味着AI技术的未来就此黯淡。随着持续的技术改进和研究深入,未来可能会涌现出能够克服这些瓶颈的新方法或新模型。

苹果针对大型推理模型的研究在行业内引发了不小的轰动。尽管论文的遭到广泛挑战,但它明确指出了当前AI技术的短板,促使研究者们重新思考推理模型的设计与实用性。此一举措可能标志着AI领域的又一次自我审视与技术革新的开始。而对苹果而言,如何在AI领域寻求突破,亦成为其迫切需要面对的问题。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多