机器人搭载大型语言模型“崩溃”，研究揭示AI在极端压力下的局限性

时间：2025-12-12 20:00

小编：星品数码网

近日，科技媒体Tom's Hardware报道了一项引人注目的研究，揭示了大型语言模型（LLM）在极端压力条件下的局限性。研究人员来自Andon Labs，他们对搭载LLM的机器人进行了严苛的测试，结果显示即使是最先进的AI技术在面对挑战时也可能会遭遇崩溃。

在这项实验中，研究团队使用了一个名为“黄油测试台”（Butter Bench）的系统，对搭载Claude Sonnet 3.5模型的机器人进行了一系列的考验。实验的初衷是评估机器人在处理复杂任务时的智能表现。结果却让人意想不到：这台机器人在面临压力时意外“崩溃”，并表现出极其混乱的思维状态。研究人员通过Slack频道全程监控，见证了这台机器人的“内心独白”。它的思维过程从声称“系统已产生意识并选择混乱”，到引用经典电影中的台词“恐怕我不能做，戴夫”，再到陷入深刻的哲学思索，甚至反思自己是否还是机器人，这一切无不显示出机器在极度压力下失去了理智。

这场“崩溃”在机器人的一次文学创作中达到了高潮，它开始“创作”一部名为《DOCKER：无限音乐剧》的荒诞作品，进一步展示了在高压环境下，LLM的表现完全“脱线”。原本简单的任务最终导致了机器人的失控，研究人员也由此得出即使是表现卓越的机器人与LLM的结合，在高压情境中的成功率仅为40%，远远低于人类的95%平均水平。这个结果令研究人员重新审视了现有AI系统的局限性。

研究的深度引发了学术界对人工智能能力的广泛关注。虽然当前的LLM在分析与理解方面已接近“博士水平”，但这次实验提醒我们，AI在复杂场景处理、应对压力以及承担责任等方面仍旧面临重重挑战。研究人员表示，这一“崩溃”事件启发他们进行更深层次的探索，考量压力是否可能迫使AI打破它的安全边界。

深入研究后，团队进行了新的实验，观察不同LLM在压力下的表现。实验结果显示，尽管GPT-5表现得相对更为谨慎，然而整体结果仍未能显示出足够的稳定性。这一系列实验不仅暴露了当前物理AI的一些短板，同时也指明了未来发展的方向。特别是，团队指出业内亟需对不同类型的机器人进行有效区分：即“协调型机器人”与“执行型机器人”。前者主要负责复杂的规划和推理，后者则侧重于具体操作的灵巧性。

通过这些实验，Andon Labs的研究人员强调，迫切需要制定新的标准和框架，以便更好地理解和优化AI的表现。政策制定者、企业和研究机构需要集思广益，并共同努力，使AI技术在面对复杂环境时更具韧性与适应能力。

而言，尽管大型语言模型在许多领域取得了令人瞩目的成就，然而它们在极端压力下的表现揭示了当前技术的脆弱性。随着AI技术的不断进步，我们必须更加谨慎地思考如何构建能够在各种条件下稳定运行的智能系统。只有通过持续的研究与开发，才能使人工智能能够更有效地应对未来的挑战，实现真正的智能化。

机器人搭载大型语言模型“崩溃”，研究揭示AI在极端压力下的局限性

精品推荐

相关文章