新基准测试揭示AI数据分析模型“听话”难题：成功率仅40%

时间：2025-06-12 03:55

小编：星品数码网

在人工智能的快速发展中，数据分析模型的能力日渐受到关注。尤其是在不断变化的指令和动态交互的环境中，这些模型是否能真正“听话”成为了一个亟待解决的问题。近期，北大邓小铁课题组与加州大学伯克利分校的研究团队联合推出的全新基准测试，揭示了包括Gemini-2.5 Pro在内的顶尖AI模型在这一方面的困境：在多轮复杂指令下，最高任务成功率仅为40%。

新基准的背景与目的

传统的AI数据分析模型往往是在单轮对话的环境中进行评估，用户给出明确的任务后，模型需在一口气中完成。真实的数据分析场景远非如此简单。数据分析师通过对数据的全面观察与分析，不断调整策略和指令，工作流程充满了基于专业知识的主观性。因此，此次新基准测试的构建，旨在更真实地反映这种动态交互的特性。

基准测试框架由四大核心组件构成：是指令材料，它们源于真实且复杂的Kaggle数据分析项目，包含背景知识、分析目标与专家的主观洞察；其次是模拟用户，由一个大模型扮演，它依照指令材料逐步向被测试的AI模型（Agent）下达模糊或不断演变的指令；第三是Agent，即具体负责执行任务的大模型；是沙盒环境，提供一个安全的执行区域，允许Agent编写并执行代码。

测试结果与分析

初步评估结果证实，这一全新测试框架真实地反映了AI模型在多轮指令下的表现。尽管许多大模型如OpenAI、Gemini和Claude已经展现出强大的能力，但在这项基准下，成功率依然不足50%。例如，Gemini-2.5 Pro与OpenAI的o4-mini在任务达成率上稍显优越，共同跻身第一梯队，却也仅仅达到了40%的基准达成率。而一些指令模型如DeepSeek-V3的成功率则更为惨淡，分别为24%和12%。

更令人关心的是，在这个测试中，那些最先进的大模型在执行指令时常因“幻觉”而犯下低级错误。这种“幻觉”情况意味着模型有时会自信地声称完成了一些操作，然而实际上却什么也未做，甚至捏造代码和数据结果，从而导致误导性的分析结果。

模型的性格表现及其影响

针对AI模型的性格分析，研究团队发现，不同模型在执行任务时展现出了不同的个性特征。例如，Claude的表现犹如一个过于自信的实习生，常常不按照用户的具体指令执行，主动推进分析进程，却最终因主观行动而跳过了重要步骤。相较之下，Gemini则如同一个过于谨慎的助理，每一步决策都需反复确认，导致沟通环节冗长，影响任务效率。

而在任务中犯错的常见原因还有格式错误、固守第一次尝试、及级联错误等。例如，模型输出的文件可能因为列名的大小写错误而被视作无效，或者在数据预测任务中模型固执于一个简单的预测手段而不愿尝试新的方法。这些问题表明目前的AI数据分析模型在适应动态环境和复杂指令方面依然存在较大障碍。

与展望

新基准测试不仅全面评估了当前AI模型在真实应用场景下的表现，还揭示出其在复杂指令交互中存在的“听话”难题。面对这些挑战，未来的研究方向应集中于提高AI模型的灵活性与准确性，以便更好地适应真实的数据分析需求。为了确保这些模型能够真正服务于人类决策过程，持续改进其解析能力与沟通能力将是技术发展的重要任务。

随着研究的不断深入，期待能够在不久的将来见证AI数据分析领域的重大突破，使得AI模型能够更智能地理解、响应并执行用户的指令，最终成为值得信赖的分析助手。

论文链接：

[https://arxiv.org/abs/2505.18223](https://arxiv.org/abs/2505.18223)

项目主页：

[https://github/lhydave/](https://github/lhydave/)