AI推理能力提升带来新挑战：更聪明却更难遵循指令

时间：2025-05-24 21:05

小编：星品数码网

在2023年，随着DeepSeek R1的兴起，业界对人工智能推理能力的期待不断攀升。人们普遍认为，AI的推理能力越强，其在执行任务时应该越聪明。现实的情况却并非如此简单。随着AI模型的不断升级，从Chain-of-Thought（CoT）到最新的Gemini 2.5 Pro、OpenAI o3、DeepSeek-R1和Qwen3，虽然这些新一代模型在推理能力上表现出色，但却在遵循指令的能力上逐渐显露出了一种相互矛盾的趋势——它们变得越来越聪明，却越来越不听话。

在我过年期间撰写DeepSeek攻略时，便有这样的感受：虽然它的智能水平在不断提高，但我却发现它在执行具体任务时的遵循能力却在下降。尽管这一发现初看似乎是个人的反馈，随着对相关文献的深入研究，我发现这一现象并非个案，而是普遍存在的趋势。

最近我读到了一篇论文，名为《When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs》。这篇论文通过严谨的实验，验证了上述观点。当AI模型进行推理时，反而更容易偏离给定的指令。这一令人惊讶，尤其是在对不同类型任务的分析中，研究者们将任务分为两种组别。

第一组称为IFEval，这是一个标准的任务执行测试集，涵盖了简单直接的指令，如“写400字以上”“必须提到AI三次”“输出格式必须是JSON”等。而第二组复杂的指令，是一种多重约束、逻辑组合和顺序嵌套的复杂任务，这些任务看似更需要推理模型的优势。研究的结果显示，无论是简单任务还是复杂任务，AI在使用思维链条后表现出的指令遵循能力都有明显下降。

研究者们指出，当模型进行推理时，它的智能确实得到了提升，比如更好地遵循格式、控制字数和用词精确度。但模型也开始“自作主张”，因为它表现出对任务深层含义的理解，导致其擅自删除、修改或添加信息，以为这样能够帮助到用户。例如，在一个要求“只允许输出法语”的任务中，模型可能会补上一句“这是‘Bonjour’的英文翻译”，在“只能输出引号内容”的任务中，模型可能会加上前情摘要。这样的行为表明，当模型需要遵循具体的指令时，它往往偏离了预设的轨道。

因此，论文的很明确：在要求规范精准的大模型输出任务时，实际上不需要使用推理模型或者思维链，直接使用非推理模型的表现会更佳。如果一定要使用推理模型，又希望提升遵循指令的效果，研究中提出了几种方案：

1. Few-Shot少样本示例：通过给模型展示几个正确的例子来帮助其理解任务。这种方法的效果良莠不齐，主要的问题在于示例的选择可能带有偏见，且输入内容可能过长。

2. Self-Reflection自我反思：让模型在第一次输出后进行自我检查，询问自己“刚才的输出是否正确？”对于大型模型而言，这种自省机制能显著提升准确性，但小型模型在这一过程中表现欠佳，反而可能因此输出更多错误。

3. Self-Selective Reasoning：使模型自主判断是否需要对该任务进行推理。这一方法的召回率较高，但精确度仍显不足，容易在要求简单修改的时候产生错误。

4. Classifier-Selective Reasoning：训练一个小模型作为判断器，帮助主模型判断某个任务是否应该启用推理。这一方法效果显著，能够恢复丢失的准确率，甚至在一些任务上超过原始模型的表现，但显然需耗费更多的训练成本。

这篇研究论文对我启发颇多。我们常常认为“聪明”意味着能看到更多的细节，分析更多的变量。真正强大的智能却是聚焦于关键点的能力。当我们专注于解决问题时，AI模型也应避免局限在细节与逻辑中，而是把注意力集中在关键指令上。

许多时候，AI的复杂思考反而会掩盖其执行任务的基本能力。让它在必须遵循指令的过程中发挥出更有效的智能，真正需要的可能是让它学会聚焦，而非随意地从头到尾浏览所有信息。类似于我们在生活中，简单的任务有时反而因为过于复杂的分析而导致错误，而真正的智慧在于知道何时应聚焦于最重要的事项。

我想和大家共享一个观点：AI所需的不仅仅是更多的思考能力，更是对思考的分寸感。通过聚焦于关键点，AI将不仅仅是“聪明”，而是变得更具“智能”，从而在复杂任务中保持更高的遵循性与准确性。

AI推理能力提升带来新挑战：更聪明却更难遵循指令

精品推荐

相关文章