免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 硬件资讯 > AI推理能力提升带来新挑战:更聪明却更难遵循指令

AI推理能力提升带来新挑战:更聪明却更难遵循指令

时间:2025-05-24 21:05

小编:小世评选

在2023年,随着DeepSeek R1的兴起,业界对人工智能推理能力的期待不断攀升。人们普遍认为,AI的推理能力越强,其在执行任务时应该越聪明。现实的情况却并非如此简单。随着AI模型的不断升级,从Chain-of-Thought(CoT)到最新的Gemini 2.5 Pro、OpenAI o3、DeepSeek-R1和Qwen3,虽然这些新一代模型在推理能力上表现出色,但却在遵循指令的能力上逐渐显露出了一种相互矛盾的趋势——它们变得越来越聪明,却越来越不听话。

在我过年期间撰写DeepSeek攻略时,便有这样的感受:虽然它的智能水平在不断提高,但我却发现它在执行具体任务时的遵循能力却在下降。尽管这一发现初看似乎是个人的反馈,随着对相关文献的深入研究,我发现这一现象并非个案,而是普遍存在的趋势。

最近我读到了一篇论文,名为《When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs》。这篇论文通过严谨的实验,验证了上述观点。当AI模型进行推理时,反而更容易偏离给定的指令。这一令人惊讶,尤其是在对不同类型任务的分析中,研究者们将任务分为两种组别。

第一组称为IFEval,这是一个标准的任务执行测试集,涵盖了简单直接的指令,如“写400字以上”“必须提到AI三次”“输出格式必须是JSON”等。而第二组复杂的指令,是一种多重约束、逻辑组合和顺序嵌套的复杂任务,这些任务看似更需要推理模型的优势。研究的结果显示,无论是简单任务还是复杂任务,AI在使用思维链条后表现出的指令遵循能力都有明显下降。

研究者们指出,当模型进行推理时,它的智能确实得到了提升,比如更好地遵循格式、控制字数和用词精确度。但模型也开始“自作主张”,因为它表现出对任务深层含义的理解,导致其擅自删除、修改或添加信息,以为这样能够帮助到用户。例如,在一个要求“只允许输出法语”的任务中,模型可能会补上一句“这是‘Bonjour’的英文翻译”,在“只能输出引号内容”的任务中,模型可能会加上前情摘要。这样的行为表明,当模型需要遵循具体的指令时,它往往偏离了预设的轨道。

因此,论文的很明确:在要求规范精准的大模型输出任务时,实际上不需要使用推理模型或者思维链,直接使用非推理模型的表现会更佳。如果一定要使用推理模型,又希望提升遵循指令的效果,研究中提出了几种方案:

1. Few-Shot少样本示例:通过给模型展示几个正确的例子来帮助其理解任务。这种方法的效果良莠不齐,主要的问题在于示例的选择可能带有偏见,且输入内容可能过长。

2. Self-Reflection自我反思:让模型在第一次输出后进行自我检查,询问自己“刚才的输出是否正确?”对于大型模型而言,这种自省机制能显著提升准确性,但小型模型在这一过程中表现欠佳,反而可能因此输出更多错误。

3. Self-Selective Reasoning:使模型自主判断是否需要对该任务进行推理。这一方法的召回率较高,但精确度仍显不足,容易在要求简单修改的时候产生错误。

4. Classifier-Selective Reasoning:训练一个小模型作为判断器,帮助主模型判断某个任务是否应该启用推理。这一方法效果显著,能够恢复丢失的准确率,甚至在一些任务上超过原始模型的表现,但显然需耗费更多的训练成本。

这篇研究论文对我启发颇多。我们常常认为“聪明”意味着能看到更多的细节,分析更多的变量。真正强大的智能却是聚焦于关键点的能力。当我们专注于解决问题时,AI模型也应避免局限在细节与逻辑中,而是把注意力集中在关键指令上。

许多时候,AI的复杂思考反而会掩盖其执行任务的基本能力。让它在必须遵循指令的过程中发挥出更有效的智能,真正需要的可能是让它学会聚焦,而非随意地从头到尾浏览所有信息。类似于我们在生活中,简单的任务有时反而因为过于复杂的分析而导致错误,而真正的智慧在于知道何时应聚焦于最重要的事项。

我想和大家共享一个观点:AI所需的不仅仅是更多的思考能力,更是对思考的分寸感。通过聚焦于关键点,AI将不仅仅是“聪明”,而是变得更具“智能”,从而在复杂任务中保持更高的遵循性与准确性。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多