OpenAI研究揭示AI“幻觉”的根源与应对策略

时间：2025-10-04 12:50

小编：星品数码网

在当今的人工智能领域，AI系统的“幻觉”现象已成为一个备受关注的问题。所谓“幻觉”，是指AI在提供答案时，虽然听起来符合逻辑且合理，但实际上却是错误的。这一现象引发了学术界和业界对AI系统可靠性的广泛讨论，尤其是在涉及人类安全和决策的重要领域，如医疗和金融等行业。

当前，大多数AI的评估测试采用的是一种二元评分方式：答对得分，答错或选择“不知道”则不得分。基于这种评估机制，许多模型陷入了一个怪圈：如果它们选择承认自己不确定，结果就是降低了表现得分；而哪怕是编造出一个看似合理的答案，只要碰巧答对，就会被视为表现良好。这一机制在一定程度上“奖励”了自信的错误，却让那些诚实的回答蒙受损失。

OpenAI最近发布的研究《语言模型产生幻觉的机制》首次为这一现象提供了系统性的解释，指出幻觉的根源并非偶然，而是源于模型本身结构和评估体系的设定。研究强调，回答的评估机制构成了模型产生幻觉的基础。这一机制不仅助长了模型在不确定情境下的猜测行为，而且将这种行为视作取得优良成绩的策略。

研究指出，当“我不知道”这一回答只能得零分，而一个听上去合理但实际上不正确的猜测却有可能得满分时，模型的最优策略自然就转向了积极猜测。模型并不是被故意编程去“撒谎”，而是在现有机制下，选择虚张声势的回答会获取更高的成绩。因此，OpenAI强调：“幻觉之所以不断产生，是因为大多数评估依然遵循这一错误机制。语言模型被优化为在测试中表现出色，而在面对不确定性时，提出猜测在评分中显示出优势。”

这一现象与学校考试有异曲同工之处。如果学生在考试中对某个问题回答不出，可能会选择蒙一个答案以期望碰碰运气。大型语言模型（LLMs）被训练得与此类似，它们在信息处理时也处于“考试模式”：沉默被视为不合格，而猜测显得更聪明。OpenAI的研究团队道：“人类通过生活经验习得表达不确定性的价值，而语言模型则主要通过惩罚不确定性的考试来接受评估。”换言之，我们的AI训练方式让其成为“永远的应试者”，其目标是取得好成绩，而非提供可信的信息。

OpenAI公布了其模型在基准测试中的表现。最新的GPT-5 Thinking Mini模型准确率为22%，略低于上一代o4-Mini模型的24%。不过，值得注意的是，GPT-5 的弃答率达52%，而错误率为26%；相比之下，o4-Mini的弃答率仅为1%，但其错误率却高达75%。研究团队指出，o4-Mini由于更频繁地猜测，因此同时导致了正确回答和错误回答的增加。“正确性”并不能完全反映模型的真实能力，错误反馈显然比弃答更为严重。

面对这一问题，OpenAI并不打算从根本上重构模型，而是侧重于改进评估体系，认为“根本问题在于各类评估方法之间缺乏一致性，现有的评分方式必须进行调整，避免在模型不确定时惩罚其选择不作答”。他们进一步指出：“当前基于准确率的评估体系需要更新，以防止模型依赖于猜测。当当前评估体系继续奖励不确定的猜测时，模型只能趋向于这种策略。”

这一转变在表面上看似微妙，却对整个AI行业有着深远影响。多年来，行业的焦点一直集中在提高AI的速度、智力和流畅度，但这些特质并不等于它的信任度。最为关键的挑战在于，如何在知识与谦逊之间找到一条平衡之路。通过调整评估方式，OpenAI期望能够培养出更少依赖空泛表述、而是能够提供稳健且可信信息的AI模型。

当用户向AI咨询医疗建议或财务规划时，他们最不希望听到的正是那些听上去无比自信却完全虚构的答案。在一个常被诟病为“过度炒作”和“半真半假”的行业中，OpenAI对减少虚张声势的呼吁揭示了AI技术发展的另一种未来走向。这一研究努力不仅为AI的可靠性奠定了基础，同时也为整个行业的进步指明了方向。

OpenAI研究揭示AI“幻觉”的根源与应对策略

精品推荐

相关文章