研究显示老旧聊天机器人显现认知障碍，人工智能医疗诊断可靠性遭质疑

时间：2025-02-17 15:00

小编：小世评选

随着人工智能（AI）技术在医学领域的广泛应用，人们对于AI在医疗诊断中扮演的角色越来越依赖。这些高科技工具能够迅速分析大量的医疗数据，包括病史、影像学资料等，有助于及早发现潜在的疾病迹象。2024年12月20日 published 在《英国医学杂志》（BMJ）上的一项研究揭示了一些令人不安的发现，表明一些老旧的聊天机器人可能像人类一样，随着使用时间的增加而表现出认知能力下降的迹象。

1. 研究背景

在这项研究中，科学家们对多款大型语言模型（LLM）驱动的聊天机器人进行了评估，包括OpenAI的ChatGPT、Anthropic的Sonnet和Alphabet的Gemini。他们运用了蒙特利尔认知评估（MoCA）测试，这是一种常用于评估认知功能的工具，能够测量注意力、记忆力、语言能力、空间技能和执行功能等多个方面。这项测试广泛用于识别阿尔茨海默病和其他认知障碍，而本次研究则用这一工具测试AI的“认知能力”。

研究结果显示，相比之下，不同版本的聊天机器人表现出显著的差异。最新的ChatGPT（版本4）表现较好，得分为32分中的26分，而相对较旧的Gemini 1.0 LLM则仅获得16分，这表明其认知能力明显不足。这一发现挑战了人们对于人工智能将很快取代人类医生的普遍假设。

2. 认知障碍的表现

根据研究，老旧聊天机器人的认知障碍主要体现在视觉/空间技能和执行任务方面。虽然大多数LLM在语言、命名、抽象思维等任务上表现良好，但它们却在某些需要图形化展示或者操作的任务中显得力不从心。例如，在MoCA测试中，AI系统需要描述一个特定的时间在钟表上的表示或从100开始依次减去7，这些任务对于机器人的认知处理能力形成了挑战。

更值得注意的是，聊天机器人在延迟回忆测试中表现不佳。这反映出即便是最先进的语言模型，也可能在复杂的认知功能的执行上存在一定的限制，进一步凸显了这些工具在医疗应用中的不可靠性。

3. 质量与安全的考量

这项研究的作者认为，AI的认知能力下降可能会影响模型在临床医学领域的应用。这意味着，尽管许多医院和医生正在依赖AI程序进行诊断，但如果这些工具的基础认知功能无法保持在一个可靠的水平，最终可能会导致错误的医疗决策，以及潜在的病人安全隐患。

他们特别反对在需要视觉抽象和执行功能的任务中强行使用这些老旧的聊天机器人，并指出，这种“重大弱点”需要引起医学界和相关监管机构的高度重视。因此，如何确保AI系统的可靠性和安全性，将是在未来临床应用中亟待解决的一大课题。

4. 人工智能的未来与挑战

研究还提出了一个独特的观点：人类神经学家可能正在开拓一种新市场，即对表现出认知障碍的人工智能进行研究。随着AI技术的不断发展，了解它们的能力边界和潜在缺陷，将对优化其应用具有重要意义。研究人员倡导开展进一步的研究，以便在未来为医疗行业提供更有效的AI解决方案。

随着技术的迅速进步，AI的迅速发展和应用，虽然给医学带来了许多机遇，但也伴随着挑战和风险。确保人工智能技术在医疗领域的可靠性与安全性，不仅关乎技术开发者的责任，更需要医学界、科技界、以及政策制定者的共同努力。

人类在科技进步中所面临的重重挑战，往往伴随着机会的降临。随着AI技术的不断演进，对其影响和应用范围的持续研究显得尤为重要。当前，医学领域在依赖这些先进技术的同时，也应认识到其潜在的局限性和风险。从而促使我们不断改进和发展更为高效、可靠的人工智能医疗工具，以便在确保患者安全和治疗效果的前提下，更好地服务于人类健康的未来。

这一系列的研究为我们提供了思考和学习的机会，同时也呼吁关注技术的可持续性与人道主义的发展方向。如果您对这些话题感兴趣，请继续关注我们，了解更多有关人工智能在医疗领域的最新动态和研究成果。

研究显示老旧聊天机器人显现认知障碍，人工智能医疗诊断可靠性遭质疑

精品推荐

相关文章