爱丁堡大学研究：主流AI在基础时间认知任务上表现不佳，正确率仅38.7%

时间：2025-05-24 16:05

小编：星品数码网

5月17日，爱丁堡大学的研究团队在即将举行的2025年国际学习表征会议（ICLR）上发布了一项重磅研究，深入探讨了主流人工智能（AI）模型在基础时间认知任务中的表现。研究结果令人震惊，大多数学者预期的AI在这类任务中展现出色的表现，然而事实却令人失望，AI在如读取时钟时间和计算日期等基本任务上的准确率仅为38.7%和26.3%。这项研究引发了广泛关注，对AI在日常生活中应用的可靠性提出了严峻的质疑。

爱丁堡大学的研究团队在实验中，选择了几款主流的多模态大语言模型（MLLM），包括Meta的Llama 3.2-Vision、Google的Gemini 2.0以及OpenAI的GPT-4o。研究人员将时钟和日历的图像数据引入模型，以测试其在基础时间认知任务上的表现。令人遗憾的是，这些AI模型在读取时钟时的正确率仅有38.7%，而在日期计算任务方面的表现甚至更为糟糕，只有26.3%的准确率。

这项研究揭示了AI模型在时间感知任务中的不足，而这些正是人类从小便自然习得的技能。研究的主要作者，爱丁堡大学的研究员罗希特·萨克森纳（Rohit Saxena），强调了AI在这类基础技能方面的缺陷，指出这直接反映了其在空间推理、逻辑计算以及训练数据的局限性。并且要理解，AI与人类在处理这些任务时的根本差异——人类在思维过程中凭借经验、直觉和规则化推理来处理信息，而AI更多依赖于模型中的数据模式预测。

例如，读取时钟不仅仅是识别“这是一个时钟”，更包含了视觉感知、几何逻辑的结合。在读取时钟的过程中，人类会与指针的重叠角度进行综合判断，解析不同类型的刻度（如罗马数字、阿拉伯数字等）所代表的具体时间。AI模型的能力并没有延伸到这些逻辑推理的层面，其主要依赖训练数据中的模式进行识别，而非真实地理解其中的逻辑关系。在面临日期计算问题，如“一年中的第153天是星期几？”时，AI同样显得无能为力。尽管大语言模型能够描述闰年的原理，但它们却缺乏在视觉任务中的实际应用能力，无法将这些规则与具体的任务进行有效关联。

此次研究的推出，引发了人们对AI在实际应用中的可能风险的深刻反思。萨克森纳特别强调，若现实生活中的调度、自动化及辅助技术过度依赖AI进行时间和日期的判断，很可能因为模型的错误判断而引发连锁的风险后果。例如，在交通调度系统或医疗预约中，若AI计算错误将极大影响人们的日常生活和身心健康。

针对这些问题，研究者提出了一系列建议。AI模型在训练数据上应增加更多有针对性的例子，例如在时钟和日期计算方面的模拟数据，以便让AI能够更好地理解时间的逻辑结构。研究者呼吁对AI的训练机制进行深化思考，特别是在处理空间推理与逻辑结合方面的必要性，帮助AI在不常遇到的任务中建立更加稳固的理解框架。

伴随技术的快速发展，AI在众多领域展现出巨大的潜力与便利。对于基础时间认知这样的基本技能，其依赖性和准确性仍有待提升。未来的研究应致力于提升AI在这些精细领域中的表现，以促使其在实际场景中的可靠应用，同时也为人类社会提供更加安全的技术支持。

爱丁堡大学研究：主流AI在基础时间认知任务上表现不佳，正确率仅38.7%

精品推荐

相关文章