爱丁堡大学研究:主流AI在基础时间认知任务上表现不佳,正确率仅38.7%
时间:2025-05-24 16:05
小编:小世评选
5月17日,爱丁堡大学的研究团队在即将举行的2025年国际学习表征会议(ICLR)上发布了一项重磅研究,深入探讨了主流人工智能(AI)模型在基础时间认知任务中的表现。研究结果令人震惊,大多数学者预期的AI在这类任务中展现出色的表现,然而事实却令人失望,AI在如读取时钟时间和计算日期等基本任务上的准确率仅为38.7%和26.3%。这项研究引发了广泛关注,对AI在日常生活中应用的可靠性提出了严峻的质疑。
爱丁堡大学的研究团队在实验中,选择了几款主流的多模态大语言模型(MLLM),包括Meta的Llama 3.2-Vision、Google的Gemini 2.0以及OpenAI的GPT-4o。研究人员将时钟和日历的图像数据引入模型,以测试其在基础时间认知任务上的表现。令人遗憾的是,这些AI模型在读取时钟时的正确率仅有38.7%,而在日期计算任务方面的表现甚至更为糟糕,只有26.3%的准确率。
这项研究揭示了AI模型在时间感知任务中的不足,而这些正是人类从小便自然习得的技能。研究的主要作者,爱丁堡大学的研究员罗希特·萨克森纳(Rohit Saxena),强调了AI在这类基础技能方面的缺陷,指出这直接反映了其在空间推理、逻辑计算以及训练数据的局限性。并且要理解,AI与人类在处理这些任务时的根本差异——人类在思维过程中凭借经验、直觉和规则化推理来处理信息,而AI更多依赖于模型中的数据模式预测。
例如,读取时钟不仅仅是识别“这是一个时钟”,更包含了视觉感知、几何逻辑的结合。在读取时钟的过程中,人类会与指针的重叠角度进行综合判断,解析不同类型的刻度(如罗马数字、阿拉伯数字等)所代表的具体时间。AI模型的能力并没有延伸到这些逻辑推理的层面,其主要依赖训练数据中的模式进行识别,而非真实地理解其中的逻辑关系。在面临日期计算问题,如“一年中的第153天是星期几?”时,AI同样显得无能为力。尽管大语言模型能够描述闰年的原理,但它们却缺乏在视觉任务中的实际应用能力,无法将这些规则与具体的任务进行有效关联。
此次研究的推出,引发了人们对AI在实际应用中的可能风险的深刻反思。萨克森纳特别强调,若现实生活中的调度、自动化及辅助技术过度依赖AI进行时间和日期的判断,很可能因为模型的错误判断而引发连锁的风险后果。例如,在交通调度系统或医疗预约中,若AI计算错误将极大影响人们的日常生活和身心健康。
针对这些问题,研究者提出了一系列建议。AI模型在训练数据上应增加更多有针对性的例子,例如在时钟和日期计算方面的模拟数据,以便让AI能够更好地理解时间的逻辑结构。研究者呼吁对AI的训练机制进行深化思考,特别是在处理空间推理与逻辑结合方面的必要性,帮助AI在不常遇到的任务中建立更加稳固的理解框架。
伴随技术的快速发展,AI在众多领域展现出巨大的潜力与便利。对于基础时间认知这样的基本技能,其依赖性和准确性仍有待提升。未来的研究应致力于提升AI在这些精细领域中的表现,以促使其在实际场景中的可靠应用,同时也为人类社会提供更加安全的技术支持。