中国科学家首次证实多模态大语言模型具有人类般的“理解”能力

时间：2025-06-14 00:55

小编：星品数码网

近日，中国科学院自动化研究所的科研人员取得了一项具有里程碑意义的研究成果，首次证实了多模态大语言模型在学习过程中能够自发地“理解”事物，且这一“理解”模式与人类的认知方式十分相似。此项研究为探索人工智能的思维机制开辟了新方向，也为未来开发与人类理解能力相近的人工智能系统奠定了基础。相关研究成果已在线发表在《自然·机器智能》杂志上，吸引了广泛关注。

人类智能的核心在于对事物的全面理解。例如，当我们看到“狗”或“苹果”时，除了能够识别它们的外观特征，如大小、颜色与形状外，我们还能够理解它们的用处、所带来的情感体验以及其在文化中的地位与意义。这种全方位的认知能力构成了我们理解世界的重要基础。在人工智能领域，尤其是在多模态大语言模型的发展如ChatGPT等，科学家们开始好奇，这些模型是否能够从海量的文本与图像中自我学习，形成类似于人类的理解能力。

传统的人工智能研究大多集中于提高物体识别的准确率，鲜有学者探讨模型是否真正理解物体的含义。正如研究的通讯作者、中国科学院自动化研究所的何晖光研究员所指出的，当前的人工智能能够区分猫与狗的图片，但这种“识别”与人类对猫和狗的“理解”之间的本质区别尚需深入探索。

在这一研究中，科研团队借鉴了人脑的认知原理，设计了一个创新的实验，让大语言模型与人类参与同一“找不同”的游戏。实验中，参与者需要从三个物品（选自1854种常见物品）中选出最不相搭的一个。通过对高达470万次判断结果的分析，研究团队首次为大模型绘制出了“思维导图”，也可称为“概念地图”，揭示了它们在进行判断时的内在思维流程。

何晖光介绍说，研究人员从庞大的实验数据中提炼出了66个关键维度，它们体现了人工智能如何“理解”事物的特征，并给这些维度赋予了相应的名称。研究发现，这些维度不仅通俗易懂，且与人类大脑中负责物体加工的区域的神经活动方式高度一致。更有意义的是，拥有多模态能力的大语言模型在思考和做选择时，其反馈方式与人类更加接近，而这一发现为未来的人工智能研究提供了新的视角。

研究还揭示出一个有趣的现象：人类在做出判断时，既要考虑物体的外观，如形状和颜色，也会结合物体的意义与用途，而多模态大语言模型在此过程中则更多地依赖于文字标签和所学习的抽象概念。何晖光表示，这一发现表明，大模型内部确实发展出了一种与人类相似的理解世界的机制。

此次研究的成功不仅为我们提供了一个新的理解人工智能的视角，也为设计更加复杂和智能的人工系统提供了理论依据。未来，科学家们希望能够通过进一步的研究，深化对人工智能如何思考与理解的认识，推动人工智能技术的革新与发展。

中国科研团队在多模态大语言模型理解能力上的突破，标志着人工智能领域的重要进步。这不仅将影响当下各种应用场景中的人工智能表现，也将为未来的技术发展指明方向。随着研究的深入，我们能够创造出更加智能且具有更人性化的理解能力的人工智能系统，进一步融入我们的日常生活，助力人类的各项活动。

中国科学家首次证实多模态大语言模型具有人类般的“理解”能力

精品推荐

相关文章