马斯克发布超级智能AI Grok 4,称其超越所有现有大模型
时间:2025-07-11 22:35
小编:小世评选
在全球人工智能发展迅猛的今天,特斯拉和SpaceX创始人马斯克的xAI公司于北京时间2023年9月10日中午发布了其最新的大规模人工智能模型Grok 4。马斯克在发布会中对Grok 4进行了高度赞誉,称其为"世界上最聪明的人工智能",并表示其能力超越了包括OpenAI的GPT-3、Gemini 2.5 Pro以及Claude 4在内的所有领先模型。
此次发布的Grok 4在一系列传统基准测试中表现出色,无论是SAT考试或是GRE测试等,均取得了优秀的成绩。Grok 4还参加了被誉为"人类一场闭卷考试"的人类考试(Humanity’s Last Exam,简称HLE测试),并取得了令人瞩目的44.4%准确率,明显高于其他竞争对手。这一成绩为其奠定了在人工智能领域的领先地位。
在发布会中,马斯克强调Grok 4的智能水平已经超过了各个学科的研究生,甚至不逊色于许多博士生,尤其是在学术问题上。他指出,Grok 4的基础模型第七版即将完成,并计划进行强化学习等后续训练,以实现出色的视频理解和工具调用能力。根据马斯克的路线图,xAI还计划在未来几个月推出多样的AI工具,包括代码生成器和视频生成模型。
值得注意的是,尽管Grok 4在纸面上展现出强大的技术实力,实际展示过程中也暴露了一些问题,模型在某些情况下出现了一些低级错误。发布会上有一个引人关注的细节,xAI首席科学家Igor Babuschkin在发布前几小时选择辞职。这一消息为Grok的正式发布增添了几分不安定的色彩。
从技术角度来看,Grok 4并不仅仅是一次常规的技术迭代,而是试图向外界展示其真正的潜力。马斯克并没有仅仅将其视为超越竞争对手的工具,更是一个应用潜力巨大的智能体。在多项主流基准测试中,Grok 4的表现几乎无可匹敌,尤其是在美国数学竞赛邀请赛(AIME25)上,其更是取得了满分的佳绩。
Grok 4还特别以在ARC-AGI和HLE测试中的突出表现而受到关注。ARC-AGI测试强调AI的学习能力,而HLE测试则由全球专家联合设计,涵盖了大量专业学科的问题。在HLE测试中,Grok 4以44.4%的准确率超越了先前表现最佳的Gemini 2.5 Pro和OpenAI的o3。这表明,Grok 4在处理复杂问题上的潜力和能力。
除了学术表现,Grok 4还在商业应用场景中展示出超越同行的潜力。基于商业场景的Vending-Bench测试表明,Grok 4在管理库存、联系供应商和定价等方面的效率都显著高于其他模型与真实人类运营者,创造价值是人类的五倍以上。
在发布会中,Grok 4的应用能力似乎并不如预期。尽管其可以自然切换多种语调,甚至被要求“唱歌”,实际演示却因为对多模态理解的不稳定而出现了小插曲。这种现象暴露出Grok 4在语音交互和特定任务执行上的局限性,显示出该模型仍有许多提高的空间。
发布会的整体节奏显得有些仓促,与执行团队内部的变动关系密切。马斯克在发布会上多次提及对人工智能过于智能的忧虑,令人怀疑xAI在应对突发事件和未来挑战时是否准备充分。与OpenAI的ChatGPT和Google的Gemini竞争,Grok 4还需面对更复杂的市场生态和用户需求。虽然技术上取得了一定的突破,但如何获得用户信任、提升产品成熟度,仍是xAI需要解决的困难。
尽管Grok 4的确展现了相当强的能力,尤其是在研究生和博士的知识水平上获得优势,但马斯克选择的人设和沟通方式,让Grok的发布过程中增添了不少争议。这种独立、敢说话的性格,虽然吸引了不少关注,但也使其在一些方面更容易引发争议和不满。
Grok 4不仅代表了技术的进步,也反映出人工智能新时代的复杂性与不确定性。技术领先固然重要,但在用户体验与信任建立上,Grok 4还有很长的路要走。马斯克乐观地表示对AI未来的期待,但也明确了面对未来挑战的可能性,正如他所言:“无论结果如何,我希望能够见证这场革命。”在这场人工智能的热潮中,Grok 4的实际表现将成为我们关注的重点。