免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 硬件资讯 > 马斯克即将发布Grok 4,性能超越竞争对手引发热议

马斯克即将发布Grok 4,性能超越竞争对手引发热议

时间:2025-07-07 19:20

小编:小世评选

编辑:定慧 好困

随着发布日期的临近,马斯克的Grok 4已经成为科技界瞩目的焦点。这款新一代的人工智能模型将进一步挑战现有行业标准和竞争者的地位。根据网友LEGIT泄露的数据,Grok 4在多个基准测试中的表现颇为亮眼,这一消息也得到了AI领域知名专家Tibor Blaho的确认,令人对其充满期待。

根据流出的信息,Grok 4在GPQA、AIME 25及SWE-bench等评测中表现优异,领先于包括谷歌的Gemini 2.5 Pro、OpenAI的o3和Claude 4 Opus等竞争者。在GPQA评测中,Grok 4的得分为87%-88%,略高于Gemini 2.5 Pro的86.4%,而Claude 4 Opus则落后得多,仅为79.6%。在2025美国数学邀请赛的AIME 25评测中,Grok 4以95%的成绩大幅领先于Claude 4 Opus和OpenAI o3的得分,前者为75.5%,后者为88.9%。在真实软件工程问题的SWE-bench评测中,Grok 4 Code也展现出72%-75%的好成绩,略优于Claude Opus 4和OpenAI o3。

更为引人注意的是,Grok 4在「人类的考试」(Human Last Exam,HLE)这一被普遍认为是最具挑战性的基准测试中,取得了令人震惊的成绩。在最强状态下,Grok 4的最高分为45%,而Gemini 2.5 Pro的得分仅为21%,Claude 4 Opus更是只有10.7%。这一成绩不仅表明Grok 4拥有极为强大的世界知识,也显示出它在处理多学科问题上的出色能力。HLE考试涵盖了超过100个学科的2,500道专家级试题,设计用以考验AI模型的整合与推理能力,具有非常高的难度。Grok 4在此项评测中的不俗表现,将为其在人工智能领域的领导地位打下更为坚实的基础。

值得一提的是,马斯克曾在采访中提到,Grok 3.5在研发过程中尝试从第一性原理出发进行推理,意味着模型构建的时候,取材于物理学的思维方式,由此可以对复杂问题进行更为深入的解析。针对即将发布的Grok 4,马斯克表示,团队会从Grok 3直接跳步到Grok 4,显然是希望在功能上实现一次质的飞跃,而非简单的逐步改进。

几天前,在xAI控制台的源代码中,开发者也发现了两个Grok 4模型的信息:Grok 4和Grok 4 Code。Grok 4被定位为最新的旗舰模型,拥有强大的自然语言处理、数学运算及推理能力;而Grok 4 Code则是专为编程开发而设计的,能够解答编程相关问题,甚至可以直接嵌入到代码编辑器中使用,显示出极大的实用性。

也不乏对Grok 4的担忧声音。有部分网络用户对之前Grok 3的炒作感到失望,这使得他们对新模型的信心并不高。尤其是HLE的创造者Dan Hendrycks在xAI的角色,引发了关于其在科学知识方面是否仅提供了安全建议的讨论,有人担心这是否会影响Grok 4的真正性能。大家仍记得Llama 4在发布前的“翻车”事件,强调了提前“针对性训练”的风险。

马斯克在早前的一次微博上提到,Grok 4的研发团队正在全力以赴,预计将在7月4日后发布。经过一轮大型的训练,Grok 4的专业编码能力将大幅提升,成为新一代的开发者工具。这一点除了在Grok 4的性能提升上体现外,还与众多重要竞争者的功能进行了对比。

如谷歌的Gemini 2.5 Pro具备了更为复杂的代码重构及上下文管理能力,以提高编码效率;Anthropic的Claude 4专注于多终端环境的使用,提供全面的工具以改善编程体验;OpenAI则在其新版Codex中继续延续生成工具的能力,助力开发者在代码翻译和编写过程中实现更高的效率。

Grok 4即将发布的消息让整个科技界瞩目,但在期待的同时,安全性与实际应用的可行性同样备受关注。随着马斯克和其团队的努力,Grok系列产品的发展或将再一次颠覆人工智能领域的格局,引发一轮新的创新潮流。未来的发展如何,还需我们持续关注,同时也希望Grok能够在满足开发者需求的过程中,不断完善和进化。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多