马斯克发布Grok4：知识推理能力强，但代码能力不足引发关注

时间：2025-07-11 09:20

小编：小世评选

近日，特斯拉和SpaceX创始人马斯克在全球瞩目的发布会上推出了最新的人工智能模型——Grok4。这款模型的发布引发了广泛的讨论和关注，尤其是在其强大的知识推理能力与不足的代码能力之间的对比上，以及时机上的一些突兀，引发了不少审视。

Grok4发布的盛况回顾：尽管发布会原定于太平洋时间晚上8点，也就是北京时间中午11点，但马斯克却迟到了一个小时，令期待已久的观众颇感失望。发布会的氛围弥漫着些许尴尬，马斯克显得紧张，似乎对于新模型的表现心存担忧。面对观众的热切期盼，他迫切希望通过这次发布来传达Grok4的技术实力。

Grok4的技术细节揭秘：

1. 双模型推出：此次发布会推出了两款新模型，分别是Grok 4和Grok 4 Heavy，旨在为不同的用户需求提供解决方案。

2. 强大的训练数据：Grok 4的训练量是它前身Grok 2的100倍，在强化学习的计算量上，Grok 4的表现更是达到了现有任何模型的10倍，显示出极高的技术投资与能力。

3. Humanity's Last Exam (HLE)成绩：在这一极具挑战性的人类推理测评中，Grok 4斩获了38.6%的得分，而Grok 4 Heavy通过多智能体的运用，将得分提升至44.4%，成功创下新纪录。这显示了该AI在复杂知识理解与推理方面的强大能力。

4. 学科赛题中的表现：官方还公布了GPQA、AIME25、HMMT25、USAMO25等学科竞赛的相关数据，其中Grok 4 Heavy在这些比赛中表现优异，尤其在AIME25和HMMT25中取得了接近满分的结果，分别达到了100%及96.7% 的得分。这些优异的表现为其良好的学术能力增添了更多的荣耀。

尽管技术实力不容小觑，但让人颇感不安的是Grok 4在编码能力上的表现。“我们在整场发布会中几乎没有谈及代码能力，经过初步测试的结果也表明，其编码能力确实存在短板。”很多观察者纷纷指出。这一令人担忧的情况引起了业界及用户的广泛讨论。

特别需要提及的是，在训练阶段，Grok 4进行了工具使用能力的深度整合，工具如代码解释器和搜索引擎等在训练过程中被纳入使用。尽管工具被集成，Grok 4的编码能力依然未能达到期望，这显然是其未来进一步提升的重要方向。

在经过ARC-AGI v2评测时，Grok 4的准确率达到了15.9%，而其竞争对手Claude 4的准确率仅为8.6%，表现优势明显，这也标志着其在市场中的领先地位。同时，Grok 4在推理效率上的表现也是业界最佳，这些优势让Grok 4在知识推理能力上显得尤为突出，但对于编码能力而言，当前的现状仍需加强。

定价策略的探讨：此次发布的Grok 4及其重型版本Heavy的定价策略也引起了不少关注。基本版Free用户将被限制使用Grok 3，而希望获得更多功能的用户需要支付相应费用。其中，SuperGrok（每月30美元）允许用户使用Grok 4，且拥有128k Token的额度；而SuperGrok Heavy（每月300美元）则提供了独享Grok 4 Heavy、提前试用新特性及专属技术支持的服务。

根据马斯克的远景规划，后续将于8月推出更为强大的代码模型，9月上线多模态智能代理，并且10月还有视频生成模型的相关计划。这一系列的发布展示了Grok团队的宏大战略，而在知识推理能力上，Grok 4的成就显得尤为璀璨。

对比之下，鉴于编码能力的不足，许多用户在考虑投资于Grok 4或其重型版本时，表示可能会选择其他竞争对手的方案，如ChatGPT和Gemini。由此尽管Grok 4在技术上取得了显著的进展，但如果编码能力无法有效提升，其市场表现可能会受到限制。

：目前为止，Grok 4在知识推理方面的能力是毋庸置疑的，尤其是在专业领域的赛题中表现亮眼。编码能力的不足成了其未来发展路上的障碍。如何平衡知识推理与实用编码之间的关系，将是Grok团队亟待解决的核心问题。随着后续模型的推出，以及技术团队不断的努力，Grok的未来仍然充满希望，但是否能够彻底改变目前的短板，还需时间来检验。

马斯克发布Grok4：知识推理能力强，但代码能力不足引发关注

精品推荐

相关文章