马斯克发布Grok4:知识推理能力强,但代码能力不足引发关注
时间:2025-07-11 09:20
小编:小世评选
近日,特斯拉和SpaceX创始人马斯克在全球瞩目的发布会上推出了最新的人工智能模型——Grok4。这款模型的发布引发了广泛的讨论和关注,尤其是在其强大的知识推理能力与不足的代码能力之间的对比上,以及时机上的一些突兀,引发了不少审视。
Grok4发布的盛况回顾:尽管发布会原定于太平洋时间晚上8点,也就是北京时间中午11点,但马斯克却迟到了一个小时,令期待已久的观众颇感失望。发布会的氛围弥漫着些许尴尬,马斯克显得紧张,似乎对于新模型的表现心存担忧。面对观众的热切期盼,他迫切希望通过这次发布来传达Grok4的技术实力。
Grok4的技术细节揭秘:
1. 双模型推出:此次发布会推出了两款新模型,分别是Grok 4和Grok 4 Heavy,旨在为不同的用户需求提供解决方案。
2. 强大的训练数据:Grok 4的训练量是它前身Grok 2的100倍,在强化学习的计算量上,Grok 4的表现更是达到了现有任何模型的10倍,显示出极高的技术投资与能力。
3. Humanity's Last Exam (HLE)成绩:在这一极具挑战性的人类推理测评中,Grok 4斩获了38.6%的得分,而Grok 4 Heavy通过多智能体的运用,将得分提升至44.4%,成功创下新纪录。这显示了该AI在复杂知识理解与推理方面的强大能力。
4. 学科赛题中的表现:官方还公布了GPQA、AIME25、HMMT25、USAMO25等学科竞赛的相关数据,其中Grok 4 Heavy在这些比赛中表现优异,尤其在AIME25和HMMT25中取得了接近满分的结果,分别达到了100%及96.7% 的得分。这些优异的表现为其良好的学术能力增添了更多的荣耀。
尽管技术实力不容小觑,但让人颇感不安的是Grok 4在编码能力上的表现。“我们在整场发布会中几乎没有谈及代码能力,经过初步测试的结果也表明,其编码能力确实存在短板。”很多观察者纷纷指出。这一令人担忧的情况引起了业界及用户的广泛讨论。
特别需要提及的是,在训练阶段,Grok 4进行了工具使用能力的深度整合,工具如代码解释器和搜索引擎等在训练过程中被纳入使用。尽管工具被集成,Grok 4的编码能力依然未能达到期望,这显然是其未来进一步提升的重要方向。
在经过ARC-AGI v2评测时,Grok 4的准确率达到了15.9%,而其竞争对手Claude 4的准确率仅为8.6%,表现优势明显,这也标志着其在市场中的领先地位。同时,Grok 4在推理效率上的表现也是业界最佳,这些优势让Grok 4在知识推理能力上显得尤为突出,但对于编码能力而言,当前的现状仍需加强。
定价策略的探讨:此次发布的Grok 4及其重型版本Heavy的定价策略也引起了不少关注。基本版Free用户将被限制使用Grok 3,而希望获得更多功能的用户需要支付相应费用。其中,SuperGrok(每月30美元)允许用户使用Grok 4,且拥有128k Token的额度;而SuperGrok Heavy(每月300美元)则提供了独享Grok 4 Heavy、提前试用新特性及专属技术支持的服务。
根据马斯克的远景规划,后续将于8月推出更为强大的代码模型,9月上线多模态智能代理,并且10月还有视频生成模型的相关计划。这一系列的发布展示了Grok团队的宏大战略,而在知识推理能力上,Grok 4的成就显得尤为璀璨。
对比之下,鉴于编码能力的不足,许多用户在考虑投资于Grok 4或其重型版本时,表示可能会选择其他竞争对手的方案,如ChatGPT和Gemini。由此尽管Grok 4在技术上取得了显著的进展,但如果编码能力无法有效提升,其市场表现可能会受到限制。
:目前为止,Grok 4在知识推理方面的能力是毋庸置疑的,尤其是在专业领域的赛题中表现亮眼。编码能力的不足成了其未来发展路上的障碍。如何平衡知识推理与实用编码之间的关系,将是Grok团队亟待解决的核心问题。随着后续模型的推出,以及技术团队不断的努力,Grok的未来仍然充满希望,但是否能够彻底改变目前的短板,还需时间来检验。