马斯克发布Grok 4:全球领先AI模型,推理能力超越人类
时间:2025-07-11 16:20
小编:小世评选
近日,全球科技界再一次被埃隆·马斯克及其新公司xAI震撼。经过长时间的酝酿和研发,xAI终于正式发布了其下一代AI大模型——Grok 4。这款模型的问世被广泛认为是人工智能领域的一次重大进步,尤其是在推理能力和综合表现上,其水平已超越目前人类的最佳表现。
在北京时间今天中午12点的发布会上,马斯克满怀激情地表示:“这是世界上最好的让我们来展示一下。”他指出,Grok 4是当前AI的巅峰之作,其能力之强大令所有人感到惊讶。根据马斯克的介绍,Grok 4在SAT考试中能够模拟真实情况下获得满分的成绩,而在GRE任何学科中也能接近满分,超越了全球所有的研究生水平。这一成就展示了Grok 4的卓越推理能力,已然达到了超越人类的程度。
技术演进方面,Grok 4的推出不仅是xAI在算法和计算能力上不断推陈出新的一部分,更是因为强化学习等新技术的成功应用。从Grok 2到Grok 4,模型的技术范式已发生了显著的变化。具体而言,Grok 2至Grok 3的预训练阶段计算量提升了10倍,而Grok 3在推理过程中首次引入了强化学习(RL)微调,带来了更加深度的推理能力。在Grok 4的强化学习阶段,计算能力再度提升了10倍,使得推理能力实现了质的飞跃。
在基准测试方面,xAI的团队透露,Grok 4在HLE(人类考试)这一标准测试中表现优异,初期评级为35%,经过推理技术的提升后,分数已经上升到45%。与其他当前顶尖的SOTA(State of the Art)模型相比,Grok 4在使用工具条件下,达成了更高的基准得分。例如,其他模型在面对复杂问题时的最高得分为41.0%。而在Grok 4的高效推理和工具使用下,分数有望冲击50.7%,更进一步提升了现有的标杆。
关于Grok 4的更多测试结果,团队还提到其在研究生级别的谷歌问答(GPQA)、美国数学竞赛邀请赛(AIME25)、编程竞赛以及高中生团队数学竞赛等多个领域中表现出色,背景图表清晰显示出与人类的巨大差距。尽管Grok 4尚未发现任何新的科学理论或物理定律,马斯克坚信这只是时间的问题。他甚至大胆预测,如果Grok在今年内没有呈现出实用的新科学技术,他会感到意外。
综合性评估Artificial Analysis的数据显示,Grok 4在目前的AI模型中已获得73分的高分,相比其他知名模型如o3、Gemini 2.5 Pro、Claude 4 Opus以及DeepSeek R1 0528都有明显优势。马斯克强调,现阶段的人类正处于智能发展的“爆炸期”,Grok 4的问世对推动AI的发展将起到重要作用。
在实际应用展示环节中,Grok 4的能力展现得淋漓尽致。例如,在模拟两个黑洞碰撞并产生引力波的HTML动画中,Grok 4不仅进行了精确的推理和计算,还提供了相关演示过程的代码与研究文献链接。除了优异的语言理解能力,Grok 4的语音交互能力也显著提升,速度是前一代产品的两倍,用户体验优秀。
值得一提的是,Grok 4为用户提供了多种个性化角色选择,如能够唱歌的Eve和多性格的Sal,这样的互动设计显著增强了用户的体验和兴趣。Grok 4在机器学习领域的性能评估也取得了重要突破,在针对AGI(通用人工智能)核心能力的极高难度检测试验中,同样取得了新的SOTA,达到了15.9%的水平。
Grok 4模型现已通过API向公众开放,提供256K tokens的上下文窗口,而新的版本号为grok-4-0709,定价与前代持平。不过,随着功能的升级,其价格也有所提升,SuperGrok的年付费用为300美元(约2154人民币),而SuperGrok Heavy则为3000美元(约21540人民币)。
,Danny Limanseta在4小时内利用Grok 4制作了一款FPS射击游戏,这展示了Grok 4在游戏开发中的潜力,可以进行实际游戏的运行分析以及优化建议。在未来,xAI将持续推出代码模型、多模态智能体及视频生成模型,显现出强劲的产品更新速度。
Grok 4不仅标志着人工智能技术的一次巨变,更是人类智能发展历程中的重要里程碑。伴随着这一系列的技术进步,我们期待Grok 4能在科学突破和技术应用上带来更多惊喜。