DeepSeek引领AI搜索新纪元，马斯克Gork 3挑战全球模型

时间：2025-02-19 21:50

小编：小世评选

作者 | 定焦One 王璐

AI领域再掀波澜，DeepSeek以其出色的表现吸引了全球的目光。马斯克近日在中推出“全球最聪明的AI”——Gork 3，并声称其推理能力超越所有现有模型，引发了广泛的关注与热议。Gork 3在推理-测试时间得分上表现优于DeepSeek R1和OpenAI o1，挑战了被认为是AI搜索领域的领军者DeepSeek。

值得一提的是，国民级应用微信宣布接入DeepSeek R1并开始灰度测试，这一决定被外界视为AI搜索行业的一次重大变革。随着DeepSeek与微软、英伟达、华为云、腾讯云等科技巨头的合作，AI搜索应用的前景愈发明朗。网友们亦在DeepSeek的基础上开发出算命、预测等新奇功能，为其带来了可观的经济效益，使得DeepSeek的估值飙升至千亿美元。

DeepSeek的成功不仅源于其卓越的性能和广泛的应用，还在于其低成本的训练方式。DeepSeek R1的训练成本仅为557.6万美元，创造了与OpenAI o1相当的性能，这在以往需要耗费数十亿美元的“大模型竞赛”中显得极为突出。与此形成鲜明对比的是，马斯克表示Gork 3的训练消耗了20万块英伟达GPU，成本可想而知。

尽管DeepSeek在训练成本上具有明显优势，但业界也开始探索其他的低成本训练方式。李飞飞的团队以不到50美元的云计算费用训练出了一款性能媲美DeepSeek R1和OpenAI o1的中型模型S1。尽管S1在参数规模上与DeepSeek R1相去甚远，但这种低成本的尝试吸引了广泛关注。

对于DeepSeek和其大模型的理解也需要更为全面。DeepSeek的推理大模型R1在某些问题上的表现优越，但并不代表其在所有应用场景中都是最佳选择。在处理简单问题时，推理大模型可能由于过度推理反而效率较低。刘聪专家强调，在简单问题求解时，通用模型往往更具优势，而推理大模型更适合挑战复杂任务，如数学难题和编码问题。

基于此，将DeepSeek与外部竞争对手如OpenAI的o系列、Google的Gemini 2.0及阿里的QwQ进行对比，DeepSeek R1表现的确令人瞩目，但与OpenAI最新模型o3相比，仍存在技术差距。DeepSeek的出现显著缩小了国内外顶尖AI技术之间的差距，使得这一领域的竞争愈加激烈。

在探讨大模型的训练成本时，我们了解到其涉及复杂的预训练与后训练两个阶段。预训练阶段主要是模型通过大量语料学习知识，而后训练则是将所学知识应用于实际，通常包含微调和强化学习两个过程。这两个环节的训练方式及所花费的成本差异，直接影响到大模型的最终表现与竞争能力。

不同模型之间的训练成本差异主要集中在硬件、数据与人工三个环节，具体取决于训练方式选择。一些公司可能选择自己搭建硬件设施，而另一些则可能选择租用，这在前期投入和长期成本上均有显著差别。这也为外界对各个AI公司背后的真实成本划定了界限，尽管外部难以获悉某些模型的具体训练费用，但可以肯定的是，DeepSeek的成本相对低廉。

DeepSeek之所以能在竞争中脱颖而出，源自其在模型结构、训练效率和后续优化等方面的卓越表现。DeepSeek的自动化和高效的处理能力使其在推理阶段展现了更优的成本控制，通过多头潜在注意力机制等技术的应用，DeepSeek成功降低了算力需求和优化了API接口的定价。

未来，随着算法的不断优化和训练技术的进步，大家普遍相信AI模型的训练成本将持续降低，DeepSeek所代表的低成本高效率的模型或将引领行业新方向。正如业内专家所言，DeepSeek会成为其他大模型公司的降本标杆，让更多企业凭借算法效率获得成功。AI的演进之路充满可能，深刻影响着公司发展战略与行业竞争格局。

DeepSeek引领AI搜索新纪元，马斯克Gork 3挑战全球模型

精品推荐

相关文章