DeepSeek引领AI搜索新纪元,马斯克Gork 3挑战全球模型
时间:2025-02-19 21:50
小编:小世评选
作者 | 定焦One 王璐
AI领域再掀波澜,DeepSeek以其出色的表现吸引了全球的目光。马斯克近日在中推出“全球最聪明的AI”——Gork 3,并声称其推理能力超越所有现有模型,引发了广泛的关注与热议。Gork 3在推理-测试时间得分上表现优于DeepSeek R1和OpenAI o1,挑战了被认为是AI搜索领域的领军者DeepSeek。
值得一提的是,国民级应用微信宣布接入DeepSeek R1并开始灰度测试,这一决定被外界视为AI搜索行业的一次重大变革。随着DeepSeek与微软、英伟达、华为云、腾讯云等科技巨头的合作,AI搜索应用的前景愈发明朗。网友们亦在DeepSeek的基础上开发出算命、预测等新奇功能,为其带来了可观的经济效益,使得DeepSeek的估值飙升至千亿美元。
DeepSeek的成功不仅源于其卓越的性能和广泛的应用,还在于其低成本的训练方式。DeepSeek R1的训练成本仅为557.6万美元,创造了与OpenAI o1相当的性能,这在以往需要耗费数十亿美元的“大模型竞赛”中显得极为突出。与此形成鲜明对比的是,马斯克表示Gork 3的训练消耗了20万块英伟达GPU,成本可想而知。
尽管DeepSeek在训练成本上具有明显优势,但业界也开始探索其他的低成本训练方式。李飞飞的团队以不到50美元的云计算费用训练出了一款性能媲美DeepSeek R1和OpenAI o1的中型模型S1。尽管S1在参数规模上与DeepSeek R1相去甚远,但这种低成本的尝试吸引了广泛关注。
对于DeepSeek和其大模型的理解也需要更为全面。DeepSeek的推理大模型R1在某些问题上的表现优越,但并不代表其在所有应用场景中都是最佳选择。在处理简单问题时,推理大模型可能由于过度推理反而效率较低。刘聪专家强调,在简单问题求解时,通用模型往往更具优势,而推理大模型更适合挑战复杂任务,如数学难题和编码问题。
基于此,将DeepSeek与外部竞争对手如OpenAI的o系列、Google的Gemini 2.0及阿里的QwQ进行对比,DeepSeek R1表现的确令人瞩目,但与OpenAI最新模型o3相比,仍存在技术差距。DeepSeek的出现显著缩小了国内外顶尖AI技术之间的差距,使得这一领域的竞争愈加激烈。
在探讨大模型的训练成本时,我们了解到其涉及复杂的预训练与后训练两个阶段。预训练阶段主要是模型通过大量语料学习知识,而后训练则是将所学知识应用于实际,通常包含微调和强化学习两个过程。这两个环节的训练方式及所花费的成本差异,直接影响到大模型的最终表现与竞争能力。
不同模型之间的训练成本差异主要集中在硬件、数据与人工三个环节,具体取决于训练方式选择。一些公司可能选择自己搭建硬件设施,而另一些则可能选择租用,这在前期投入和长期成本上均有显著差别。这也为外界对各个AI公司背后的真实成本划定了界限,尽管外部难以获悉某些模型的具体训练费用,但可以肯定的是,DeepSeek的成本相对低廉。
DeepSeek之所以能在竞争中脱颖而出,源自其在模型结构、训练效率和后续优化等方面的卓越表现。DeepSeek的自动化和高效的处理能力使其在推理阶段展现了更优的成本控制,通过多头潜在注意力机制等技术的应用,DeepSeek成功降低了算力需求和优化了API接口的定价。
未来,随着算法的不断优化和训练技术的进步,大家普遍相信AI模型的训练成本将持续降低,DeepSeek所代表的低成本高效率的模型或将引领行业新方向。正如业内专家所言,DeepSeek会成为其他大模型公司的降本标杆,让更多企业凭借算法效率获得成功。AI的演进之路充满可能,深刻影响着公司发展战略与行业竞争格局。