DeepSeek-V3发布：新一代开源大语言模型以低成本超越GPT-4o，引发AI行业震动

时间：2024-12-31 08:30

小编：星品数码网

作者丨孔海丽

编辑丨骆一帆

近年来，人工智能领域的发展可谓迅猛无比，而最近国内初创公司DeepSeek的再次崛起更是引起了广泛关注。DeepSeek在其短暂的历史中进行了一系列创新，其中最新发布的DeepSeek-V3大语言模型更是业界瞩目的焦点。这一全新的开源模型在多项基准测试中表现出色，以低成本超越了目前业界领先的GPT-4o模型，成为AI行业的一次震动。

DeepSeek公司成立于2023年7月，隶属于量化资管公司幻方。其所推出的DeepSeek-V3在训练成本和效率方面均表现亮眼，预训练阶段耗时不到两个月，训练所需的GPU小时数仅为2664K，结合后续的模型优化和训练，整体成本仅为557万美元。这一数字与GPT-4o的约1亿美元的训练成本相比，简直如同微不足道。更令人振奋的是，DeepSeek-V3的输入输出价格分别只有GPT-4o的十分之一，使其在市场中的竞争力大幅提升。DeepSeek-V3目前尚不支持多模态输入输出，这也是未来发展的一大方向。

DeepSeek-V3在多个领域的表现均超越了国际主流大模型。例如，在数学基准测试（MATH 500）和AIME 2024测试中，DeepSeek-V3的成绩皆超越了Llama 3.1-405B、Claude-3.5-Sonnet等对手，其编码能力在Codeforces基准中也高出约30分，仅在软件工程和知识问答方面稍逊Claude-3.5-Sonnet。DeepSeek的技术论文中自豪地声明：“DeepSeek-V3-Base已经成为当前可用的最强开源基础模型，尤其在代码与数学领域表现优异。”

这一成就不仅在技术层面引发讨论，也在资本市场上备受关注。目前，DeepSeek母公司幻方已在吸引投资方面颇有建树，同时小米也正积极筹建GPU万卡集群，进行对主流AI技术的追赶与超越。雷军甚至亲自挖来了被誉为“AI天才少女”的95后开发者罗福莉，加速了这一进程。

与OpenAI、Anthropic等巨头相较，DeepSeek有着不同的成长路径。虽然当前的AI发展普遍依赖于大规模的模型训练和高昂的硬件投入，但DeepSeek以其巧妙的设计和创新思路证明了另一条可行之路。DeepSeek-V3充分利用了2000张A100 GPU进行训练，却能实现与GPT-4o等主流模型几乎相当的成果，这不仅展示了DeepSeek团队的技术实力，也为其他创业公司提供了新的思路。

DeepSeek的API价格也非常具竞争力。虽然在DeepSeek-V2的基础上，DeepSeek-V3的定价有所提升，输入为2元/M tokens，输出为8元/M tokens，但依然远低于Claude-3.5-Sonnet的费用。这一价格策略使得更多中小企业及开发者能够低成本尝试和使用高性能的AI模型，从而促进广泛应用。

DeepSeek的出现，为大语言模型的未来发展提供了新的可能性。随着科技的不断进步和市场需求的增加，AI公司们开始探索各种创新路径，从简单的预训练到后续的推理模型等多种方向都在加速发展。DeepSeek-V3不仅代表了国内AI公司的崛起，也为全球AI行业注入了新的活力。在中国庞大的市场和丰富的应用场景下，越来越多的技术和创新如雨后春笋般涌现，给这一传统产业带来了财富与变革。

DeepSeek的挑战依然十分严峻。尽管DeepSeek-V3展现了令人瞩目的性能，当前在多模态、大规模运算等方面，仍需进行探索与突破。AI技术的发展之路并非坦途，OpenAI等巨头的持续创新仍力量不可小觑。这也启示我们，未来的AI竞争，将不仅仅是技术与性能的比拼，还将是对于创新能力、市场反应速度与应用模式的综合较量。

DeepSeek-V3的发布不单是一个技术成就，更是中国AI产业崛起的一次标志性事件。在未来的发展中，如何保持创新的活力、优化发展路径，将是DeepSeek以及所有AI公司需要面对的重要课题。随着技术环境的不断变化，中国在全球AI产业中的角色将愈加重要，而这次颠覆性的创新，正是引领行业新方向的开始。

DeepSeek-V3发布：新一代开源大语言模型以低成本超越GPT-4o，引发AI行业震动

精品推荐

相关文章