中国Deepseek发布DeepSeek-v3模型引发全球AI界震惊

时间：2024-12-31 09:00

小编：星品数码网

近日，中国杭州的Deepseek公司在全球人工智能（AI）界引起了轩然大波。2023年12月26日，Deepseek隆重推出了新一代开源模型DeepSeek-v3，这一模型的出现瞬间引爆了业界热议，其卓越的性能与世界顶尖的闭源模型如GPT-4o和Claude-3.5-Sonnet不相上下。这一发布不仅使Deepseek一跃成为开源模型领域的佼佼者，也引发了全球AI专家、投资者的广泛关注。

值得注意的是，DeepSeek-v3的训练成本仅为600万美元，相较于其他大模型项目，其成本降低了近十倍。这一巨大的成本优势让很多业内专家感到震惊。一个知名AI投资机构的负责人甚至表示，Deepseek最新发布的53页技术论文堪称“黄金”。目前，Deepseek的中文名称为“深度求索”，其母公司为量化巨头幻方量化公司，而幻方因其独特的技术积累和大量的计算资源，已然成为隐形的AI领军企业，拥有超过1万枚英伟达A100 GPU。

回顾Deepseek的成长历程，早在2023年5月，该公司已发布过一款名为DeepSeek V2的开源模型，并以其卓越的性价比令业界刮目相看。在短短六个月后，Deepseek便再度跨越技术的高峰，推出全新的DeepSeek-v3。新模型的多项评测成绩均超过现有的Qwen2.5-72B和Llama-3.1-405B等开源模型，尤其在百科知识、长文本处理、代码生成及数学能力等方面表现尤为卓越，甚至在多个数学竞赛中都表现出超强的能力。

DeepSeek-v3在生成速度方面的表现同样令人印象深刻，其吐字速度从DeepSeek V2的20 TPS提升至60 TPS，性能提升达三倍。这一创新将在应用场景中为用户提供更高效的体验。同时，Deepseek宣布调整API服务的收费标准，为开发者提供更具吸引力的使用策略。在为期45天的优惠体验期内，DeepSeek-v3的API服务价格显著降低，大幅降低了使用门槛。

Deepseek的崛起令人惊讶的还有其创新的训练模式。Deepseek采用了相对高效的资源配置，通过使用2048个GPU长达两个月的时间完成模型训练，与以往需要的1.6万张GPU相比，其计算资源的需求降低了11倍。OpenAI创始成员之一的李飞飞门徒Andrej Karpathy对此表示认同，认为Deepseek的方法和策略为全行业提供了新的思路，强调了数据和算法在AI发展过程中的重要性。

这种从容应对技术挑战的背后，是Deepseek长期以来在技术积累和资源整合方面的努力。幻方量化CEO陆政哲曾表示，该公司自成立以来便将大部分收入投入到人工智能研究中，建立相对领先的AI硬件基础设施，并且持续进行大规模的科技探索。这种长远的策略让Deepseek在资源和效率的利用上，走在了行业的前列。

在深度求索的过程中，Deepseek的创始人梁文锋展现出高度的技术理想主义。他与团队中的研究员们始终保持低调作风，专注于学术研究和技术发展。梁文锋在采访中提到，公司降价的根本原因是因为其研究成果和下一代模型探索的成功，为整个行业的技术普及贡献自己的力量。在他看来，API和AI技术应该是普惠的，人人都能负担得起的。

Deepseek被称为“AI界拼多多”，其低价策略引发了国内多家科技巨头的跟进，尤其在字节、腾讯、百度和阿里巴巴等公司纷纷开启大模型价格战的背景下，Deepseek迅速在行业中占据了一席之地。

在未来，Deepseek将继续充分投入AI领域，以不断创新的姿态推动技术进步和生态的全面发展。在全球AI市场竞争日益激烈的今天，Deepseek的成长之路不仅为中国的AI产业增添了新的动力，也为全球AI创新生态的构建注入了新的活力。