中国科技创新新突破：DeepSeek推出领先推理模型，开启AI开源新纪元

时间：2025-06-30 13:35

小编：小世评选

作者：招商证券股份有限公司金融科技中心AI开发团队张甜瑾

近期，深度求索（DeepSeek）发布了其最新推理模型DeepSeek-R1，标志着中国科技企业在技术、业务与组织三位一体的协同创新方面实现了显著突破。DeepSeek-R1的推出旨在为证券行业以及其他产业提供智能化转型解决方案，这不仅为行业智能化升级设立了新的标杆，也预示着中国在人工智能技术领域从“追随者”步入“引领者”的新时代。

2025年1月20日，DeepSeek正式发布了DeepSeek-R1推理模型，紧接着于2月24日至3月1日间，他们创新性地开展了“技术开源周”活动，将经过验证的高效加速模块的源代码公开发布，形成了完整的开源生态系统，涵盖了从算法创新到工程落地的全过程。

DeepSeek-R1受到广泛关注主要基于两个原因：一方面，在OpenAI的模型完全闭源且API费用高昂的背景下，DeepSeek团队成功复现了类似于OpenAI o1的推理能力，为全球开发者和企业提供了可用的解决方案；另一方面，DeepSeek-R1在算力资源有限的条件下，通过强大的算法创新突破了算力瓶颈，从而展示了在资源限制下取得全球领先成果的潜力。DeepSeek-R1还支持模型蒸馏，使用户能够围绕该模型训练其他专用模型，推动AI技术的普及和创新。

在大模型的训练过程中，强化学习（RL）作为后期关键优化手段，对于提升特定任务表现及实现生成性 tugas的人类偏好对齐具有重要价值。DeepSeek-R1创新性地构建了一个多阶段的协同训练体系，结合了监督微调（SFT）与强化学习。尤其自研的GRPO（Group Relative Policy Optimization）算法，通过样本输出平均奖励基准化技术，成功解决了传统强化学习在训练过程中的数据偏依赖问题。

DeepSeek-R1的训练流程分为几个核心阶段。冷启动阶段从预训练模型DeepSeek-V3-Base开始，利用高质量的长链式思维数据进行监督微调，并为后续强化学习奠定基础。在推理导向的强化学习阶段，自研的GRPO将通过设定奖励函数，激励模型生成逐步推理的正确解。而在拒绝采样与监督微调的阶段，对强化学习输出的样本进行质量筛选，构建高可信度的数据集，从而提升语言的流畅性和表达质量。

在大模型的训练与推理技术中，DeepSeek通过全栈式技术革新，构建了包含硬件适配、软件架构设计、数据处理优化等多个层面的协同优化体系，涵盖了多项自主知识产权的技术突破。其核心创新成果包括专家混合（MoE）架构、多头潜在注意力机制、深度通信优化框架和高性能矩阵乘法库等，为大规模模型训练提供了有力支持。

同时，DeepSeek-R1的开源模型涵盖了671B全参数量及多个基于Qwen/Llama系列的蒸馏版本。对此，DeepSeek还给出了推荐的部署建议，包括量化技术以降低显存占用、结合高效的推理框架以提升速度以及云的推荐，以支持更大规模的模型部署。

尽管DeepSeek-R1在一些通用基准测试中表现优异，接近GPT-4Turbo的水平，但在高精度场景中仍面临挑战，特别是在处理“幻觉率”方面。在未来的技术发展中，模型的能力扩展与可控性强化，以及动态工作流的编排、过程可解释性等都将成为关键的竞争维度。

DeepSeek通过开源周及其技术创新对AI生态产生了深远影响。其算法优化不仅减少了对高端图形处理器的依赖，还推动了算力市场向“训练与推理并重”的方向转型。同时，DeepSeek的开源战略促进了技术的普及，变革了行业的竞争格局，尤其是在中小厂商利用算法突破实现快速发展的机遇方面。

中国的金融行业也将因此受益，随着DeepSeek的开源，更多业务场景如投顾、投研等将迎来新的发展机遇。由于AI的快速迭代与技术普惠化，各类企业，无论规模大小，都能借助DeepSeek的模型实现快速构建专用模型，不断推动AI技术的下沉与普及。

未来，DeepSeek将与开源社区紧密合作，共同探索AI与业务场景的深度融合，并为金融科技及其他行业带来更多的创新与发展。

中国科技创新新突破：DeepSeek推出领先推理模型，开启AI开源新纪元

精品推荐

相关文章