DeepSeek发布新模型V3.2-Exp:长文本处理效率大幅提升,API价格降低50%
时间:2025-10-02 15:50
小编:小世评选
来源:硅星人Pro
在人工智能领域,各家公司的新产品发布节奏各不相同。OpenAI 和Google之间的竞争时常成为焦点,而在国内,DeepSeek的“假期前新品发布”则引发了广泛关注。基于以往的习惯,DeepSeek在国庆前夕如期推出了其最新模型——DeepSeek V3.2-Exp。
新模型的“Exp”后缀代表其实验性定位,核心创新为引入了一项名为DeepSeek Sparse Attention(DSA)的新架构。此架构实现了细粒度的稀疏注意力机制,在几乎不影响模型效果的情况下,显著提升了长文本的训练与推理效率。同时,DeepSeek还使得API服务的费用大幅降低,开发者使用新API的成本可减少超过50%。
DeepSeek在官方说明中指出,V3.2-Exp不是全新的模型系列,而是朝向下一代架构的“中间步骤”。这一模型基于V3.1-Terminus,通过“持续训练”方式,引入和验证了DSA机制,以期为长文本的训练与推理效率做出“探索性优化和验证”。
长文本处理的挑战主要源自传统的“稠密”注意力机制,其成本在长文本中将呈指数级增长。DSA则提供了一种更高效的“稀疏”方案,允许模型在处理每个字符时仅关注与其最相关的少数信息,这在理论上大大提高了效率。要实现这一高效的“稀疏”机制,DeepSeek采取了一系列工程设计选择。例如,新的架构使用了一个更为简化的128维FP8精度Lightning Indexer(闪电索引器),来取代之前相对复杂的注意力机制。这种索引器本身只负责简单的快速查找,而重要信息的核心计算依然使用完整的FP16全精度处理。这种极致压缩成本的策略,使得注意力计算成本降低近九倍。
DeepSeek投入资源研发DSA的直接原因,除了提升处理效率外,另一个深层的考虑是传统注意力机制可能出现的“注意力悬崖”,即在特定上下文长度后,模型处理能力骤降的现象。因此,DSA的主要目标在于为未来更长文本场景探索一种避免这一问题的根本解决方案。这次的发布也是对该解决方案的一次大规模公开验证。
新架构的效果如何,自然需要通过严谨的基准测试来证明。DeepSeek公布了详细的评测数据,结果显示,V3.2-Exp在核心能力上与前代模型V3.1-Terminus表现基本相同。在代码生成(HumanEval)、数学推理(GSM8K)和通用知识(MMLU)等多个评测集上,V3.2-Exp的得分与V3.1的差距均在1%以内,这意味着在效率提升的同时,模型性能得以保留。
DeepSeek在发布V3.2-Exp的同时,大幅降价其API服务,涵盖了从V2到V3.1等多个模版本。业内人士指出,DeepSeek的策略可视为“以价换量”,不仅希望增加用户量,也为新的架构收集海量的使用数据。通过合理的价格策略,DeepSeek鼓励广大开发者在实际应用中调用其服务,这为V3.2-Exp的性能提供了压力测试环境。
V3.2-Exp的亮相在Reddit、Hacker News等技术社区引发热烈讨论。许多用户对新模型表示期待,一些用户在使用中取得了优秀的效果,甚至有网友惊叹称其“创新速度如光速”。更多讨论则集中在其优越的性价比上,许多用户证实V3.2的推理成本显著降低,而性能依旧保持了较高水平。这种“性能不降、费用降低”的创新被普遍认为是向模型服务普惠化迈出的重要一步。
反馈中也难免出现质疑。有用户发现,在某些特定测试中,新版本的表现不如旧版,同时,关于DSA稀疏注意力机制是否会在某种程度上牺牲上下文性能的争论仍在社区内继续。还有人对DeepSeek的低价策略能否可持续性存在担忧。
DeepSeek的此次发布还意外地引起了对国产编程语言的关注。为帮助开发者更好地利用新架构,DeepSeek开源了DSA中一些关键组件的CUDA算子,并在技术文档中提到了一种名为TileLang的工具。TileLang是由北大团队研发的一种新型编程语言,旨在简化复杂GPU算子的开发,开发者使用TileLang可大幅降低底层优化的门槛和成本。目前,TileLang不仅支持英伟达的CUDA,也已兼容国产芯片如华为昇腾等。
深度学习行业人士认为,DeepSeek此次的进展,是在推动和验证国产AI软硬件生态的协同发展。这表明,国内大模型公司在进行算法架构创新的同时,也积极支持本土技术进步。
不久前,Google也发布了其最新的轻量级模型—Gemini 2.5 Flash-Lite,虽然目标同样是追求极致性价比,但两者的实现路径有所不同。Gemini侧重于通过模型蒸馏等方法优化参数和性能,而DeepSeek则通过底层注意力机制的革新进行提升。虽然路径不同,目标一致的都是为用户提供普惠的高性能AI解决方案。
这种由基础架构创新带来的成本结构变化可能对行业未来产生深远的影响,更多开发者与中小企业可以以更低的成本使用高水平的大模型,这也将影响到传统闭源模型的利润空间及策略。DeepSeek的DSA技术实验不仅传递了其在智能前沿持续探索的决心,也为V4架构勾勒出了清晰的轮廓,进而可能影响到整个行业的发展进程。董事会的信号预示着,我们距离DeepSeek V4及其后续产品的问世,将不再遥远。