字节跳动发布Seed1.5-Thinking技术报告：卓越推理模型展现强大实力

时间：2025-09-12 08:50

小编：星品数码网

近日，字节跳动正式发布了《2025年思考模型Seed-Thinking-v1.5技术报告》。该报告详细阐述了Seed1.5-Thinking的创新与突破，展现了其作为一种混合专家模型（MoE）在推理能力上所取得的显著成就。此次发布的技术报告共计19页，不仅为行业提供了重要的实证数据，同时也为未来的AI技术发展指明了方向。

Seed1.5-Thinking的核心竞争力在于其超强的推理能力与高效的应用性能。模型的总参数达2000亿，其中200亿为激活参数，这一结构使得Seed1.5-Thinking在各种复杂任务中能够快速自我调整泛化能力。根据多个权威基准测试的结果，该模型在AIME 2024、Codeforces和GPQA等领域均取得了非凡的成绩，具体得分分别为86.7、55.0和77.3。这些分数不仅展示了其在STEM（科学、技术、工程和数学）及编程领域的强大实力，亦证明了其在非推理任务上的显著泛化能力。相比于同行业的DeepSeek R1，Seed1.5-Thinking的胜率超出8%，充分显示出其在智能推理方面的领先优势。

在模型的开发过程中，字节跳动团队将数据、强化学习算法以及强化学习基础设施视为三大发展核心。关于数据的使用，模型在监督微调（SFT）时依赖链式思维（CoT）的数据集，过度依赖非CoT的数据则可能会影响模型在探索过程中的表现。团队共设计了四类RL训练数据，涵盖STEM问题与编程任务，其中数学领域的数据表现尤为出色，这为各类任务的性能提升奠定了坚实基础。

为了解决模型训练中的不稳定性问题，字节跳动团队研发了VAPO和DAPO两大框架，分别针对演员-评论家算法及策略梯度范式，实现了训练过程的稳固性。VAPO通过优化奖励机制促进了模型学习的互动性，而DAPO则侧重提高训练的收敛速度和稳定性，确保每一次训练的有效性。

在基础设施层面，字节跳动采用了混合引擎架构以提升模型训练的效率。结合Streaming Rollout System（SRS），团队成功缓解了长响应生成中的滞后问题。通过优化多种并行机制与内存管理策略，建立了高效的训练流程，提高了可扩展性和响应速度，使得Seed1.5-Thinking的实际应用能够更为流畅。

通过一系列的评估结果，Seed1.5-Thinking在多个推理任务中的表现与竞争对手相媲美。例如，在AIME 2024的数学推理中，它与OpenAI的o3-mini-high模型持平，但在AIME 2025和BeyondAIME的表现上仍有提升空间。在科学领域的GPQA测试中，其性能接近o3模型，而在编程任务中，Seed1.5-Thinking的表现与Gemini 2.5 Pro相当，在逻辑推理的ARC-AGI任务上更是表现突出。

更为值得一提的是，在人类评估环节，Seed1.5-Thinking在非推理场景中的胜率较DeepSeek R1高出8%，这意味着其在实际应用中更符合人类的思维偏好与使用习惯。

展望未来，字节跳动团队计划进一步探索更高效的强化学习方法，挑战更复杂的任务，以及研究通用奖励建模，以期将模型的智能边界进一步拓展。字节跳动也计划将BeyondAIME和Codeforces等内部基准公开，助力相关领域的研究与发展，推动AI技术的不断进步。

Seed1.5-Thinking的发布标志着字节跳动在推理人工智能领域的一次重要突破。它不仅为行业带来了前沿技术，更是为各种复杂任务的智能化处理提供了有力支持。随着技术的不断迭代与深化，Seed1.5-Thinking可能会在未来的AI应用中扮演更加重要的角色，为我们开启AI智能的新篇章。

字节跳动发布Seed1.5-Thinking技术报告：卓越推理模型展现强大实力

精品推荐

相关文章