Open Reasoner Zero：国内大模型新突破，100%开源训练代码与数据

时间：2025-03-01 02:10

小编：小世评选

在最近的AI领域发展中，国内大模型的进步不断令人惊叹。其中，“阶跃星辰”与清华大学联合发布的“Open Reasoner Zero”（ORZ）项目是值得关注的一项成果。相较于以往的模型，ORZ的最大亮点在于其完全开源的训练代码与数据，标志着中国AI研究在透明化和合作化方面的重要一步。

与之前的DeepSeek项目相比，虽然DeepSeek提供了许多开源资源，但却没有开放训练代码和数据，而ORZ则在这方面完全解锁，为研究者和开发者提供了宝贵的工具和机会。根据阶跃星辰的官方发布，ORZ团队在不到48小时内便获得了700多个GitHub星标，显示出极高的关注度和期待。

训练过程中的显著进展

Open Reasoner Zero的训练过程在多个方面展现出其独特性。通过仅使用17%的训练步骤，ORZ就能达到与DeepSeek-R1-Zero（671B模型）相媲美的表现。这一惊人的效率让研究团队意识到，模型的性能并非单一依赖于训练步骤的数量，而是与设计的训练策略密切相关。

特别值得一提的是，在训练过程中的680步时，ORZ的训练奖励值、反思能力与响应长度同时出现显著提升，这一现象与DeepSeek-R1-Zero论文中提出的“顿悟时刻”（aha moment）相似。这种现象的出现表明，在特定的训练阶段，模型的潜力能够被有效激发，从而带来质变。

奖励函数的简约性

ORZ团队通过大量实验验证，复杂的奖励函数并非实现有效训练所必需的。他们提出，使用GAE（Generalized Advantage Estimation）的原版PPO方法，即可在强化学习的训练中获得理想的结果，关键参数设置为GAE λ= 1和折扣因子 γ=1。他们还进一步证明，结合基于规则的奖励函数不仅可以提高响应长度，同时也能在推理任务中提升基准性能。

这一成果挑战了当前普遍接受的观点，即复杂的奖励函数是强化学习成功的必要条件。这也为未来大规模强化学习模型的扩展提供了新的希望。

数据的重要性

ORZ的另一个关键成果在于训练数据的质量与多样性。团队发现，在像MATH这样规模有限的数据集上训练，模型的性能很快会达到瓶颈，无法得到进一步提升。而通过构建一个规模庞大且多样化的数据集，能够在训练的各个阶段持续获得性能提升，无论是在训练集还是测试集上均到数据扩展的潜力。

实验结果显示，在基础模型Qwen2.5-Base-7B上进行的所有基准测试，都在某一时间点经历了奖励与响应长度的突然增加，从而引发了涌现行为的出现。这种行为不仅符合了团队的预期，且在不同训练阶段之间呈现出不一致性，揭示出模型在某些巡回中的潜在动力学变化。

在快速发展的AI领域，这种数据驱动的训练方法将为未来的研究提供重要的思路与方向。越来越多的研究者认识到，原始数据的多样性与丰富性对于训练框架的重要性不可忽视。

强化学习的未来展望

在多个领域中，特别是在训练稳定性方面，ORZ团队的成果与传统观点形成了鲜明对比。他们实现了在没有任何基于KL正则化技术支持的情况下，依然能保持训练的稳定性。这意味着，在强化学习与推理模型的交叉领域，将有更多可能性等待人们去探索。

团队还揭示了训练过程中“平均正确反思长度”（Average Correct Reflection Length）始终高于“平均响应长度”（Average Response Length）的现象，这说明模型在推理任务中具备了更强的理解与反思能力。

Open Reasoner Zero的发布标志着国内大模型研究的又一里程碑，为科研人员提供了全面的资源，促进了AI领域内的开源合作与创新。阶跃星辰与清华大学的这项成果不仅为理论提供了新的视角和方向，也为实际应用奠定了基础。未来，在持续的研究与开发中，ORZ团队有望推动更大规模的AI模型发展，让大家共同期待这一领域的更多突破。

如您对该项目感兴趣，您可以通过以下链接了解更多信息并参与讨论：

项目地址：[Open Reasoner Zero GitHub](https://github/Open-Reasoner-Zero/Open-Reasoner-Zero/)

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨西风。欢迎关注以获取更多更新与信息。

Open Reasoner Zero：国内大模型新突破，100%开源训练代码与数据

精品推荐

相关文章