问小白发布新模型：元石反思型生成式模型，实力超越OpenAI o3-mini

时间：2025-07-11 01:20

小编：小世评选

近日，问小白研发团队正式推出了“元石反思型生成式模型”，简称“元石”，这是一个全新的生成式模型，致力于在“深度推理”和“优质推理链路筛选”之间达到最佳平衡，展现出独特的智能化优势。该模型的发布标志着问小白在人工智能领域的一次重要突破，并在与OpenAI的o3-mini模型进行性能对比中展现了明显的优势。

在当今信息过载的时代，机器学习算法的效率、准确性和适应性显得尤为重要。问小白的研发团队意识到，单一的推理能力已无法满足日益增加的需求。因此，他们研发的元石模型采用了一种新颖的范式，使得模型能够在推理过程中实时进行自我反馈，优化其推理质量。通过共享过程评分和策略模型的主干网络，元石模型能够在处理复杂任务时同时展现较高的解析深度和严谨的推理链路选择能力。

元石模型的核心技术在于其训练过程中的创新方法。它采用了一种端到端的训练方式，实施使用结果奖励标签对监督过程评分模型进行优化，并引入了一种具有前瞻性的任务特定头（Task-specific Head），使得模型能够更快速、更准确地为复杂问题生成答案。团队还揭示了大模型在思考长度与其性能之间的关系，通过量化模型的推理曲线，进一步优化拖延时间与计算成本之间的平衡。

在实际应用中，问小白针对不同推理模式进行了全面的测试，选择了一些国际权威的测试基准，包括高难度的“All-American Math Competition”(AIME 24、25)以及被广泛认可的代码能力测试“LiveCodeBench”。对于中文推理任务，则选用了中文科学问答基准“C-EVAL”。通过多次测试以获得平均结果，元石模型在低和中等推理模式下的表现均超过了OpenAI的o3-mini模型，即便是在高推理模式下，元石仍然在中文推理任务上展现出强劲的性能，虽然在数学和代码任务上存在一定差距，但这一表现与采用的早期基座模型（QwQ-32B）相关。未来，问小白计划继续迭代改进自研的基座模型，以进一步提升元石的性能。

值得一提的是，元石模型的结构也进行了合理的设计，使得其推理过程具备较低的推理成本。这一核心优势使得该模型不仅在准确率上保持优势，还能在速度和资源消耗上具备较高的性价比。同时，问小白对其研发的透明度也表现出了高度的重视。元石的论文、代码和模型权重均已开源，旨在推动学术界和开发者社区的合作与交流。

具体而言，问小白研发的模型实现了推理能力与过程评分的高度统一。通过设计共享骨干网络的策略模型与自我监督过程奖励模型（SPRM），实现了模型在生成答案的同时能够自我评估其过程的质量。这种设计不仅减少了对外部奖励模型的依赖，还能够通过反馈机制提升模型的推理质量。这一独特的创新显著增强了模型的智能化水平，使得其在复杂任务的推理能力上形成了较强的竞争力。

元石还展示了其在实际操作中的“瞬间领悟”（Aha Moment）。在训练过程中，该模型随着对数据和过程评分的不断学习，逐步提升了对低质量推理步骤的判别能力，并能够有效降低低得分样本的评分趋势。这一过程不仅突显了元石在自我优化能力上的优势，也为今后的模型训练提供了新的视角。

问小白的成立宗旨是让优质的AI技术惠及更广泛的用户群体。通过推出不同规模的元石模型，包括1.5B、7B和32B版本，问小白努力为推理模型的提升提供新的方案和思路。他们的目标是开发出更轻量且高效的推理模型，从而在公众和科研领域共同推动通用智能的发展，创造更大的社会价值。

随着元石反思型生成式模型的发布，问小白在AI领域掀起了一阵波澜。期待他们未来继续在技术创新与开放合作的道路上，加速推进人工智能的发展与应用，为更广泛的人群提供先进的智能服务。

问小白发布新模型：元石反思型生成式模型，实力超越OpenAI o3-mini

精品推荐

相关文章