DeepSeek发布升级版R1模型超越OpenAI o3但仍逊色于国际顶尖模型

时间：2025-06-11 01:35

小编：星品数码网

5月29日，国内人工智能领域的重要企业DeepSeek（深度求索）正式推出了其R1模型的最新升级版本，经过四个月的精心研发与优化，新的DeepSeek-R1-0528模型在多项性能指标上取得了显著进步。根据中文大模型权威评测机构SuperCLUE于6月4日发布的测评结果，新版R1模型在总体表现上超越了OpenAI的o3模型，然而与国际顶尖的o4-mini(high)、谷歌的Gemini 2.5 Pro等高性能模型相比，仍有一定的差距。

DeepSeek在此次模型升级中着重加强了后训练过程的算力投入，显著提高了模型在思维深度和推理能力上的表现，使得新版R1能够在数学、编程及通用逻辑等多个基准测试中表现优异。在各项测评中，新版R1模型的表现几乎与o3以及Gemini 2.5 Pro相当，展现了强大的竞争力。

据了解，与旧版R1相比，升级版R1在处理复杂推理任务时的能力得到了显著提升。例如，在AIME 2025测试中，新的模型在数学推理能力上的准确率由原来的70%提升至87.5%，这一进步表明DeepSeek在推理能力上的有效提升，这也让新版R1备受关注。

根据SuperCLUE的测评结果，DeepSeek的新版R1模型在发布的测试榜单中排名第四，总分为63.55，较旧版R1提升了1.61分。这一成绩展现了新版R1在与国际知名模型竞争中的不断进步，特别是在o4-mini(high)的70.51分和Gemini 2.5 Pro的66.48分面前，R1依然需要继续努力。

新版R1模型在指令遵循能力方面的提升也得到了验证，其得分达到了48.46，较旧版提升了17.09分，然而与国际顶尖模型o3（66.95分）和o4-mini(high)（68.07分）之间依旧保持着显著差距。这显示出DeepSeek在实现指令遵循的能力上，依然需要持续的优化和改进。

在推理能力方面，虽然新版R1模型在整体表现上有所提升，但在推理能力的具体得分上却比旧版R1低了1.7分，显示出新版模型在特定任务上的挑战。这一成绩主要由数学推理、科学推理和代码三个任务评分的平均值决定，尽管新版R1在代码相关任务上表现更为优秀，但在数学和科学推理能力上仍需弥补不足。

值得一提的是，DeepSeek在此次R1模型升级中特别针对“幻觉”问题进行了优化，新的模型在改写、归纳和阅读理解等应用场景中，幻觉发生率下降了约45%-50%，这一改进对模型提供准确、可靠结果的能力起到了积极的促进作用。

SuperCLUE于6月5日发布的另一项测评结果显示，新版R1模型的中文幻觉率降至13.86%，下降了7.16个百分点，尽管如此，其与在幻觉率指标上表现最优的豆包doubao-1.5-pro-32k模型（仅4.11%）仍有显著差距。在文本摘要和阅读理解任务上，新的R1模型也展现出了优化的成果，幻觉率在这两个领域分别降低了9.27%和14.49%。

DeepSeek的R1模型Upgrade不仅在多项指标上展现出明显的改进，超越OpenAI o3，是国内模型研发的重要里程碑。面对国际顶尖模型尚有差距，DeepSeek仍需继续在模型性能的提升、算法优化及多元化应用方面强化其研发力量。未来，DeepSeek能否在激烈的人工智能模型竞争中实现更进一步的发展，值得行业内外的持续关注。

DeepSeek发布升级版R1模型超越OpenAI o3但仍逊色于国际顶尖模型

精品推荐

相关文章

DeepSeek发布升级版R1模型 超越OpenAI o3但仍逊色于国际顶尖模型

精品推荐

相关文章

DeepSeek发布升级版R1模型超越OpenAI o3但仍逊色于国际顶尖模型