DeepSeek发布升级版R1模型 超越OpenAI o3但仍逊色于国际顶尖模型
时间:2025-06-11 01:35
小编:小世评选
5月29日,国内人工智能领域的重要企业DeepSeek(深度求索)正式推出了其R1模型的最新升级版本,经过四个月的精心研发与优化,新的DeepSeek-R1-0528模型在多项性能指标上取得了显著进步。根据中文大模型权威评测机构SuperCLUE于6月4日发布的测评结果,新版R1模型在总体表现上超越了OpenAI的o3模型,然而与国际顶尖的o4-mini(high)、谷歌的Gemini 2.5 Pro等高性能模型相比,仍有一定的差距。
DeepSeek在此次模型升级中着重加强了后训练过程的算力投入,显著提高了模型在思维深度和推理能力上的表现,使得新版R1能够在数学、编程及通用逻辑等多个基准测试中表现优异。在各项测评中,新版R1模型的表现几乎与o3以及Gemini 2.5 Pro相当,展现了强大的竞争力。
据了解,与旧版R1相比,升级版R1在处理复杂推理任务时的能力得到了显著提升。例如,在AIME 2025测试中,新的模型在数学推理能力上的准确率由原来的70%提升至87.5%,这一进步表明DeepSeek在推理能力上的有效提升,这也让新版R1备受关注。
根据SuperCLUE的测评结果,DeepSeek的新版R1模型在发布的测试榜单中排名第四,总分为63.55,较旧版R1提升了1.61分。这一成绩展现了新版R1在与国际知名模型竞争中的不断进步,特别是在o4-mini(high)的70.51分和Gemini 2.5 Pro的66.48分面前,R1依然需要继续努力。
新版R1模型在指令遵循能力方面的提升也得到了验证,其得分达到了48.46,较旧版提升了17.09分,然而与国际顶尖模型o3(66.95分)和o4-mini(high)(68.07分)之间依旧保持着显著差距。这显示出DeepSeek在实现指令遵循的能力上,依然需要持续的优化和改进。
在推理能力方面,虽然新版R1模型在整体表现上有所提升,但在推理能力的具体得分上却比旧版R1低了1.7分,显示出新版模型在特定任务上的挑战。这一成绩主要由数学推理、科学推理和代码三个任务评分的平均值决定,尽管新版R1在代码相关任务上表现更为优秀,但在数学和科学推理能力上仍需弥补不足。
值得一提的是,DeepSeek在此次R1模型升级中特别针对“幻觉”问题进行了优化,新的模型在改写、归纳和阅读理解等应用场景中,幻觉发生率下降了约45%-50%,这一改进对模型提供准确、可靠结果的能力起到了积极的促进作用。
SuperCLUE于6月5日发布的另一项测评结果显示,新版R1模型的中文幻觉率降至13.86%,下降了7.16个百分点,尽管如此,其与在幻觉率指标上表现最优的豆包doubao-1.5-pro-32k模型(仅4.11%)仍有显著差距。在文本摘要和阅读理解任务上,新的R1模型也展现出了优化的成果,幻觉率在这两个领域分别降低了9.27%和14.49%。
DeepSeek的R1模型Upgrade不仅在多项指标上展现出明显的改进,超越OpenAI o3,是国内模型研发的重要里程碑。面对国际顶尖模型尚有差距,DeepSeek仍需继续在模型性能的提升、算法优化及多元化应用方面强化其研发力量。未来,DeepSeek能否在激烈的人工智能模型竞争中实现更进一步的发展,值得行业内外的持续关注。