OpenAI o3 AI模型基准测试引发透明度质疑，独立测试结果大幅低于公司声称得分

时间：2025-06-02 03:35

小编：小世评选

近日，OpenAI 的 o3 人工智能模型引发了外界对其透明度的广泛讨论。根据最新的报道，OpenAI 在发布 o3 模型时宣称其在 FrontierMath 数据集上的表现优异，能够正确回答超过四分之一的数学问题。独立研究机构 Epoch 的测试结果显示，o3 模型的实际得分仅为10%，远低于 OpenAI 自己发布的数据。这一差异不仅引发了对 OpenAI 透明度的疑虑，也对整个人工智能行业的基准测试实践提出了新的挑战。

自去年12月 o3 模型发布以来，OpenAI便进行了积极的市场宣传。OpenAI 首席研究官 Mark Chen 在中表示，与市场上竞争对手相比，o3 的表现是占据了领先地位，正如他所提到的：“目前市场上所有其他产品在 FrontierMath 上的成绩都不足 2%，而我们在内部测试中使用 o3 模型的得分超过 25%。”此言论在业界引起了极大反响，许多专家和用户对该模型寄予厚望。

Epoch 研究所近期公布的独立基准测试结果却揭示了 o3 模型表现的另一面。该机构测试的结果显示，o3 模型的得分仅为10%。这一结果不仅显著低于OpenAI的声称，也让市场开始质疑OpenAI内部测试的科学性和公正性。Epoch在报告中提到，得分差异可能是因为OpenAI在内部评估时使用了更强大的计算框架和资源，甚至可能是因为测试时使用了不同的测试子集。

尽管OpenAI在早期的基准测试中也公布了一个相对较低的得分，但大多数公众关注的仍然是其最高分数。这样的现象并不罕见，因为在人工智能行业以性能和准确度为竞争主要驱动力的背景下，如何展示尽可能好的基准测试结果成为了相当重要的营销策略。值得注意的是，Epoch的测试和报告不仅确认了得分的差异，也指出所有发布的o3计算层级都比他们测试的版本要小。一般较大的计算层级有助于提高模型在基准测试中的表现，这意味着OpenAI可能为了产品发布而进行了某种程度的妥协。

ARC Prize 基金会，这一测试了 o3 预发布版本的组织，也证实了Epoch 的发现，称公开发布的 o3 模型是一个为聊天或产品使用而进行调整的不同版本。这进一步表明OpenAI的市场发布与其内部测试之间的差距。

尽管如此，OpenAI的o3模型并不完全失去吸引力。公司后续发布的 o3-mini-high 和 o4-mini 模型在 FrontierMath 数据集上的表现已超越了最初的o3。这表明，尽管存在透明度的问题，OpenAI仍在持续推动技术的进步。

这场争议并不是孤立的。今年早些时候，Epoch曾因未及时披露其与OpenAI资金支持的关系而受到批评，导致不少学者对OpenAI的赞助情况感到困惑。类似的事件在人工智能行业频繁发生，例如，埃隆·马斯克的xAI也因其新发布的GroK 3模型的误导性基准测试图表而饱受争议。并且，Meta也承认其宣传的基准测试数据与提供给开发者的版本并不一致。

结合这些信息，可以看出人工智能行业的现实远比宣传的光鲜亮丽。在技术快速发展和市场竞争加剧的环境下，企业更容易受到诱惑去优化展示给外界的结果。OpenAI的o3模型基准测试问题，再次提醒我们在面对任何产品测试结果时，公众应保持一定的谨慎态度，尤其是来自有商业利益的公司的结果。

是，随着人工智能模型的不断推陈出新，如何建立透明、公正、标准化的基准测试机制，将是行业未来发展的重要课题。希望未来有更多的第三方机构参与模型测试，以提供更可靠的数据支持，提升整个行业的可信度和透明度。

OpenAI o3 AI模型基准测试引发透明度质疑，独立测试结果大幅低于公司声称得分

精品推荐

相关文章