OpenAI发布首款开源语言模型GPT-oss,重返开源生态
时间:2025-08-08 00:30
小编:小世评选
2023年8月6日,OpenAI正式发布了其首款开源语言模型——GPT-oss,标志着这家科技公司在AI模型的开发上重新迈入开源领域。此次推出的两款开源模型,分别为GPT-oss-120b和GPT-oss-20b,自2020年发布GPT-2以来,OpenAI首次回归开源生态。用户可以在Hugging Face上免费下载这两个模型,OpenAI表示这两款模型在多个基准测试中均展现了优异的性能,处于开源模型的前沿水平。
根据OpenAI的介绍,GPT-oss系列模型采用了先进的预训练和后训练技术,特别关注推理效率和多种部署环境的适用性。这两款模型均基于专家混合(MoE)架构的Transformer设计,这种架构的主要任务是减少处理输入时所需的活跃参数数量,从而提升模型的运行效率。具体而言,GPT-oss-120b在每个token激活5.1亿个参数,总参数量达1170亿,而GPT-oss-20b则激活3.6亿参数,总参数量为210亿。这两款模型支持高达128k的上下文长度,适合处理复杂的自然语言任务。
在性能测试方面,GPT-oss-120b在核心推理基准中接近OpenAI的o4-mini模型的水平,在多个领域表现优异。例如,在竞赛编码(Codeforces)和通用问题求解(MMLU、HLE)中,其表现超越了o3-mini,而在健康相关查询和竞赛数学的评估中甚至优于o4-mini。值得一提的是,尽管GPT-oss-20b的规模较小,但在类似的评估中也达到了与o3-mini相当的性能,尤其在竞赛数学与健康领域显现出强大的能力。
OpenAI此次发布开源模型,标志着其在开源技术方面态度的转变。2023年初,DeepSeek的崛起引发了全球开源AI的热潮,OpenAI的首席执行官山姆·奥尔特曼坦言,OpenAI在开源技术上曾“站在历史的错误一边”。此次转向开源,显然是OpenAI对市场趋势的积极响应,旨在重新融入开源生态,进一步增强其在AI领域的市场竞争力。
市场竞争的加剧是促使OpenAI推出开源模型的重要因素。近年来,许多科技公司和研究机构在开源AI领域积极布局,并陆续推出一系列具有竞争力的模型。例如,谷歌DeepMind在8月4日宣布推出其第三代通用模型Genie 3,展现出在模拟环境领域的强大能力。为应对日益激烈的竞争,OpenAI希望通过开源模型吸引更多开发者和企业参与其生态系统,从而稳固其市场地位。
除了技术层面的准备,OpenAI还与多家知名的芯片制造商,如英伟达、AMD、Cere
as和Groq等企业展开合作,确保其模型能够在多种芯片上稳定运行。英伟达的CEO黄仁勋表示,OpenAI在其合作的AI上推动了开源软件的创新,两个公司的协作将进一步提升OpenAI模型的性能,带来更优质的用户体验。
虽然OpenAI的开源模型在性能方面表现不俗,但相较于o3和o4-mini模型,它们在生成内容时更容易出现“幻觉”现象,导致回应无关或不准确。OpenAI解释称,由于这些较小模型的知识基量相对较少,因此更容易产生这样的现象。在其内部测试中,GPT-oss-120b和GPT-oss-20b分别对49%和53%的问题产生幻觉,显著高于o4-mini模型的36%。对此,OpenAI表示已在预训练阶段过滤掉了与化学、生物、放射性和核(CBRN)相关的有害数据,并对模型进行了专门的微调,以降低潜在风险。
随着GPT-oss的发布,行业内对OpenAI未来的重磅产品充满期待,特别是关于即将推出的GPT-5模型的信息日渐增多。市场普遍预期,GPT-5将围绕“简化、统一和多模态”展开,整合GPT系列基础模型、o系列推理模型及GPT-4o全模态模型的三方能力。奥尔特曼早在2025年2月就曾透露,GPT-5将会简化产品线,以实现更强大、更统一的功能。根据中信证券的研究报告显示,GPT-5预计在单次推理的算力消耗上目的不会大幅增加,API价格有望保持不变,推理性价比预计提升一倍以上,从而显著改善AI应用的盈利能力。
OpenAI的开源策略不仅是技术转型,更是对市场需求的及时回应。此举必将吸引更多开发者参与到OpenAI的生态中,进一步巩固其在AI领域的领导地位。未来,随着新产品的发布和技术的持续进步,我们有理由期待OpenAI在开源生态及人工智能领域的更多突破。