阿里正式发布全新开源代码模型 Qwen3-Coder,参数量达4800亿
时间:2025-07-26 09:35
小编:小世评选
近日,阿里巴巴公布了其全新的开源代码模型 Qwen3-Coder,标志着在人工智能和机器学习领域的一次重大进展。据悉,此次发布的模型具有多个尺寸,其中最强大的版本被称为 Qwen3-Coder-480B-A35B-Instruct,拥有高达4800亿的总参数量,激活参数达到350亿。这款模型的设计强调了代码生成的能力,针对开发者和研究人员的实际需求,推动了编程领域的智能化进程。
Qwen3-Coder 的设计理念是通过混合专家(MoE)模型来提升其性能。这一模型不仅支持高达256K tokens的上下文处理能力,还支持通过YaRN技术扩展至1百万token,意味着其在处理复杂编程任务时的灵活性和能力将更为突出。Qwen3-Coder 能够支持多达358种编程语言,满足了广泛的行业需求,展现出强大的代码生成和理解能力。
在注意力机制的设计方面,Qwen3-Coder采用了分组查询注意力(GQA)方案,设有96个查询注意力头和8个键/值注意力头,并经过精心调整以确保160个专家中的8个专家在特定任务中被激活。这种高效的配置优化了模型的计算资源,为编程任务提供了稳定可靠的支持。
Qwen3-Coder在预训练阶段的策略尤为重要。研究团队从数据、上下文和合成数据三个不同维度进行全面扩展,以提升模型的代码能力。后训练阶段则专注于丰富的真实代码任务,通过代码强化学习(Code RL)进行训练,提高模型的实际代码执行率。这一过程不仅增强了代码的生成和执行能力,还带动了其他相关任务的改进,显著提升了模型的整体表现。
来自网络的反馈显示,Qwen3-Coder的首次亮相引起了广泛关注,代码库上线仅一小时即获得了超过5100个Star,显示出开发者对这一模型的极大兴趣。阿里巴巴还推出了一款基于Qwen3-Coder的命令行工具 Qwen Code,使开发者能够更加便捷地进行代理式编程。Qwen Code 的开发在于适配提示词和工具调用协议,极大地增强了 Qwen3-Coder 在实际应用中的表现能力。
该模型通过与AI社区中的优秀工具进行结合,例如Claude Code、Cline等,扩展了其应用范围。同时,开发者也可以通过阿里云的Model Studio调用Qwen3-Coder的API,为多种应用场景提供了支持。
值得注意的是,在实际测试中,Qwen3-Coder展现出色的编程水平。根据报道,用户在提示“克隆推特网页设计和UI”时,Qwen3-Coder生成的代码效果相当令人满意,较之ChatGPT(免费版)所产生的结果,前者在视觉元素和功能性方面显然更胜一筹。Qwen3-Coder在创建简单的网页乒乓球游戏时,仅需要一句提示,便能快速生成高质量的代码并顺利运行,其表现令人惊喜。
Qwen3-Coder的发布并非偶然,而是阿里在Qwen系列模型迭代过程中的重要一步。三个月前,阿里就推出了Qwen3系列模型,其中的旗舰模型Qwen3-235B-A22B参数量达到2350亿,而Qwen3-30B-A3B则为300亿。这些模型的不断迭代和优化,不仅提升了其在多项任务中的性能,还为开源社区注入了新鲜的活力。
近日,阿里在更新Qwen3系列模型时宣布不再采用混合思维模式,将专注于分别训练Instruct和Thinking两种不同类型的模型,以求在性能上达到最佳的效果。这一转变显示出阿里在AI模型训练策略上的前瞻性和灵活性,让人对未来的模型更新充满期待。
无论是Qwen3-Coder还是更新后的Qwen3-2507,它们都体现出阿里在AI开源领域的雄心与实力。借助这些卓越的模型,中国在全球AI开源领域占据了重要席位,推动了AI技术的广泛应用与普及,为开发者和研究人员提供了丰富的工具和资源。同时,这些模型对产业应用、学术研究及人才培养将发挥不可估量的作用,有助于加速中国在AI领域的进步,让更多开发者加入到人工智能的创新浪潮中,为构建一个更加开放和繁荣的AI生态贡献力量。