阿里正式发布全新开源代码模型 Qwen3-Coder，参数量达4800亿

时间：2025-07-26 09:35

小编：小世评选

近日，阿里巴巴公布了其全新的开源代码模型 Qwen3-Coder，标志着在人工智能和机器学习领域的一次重大进展。据悉，此次发布的模型具有多个尺寸，其中最强大的版本被称为 Qwen3-Coder-480B-A35B-Instruct，拥有高达4800亿的总参数量，激活参数达到350亿。这款模型的设计强调了代码生成的能力，针对开发者和研究人员的实际需求，推动了编程领域的智能化进程。

Qwen3-Coder 的设计理念是通过混合专家（MoE）模型来提升其性能。这一模型不仅支持高达256K tokens的上下文处理能力，还支持通过YaRN技术扩展至1百万token，意味着其在处理复杂编程任务时的灵活性和能力将更为突出。Qwen3-Coder 能够支持多达358种编程语言，满足了广泛的行业需求，展现出强大的代码生成和理解能力。

在注意力机制的设计方面，Qwen3-Coder采用了分组查询注意力（GQA）方案，设有96个查询注意力头和8个键/值注意力头，并经过精心调整以确保160个专家中的8个专家在特定任务中被激活。这种高效的配置优化了模型的计算资源，为编程任务提供了稳定可靠的支持。

Qwen3-Coder在预训练阶段的策略尤为重要。研究团队从数据、上下文和合成数据三个不同维度进行全面扩展，以提升模型的代码能力。后训练阶段则专注于丰富的真实代码任务，通过代码强化学习（Code RL）进行训练，提高模型的实际代码执行率。这一过程不仅增强了代码的生成和执行能力，还带动了其他相关任务的改进，显著提升了模型的整体表现。

来自网络的反馈显示，Qwen3-Coder的首次亮相引起了广泛关注，代码库上线仅一小时即获得了超过5100个Star，显示出开发者对这一模型的极大兴趣。阿里巴巴还推出了一款基于Qwen3-Coder的命令行工具 Qwen Code，使开发者能够更加便捷地进行代理式编程。Qwen Code 的开发在于适配提示词和工具调用协议，极大地增强了 Qwen3-Coder 在实际应用中的表现能力。

该模型通过与AI社区中的优秀工具进行结合，例如Claude Code、Cline等，扩展了其应用范围。同时，开发者也可以通过阿里云的Model Studio调用Qwen3-Coder的API，为多种应用场景提供了支持。

值得注意的是，在实际测试中，Qwen3-Coder展现出色的编程水平。根据报道，用户在提示“克隆推特网页设计和UI”时，Qwen3-Coder生成的代码效果相当令人满意，较之ChatGPT（免费版）所产生的结果，前者在视觉元素和功能性方面显然更胜一筹。Qwen3-Coder在创建简单的网页乒乓球游戏时，仅需要一句提示，便能快速生成高质量的代码并顺利运行，其表现令人惊喜。

Qwen3-Coder的发布并非偶然，而是阿里在Qwen系列模型迭代过程中的重要一步。三个月前，阿里就推出了Qwen3系列模型，其中的旗舰模型Qwen3-235B-A22B参数量达到2350亿，而Qwen3-30B-A3B则为300亿。这些模型的不断迭代和优化，不仅提升了其在多项任务中的性能，还为开源社区注入了新鲜的活力。

近日，阿里在更新Qwen3系列模型时宣布不再采用混合思维模式，将专注于分别训练Instruct和Thinking两种不同类型的模型，以求在性能上达到最佳的效果。这一转变显示出阿里在AI模型训练策略上的前瞻性和灵活性，让人对未来的模型更新充满期待。

无论是Qwen3-Coder还是更新后的Qwen3-2507，它们都体现出阿里在AI开源领域的雄心与实力。借助这些卓越的模型，中国在全球AI开源领域占据了重要席位，推动了AI技术的广泛应用与普及，为开发者和研究人员提供了丰富的工具和资源。同时，这些模型对产业应用、学术研究及人才培养将发挥不可估量的作用，有助于加速中国在AI领域的进步，让更多开发者加入到人工智能的创新浪潮中，为构建一个更加开放和繁荣的AI生态贡献力量。

阿里正式发布全新开源代码模型 Qwen3-Coder，参数量达4800亿

精品推荐

相关文章