网易首页 > 网易号 > 正文 申请入驻

阿里发布Qwen3-Coder:4800亿参数,实现开源代码模型新SOTA

0
分享至

今天,阿里全新开源代码模型 Qwen3-Coder 正式发布。

Qwen3-Coder 拥有多个尺寸,此次发布的是最强大的版本,名为 Qwen3-Coder-480B-A35B-Instruct(以下简称 Qwen3-Coder)。

它是一款混合专家(MoE)模型,总参数量高达 4,800 亿,激活参数为 350 亿,原生支持 256K token 的上下文,并可通过 YaRN 扩展到高达 1 百万 token,支持 358 种编程语言。

由于 Qwen3 系列模型的整体调整,Qwen3-Coder 仅支持非思考模式,不生成思考过程。

在注意力机制方面,Qwen3-Coder 采用了分组查询注意力(GQA)方案,配备 96 个查询(Q)注意力头和 8 个键/值(KV)注意力头,并拥有 160 个专家(Expert),其中 8 个专家被激活。

据介绍,预训练阶段,Qwen3-Coder 从数据、上下文、合成数据三个不同角度进行扩展(scaling),以提升模型的代码能力。

在后训练阶段,研究团队选择在更丰富的真实代码任务上扩展代码强化学习(Code RL)训练。通过自动扩展测试样例,他们构造了大量高质量的训练实例,成功释放了强化学习的潜力:不仅显著提升了代码执行成功率,还对其他任务带来增益。

此前网友挖出线索,阿里团队在代码中介绍 Qwen3-Coder 时写道:“Qwen3-Coder-480B-A35B-Instruct 是一个强大的编码专用语言模型,在代码生成、工具使用和代理任务方面表现出色。”

阿里表示,该模型“拥有卓越的代码和代理能力”。Qwen3-Coder 在代理式编码、代理式浏览器使用和代理式工具使用上成为了开源模型的 SOTA,可以媲美 Claude Sonnet 4。

Qwen3-Coder 也是受到了网友的大力追捧,代码库上线一小时就收获了 5.1k Star。

与此同时,阿里还推出并开源了一款用于代理式编程的命令行工具:Qwen Code。

“Qwen Code 基于 Gemini Code 进行二次开发,但我们进行了提示词和工具调用协议适配,使得 Qwen Code 可以最大程度激发 Qwen3-Coder 在代理式编程任务上的表现。”阿里在官网上表示。

另外,Qwen3-Coder 也可以和 AI 社区优秀的编程工具结合使用,如 Claude Code、Cline 等。开发者也可以通过阿里云 Model Studio 调用 Qwen3-Coder API。

目前,Qwen3-Coder 网页版已经上线,笔者第一时间尝试了它的编程水平。

在只提供一句“克隆推特网页设计和UI”提示的情况下,Qwen3-Coder 给出的结果还是不错的:

相比之下,ChatGPT(免费版)给出的结果则是有些简陋,虽然文本和几个功能区域都有,但几乎没有视觉元素:

笔者还让 Qwen3-Coder 做了一个简单的网页版乒乓球游戏,同样只是一句话提示:“开发一个可以在网站上运行的乒乓球游戏”。

代码生成后直接在 Artifact 上无缝运行,整个过程不到 20 秒,效果很惊艳,直接用键盘就能控制,支持两人对战,它还自主发挥加上了获胜规则:

而 ChatGPT 生成的虽然也能运行,但无论是美观还是完整性,都远不及 Qwen3-Coder:

最后是官方给出的两段代码运行效果,分别是地球 3D 模拟和 Flappy Bird 游戏:

此次发布的 Qwen3-Coder 属于阿里 Qwen3 系列。

三个月前,阿里发布了千问 3(Qwen3)系列模型,包括两款混合专家 MoE 模型、六款密集模型和若干模型变种,例如后训练、FP8 版本等等。

其中的旗舰模型 Qwen3-235B-A22B,总参数量高达 2,350 亿(235B),其中激活参数为 220 亿(A22B),分布在 94 个深层网络层中。

另外一个 MoE 模型 Qwen3-30B-A3B,尺寸较小,总参数量 300 亿,激活参数量 30 亿。

当时,Qwen3 系列引入了一种混合方法来解决问题,一个模型同时支持思考模式和非思考模式。但现在这种模式已经被取消。

就在 Qwen3-Coder 发布的前一天,阿里同样更新了 Qwen3 系列,新模型名为 Qwen3-235B-A22B-Instruct-2507(简称 Qwen3-2507),迭代速度令人惊喜。

阿里在官网表示,“经过与社区沟通和深思熟虑后,我们决定停止使用混合思维模式。取而代之的是,我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量。所以我们发布了 Qwen3-235B-A22B-Instruct-2507 及其 FP8 版本,供大家使用。”

Qwen3-2507 在主流基准测试中表现优异。作为一款“没有思考能力”的开源模型,它在 GPQA、AIME25 和 LiveCodeBench v6 等测试中均超越了未开启思考模式的 Claude Opus 4。

可以说,无论是Qwen3-Coder 还是 Qwen3-2507,再加上 DeepSeek 和 Kimi,都是 AI 开源社区宝贵的财富。

在闭源模型各种刷榜的今天,它们难得的推动了大模型技术的普及化,为AI 社区开发者和研究人员提供了强大的免费工具。更重要的是,它们的广受欢迎让中国在全球 AI 开源领域占据了重要一席。

这不仅能促进 AI 技术的普惠发展,还能有效降低创新门槛,让更多开发者参与进来,共同构建一个更加开放和繁荣的 AI 生态系统。

反过来,这些模型未来在产业应用、学术研究和人才培养等方面都将发挥不可估量的作用,进一步加速中国在 AI 领域的进步。

参考资料:

https://qwenlm.github.io/blog/qwen3-coder/

https://qwenlm.github.io/blog/qwen3/

https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

https://arxiv.org/pdf/2505.09388

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇马死忠怒批姆巴佩:他满脑子都是法国队,一整年都在备战世界杯

皇马死忠怒批姆巴佩:他满脑子都是法国队,一整年都在备战世界杯

风过乡
2026-07-01 09:03:00
没有这种食物,你的肌肉将消失!医生:55岁后恢复肌力的8种食物

没有这种食物,你的肌肉将消失!医生:55岁后恢复肌力的8种食物

垚垚分享健康
2026-06-30 21:25:03
汤家凤一语戳破真相:韩红所有公益光环,皆是千万普通人血汗堆起

汤家凤一语戳破真相:韩红所有公益光环,皆是千万普通人血汗堆起

十为先生
2026-07-01 09:38:52
热搜上的“上海独生女生活”:一碗饭134,撕开年轻人扭曲价值观

热搜上的“上海独生女生活”:一碗饭134,撕开年轻人扭曲价值观

哄动一时啊
2026-06-30 22:15:32
尼采经典语录:成长与变强,所需要的11种智慧

尼采经典语录:成长与变强,所需要的11种智慧

高天SEKH
2026-06-21 21:59:43
中国空调“爆卖”欧洲:市场受欢迎程度超预期,中欧班列紧急补货

中国空调“爆卖”欧洲:市场受欢迎程度超预期,中欧班列紧急补货

经济观察报
2026-06-30 17:43:32
我,17年头脑发热,花150万在海南买套海景房,如今肠子都悔青了

我,17年头脑发热,花150万在海南买套海景房,如今肠子都悔青了

人间百态大全
2026-07-01 06:50:03
日本防卫大臣将要求中国就将防卫研究所列入出口管制名单一事作出解释

日本防卫大臣将要求中国就将防卫研究所列入出口管制名单一事作出解释

新浪财经
2026-07-01 15:26:23
WC!7换1史诗级交易达成,再见了,伦纳德!

WC!7换1史诗级交易达成,再见了,伦纳德!

体育新角度
2026-07-01 14:38:12
1955年,卫生部要废除中医,毛主席得知消息,直接撤掉两位副部长

1955年,卫生部要废除中医,毛主席得知消息,直接撤掉两位副部长

雍亲王府
2026-06-30 13:45:03
大家提前做好准备,2026年下半年开始,中国或将出现4大变化

大家提前做好准备,2026年下半年开始,中国或将出现4大变化

猫叔东山再起
2026-07-01 10:00:08
新战士守护阵地时,见美军冲来,忽然瞥见敌指挥官,便心生一计

新战士守护阵地时,见美军冲来,忽然瞥见敌指挥官,便心生一计

黄丽搞笑小能手
2026-06-30 18:41:49
蔚来、小米、理想、小鹏等,6月份各品牌交付量大盘点

蔚来、小米、理想、小鹏等,6月份各品牌交付量大盘点

科技锋说
2026-07-01 13:36:28
辽宁舰退役去向已确定?不卖俄不拆解,意义远超交易,直击美痛点

辽宁舰退役去向已确定?不卖俄不拆解,意义远超交易,直击美痛点

梦想的现实
2026-07-01 12:53:21
球权够分吗?开拓者引进莫兰特,后卫线拥挤不堪,这两人恐将离队

球权够分吗?开拓者引进莫兰特,后卫线拥挤不堪,这两人恐将离队

篮球圈里的那些事
2026-07-01 15:01:59
震惊!韩红基金会捐救护车,给富足的北京急救中心,被网友追问

震惊!韩红基金会捐救护车,给富足的北京急救中心,被网友追问

火山詩话
2026-06-30 16:59:06
自由市场出手,火箭签巅峰16+3射手 与谢泼德组双第6人 阵容浮现

自由市场出手,火箭签巅峰16+3射手 与谢泼德组双第6人 阵容浮现

替补席看球
2026-07-01 12:41:13
A股:金融股爆发,科技股冲高回落,释放什么信号?牛要加速了?

A股:金融股爆发,科技股冲高回落,释放什么信号?牛要加速了?

虎哥闲聊
2026-07-01 11:32:42
再见老詹!再见湖人!豪华四巨头将诞生,老詹第五冠要来了

再见老詹!再见湖人!豪华四巨头将诞生,老詹第五冠要来了

篮球扫地僧
2026-07-01 07:53:43
倒计时2天!男篮传来坏消息,事关赵继伟,郭士强或紧急调整名单

倒计时2天!男篮传来坏消息,事关赵继伟,郭士强或紧急调整名单

萌兰聊个球
2026-07-01 10:53:17
2026-07-01 15:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16908文章数 515066关注度
往期回顾 全部

科技要闻

AI写了90%代码,大厂程序员的煎熬时刻

头条要闻

嘉峪关一景区NPC被游客掰断手臂:互程中对方突然发力

头条要闻

嘉峪关一景区NPC被游客掰断手臂:互程中对方突然发力

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

罗晋大孤山素颜照,秃顶白发引热议

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

交付持续攀升再破纪录 零跑6月全球交付93376台

态度原创

艺术
健康
游戏
家居
军事航空

艺术要闻

这5件2026届毕业油画作品,被中国美术学院美术馆收藏

狂吃“糯叽叽”小心肠梗阻!

噬血代码2全新DLC官宣!废弃世界与新战斗就在今夏

家居要闻

传奇筑 日常诗

军事要闻

美伊代表前往多哈 谈判方式出现"重大倒退"

无障碍浏览 进入关怀版