网易首页 > 网易号 > 正文 申请入驻

阿里发布Qwen3-Coder:4800亿参数,实现开源代码模型新SOTA

0
分享至

今天,阿里全新开源代码模型 Qwen3-Coder 正式发布。

Qwen3-Coder 拥有多个尺寸,此次发布的是最强大的版本,名为 Qwen3-Coder-480B-A35B-Instruct(以下简称 Qwen3-Coder)。

它是一款混合专家(MoE)模型,总参数量高达 4,800 亿,激活参数为 350 亿,原生支持 256K token 的上下文,并可通过 YaRN 扩展到高达 1 百万 token,支持 358 种编程语言。

由于 Qwen3 系列模型的整体调整,Qwen3-Coder 仅支持非思考模式,不生成思考过程。

在注意力机制方面,Qwen3-Coder 采用了分组查询注意力(GQA)方案,配备 96 个查询(Q)注意力头和 8 个键/值(KV)注意力头,并拥有 160 个专家(Expert),其中 8 个专家被激活。

据介绍,预训练阶段,Qwen3-Coder 从数据、上下文、合成数据三个不同角度进行扩展(scaling),以提升模型的代码能力。

在后训练阶段,研究团队选择在更丰富的真实代码任务上扩展代码强化学习(Code RL)训练。通过自动扩展测试样例,他们构造了大量高质量的训练实例,成功释放了强化学习的潜力:不仅显著提升了代码执行成功率,还对其他任务带来增益。

此前网友挖出线索,阿里团队在代码中介绍 Qwen3-Coder 时写道:“Qwen3-Coder-480B-A35B-Instruct 是一个强大的编码专用语言模型,在代码生成、工具使用和代理任务方面表现出色。”

阿里表示,该模型“拥有卓越的代码和代理能力”。Qwen3-Coder 在代理式编码、代理式浏览器使用和代理式工具使用上成为了开源模型的 SOTA,可以媲美 Claude Sonnet 4。

Qwen3-Coder 也是受到了网友的大力追捧,代码库上线一小时就收获了 5.1k Star。

与此同时,阿里还推出并开源了一款用于代理式编程的命令行工具:Qwen Code。

“Qwen Code 基于 Gemini Code 进行二次开发,但我们进行了提示词和工具调用协议适配,使得 Qwen Code 可以最大程度激发 Qwen3-Coder 在代理式编程任务上的表现。”阿里在官网上表示。

另外,Qwen3-Coder 也可以和 AI 社区优秀的编程工具结合使用,如 Claude Code、Cline 等。开发者也可以通过阿里云 Model Studio 调用 Qwen3-Coder API。

目前,Qwen3-Coder 网页版已经上线,笔者第一时间尝试了它的编程水平。

在只提供一句“克隆推特网页设计和UI”提示的情况下,Qwen3-Coder 给出的结果还是不错的:

相比之下,ChatGPT(免费版)给出的结果则是有些简陋,虽然文本和几个功能区域都有,但几乎没有视觉元素:

笔者还让 Qwen3-Coder 做了一个简单的网页版乒乓球游戏,同样只是一句话提示:“开发一个可以在网站上运行的乒乓球游戏”。

代码生成后直接在 Artifact 上无缝运行,整个过程不到 20 秒,效果很惊艳,直接用键盘就能控制,支持两人对战,它还自主发挥加上了获胜规则:

而 ChatGPT 生成的虽然也能运行,但无论是美观还是完整性,都远不及 Qwen3-Coder:

最后是官方给出的两段代码运行效果,分别是地球 3D 模拟和 Flappy Bird 游戏:

此次发布的 Qwen3-Coder 属于阿里 Qwen3 系列。

三个月前,阿里发布了千问 3(Qwen3)系列模型,包括两款混合专家 MoE 模型、六款密集模型和若干模型变种,例如后训练、FP8 版本等等。

其中的旗舰模型 Qwen3-235B-A22B,总参数量高达 2,350 亿(235B),其中激活参数为 220 亿(A22B),分布在 94 个深层网络层中。

另外一个 MoE 模型 Qwen3-30B-A3B,尺寸较小,总参数量 300 亿,激活参数量 30 亿。

当时,Qwen3 系列引入了一种混合方法来解决问题,一个模型同时支持思考模式和非思考模式。但现在这种模式已经被取消。

就在 Qwen3-Coder 发布的前一天,阿里同样更新了 Qwen3 系列,新模型名为 Qwen3-235B-A22B-Instruct-2507(简称 Qwen3-2507),迭代速度令人惊喜。

阿里在官网表示,“经过与社区沟通和深思熟虑后,我们决定停止使用混合思维模式。取而代之的是,我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量。所以我们发布了 Qwen3-235B-A22B-Instruct-2507 及其 FP8 版本,供大家使用。”

Qwen3-2507 在主流基准测试中表现优异。作为一款“没有思考能力”的开源模型,它在 GPQA、AIME25 和 LiveCodeBench v6 等测试中均超越了未开启思考模式的 Claude Opus 4。

可以说,无论是Qwen3-Coder 还是 Qwen3-2507,再加上 DeepSeek 和 Kimi,都是 AI 开源社区宝贵的财富。

在闭源模型各种刷榜的今天,它们难得的推动了大模型技术的普及化,为AI 社区开发者和研究人员提供了强大的免费工具。更重要的是,它们的广受欢迎让中国在全球 AI 开源领域占据了重要一席。

这不仅能促进 AI 技术的普惠发展,还能有效降低创新门槛,让更多开发者参与进来,共同构建一个更加开放和繁荣的 AI 生态系统。

反过来,这些模型未来在产业应用、学术研究和人才培养等方面都将发挥不可估量的作用,进一步加速中国在 AI 领域的进步。

参考资料:

https://qwenlm.github.io/blog/qwen3-coder/

https://qwenlm.github.io/blog/qwen3/

https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

https://arxiv.org/pdf/2505.09388

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗发出最后通牒!俄通告全球将参战,法国上将:中估计也要到了

伊朗发出最后通牒!俄通告全球将参战,法国上将:中估计也要到了

共工之锚
2026-04-04 19:35:29
亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

亲戚借车从不加油,这次他故意空着油箱给她,她老公却急了:我上次不是刚加了600块的油吗!

黎兜兜
2026-04-05 11:13:53
日本前自卫官:日本正走向“可实战”的军事体系

日本前自卫官:日本正走向“可实战”的军事体系

新京报
2026-04-05 11:20:04
张雪机车logo被曝涉嫌抄袭?网友:logo是白送的!

张雪机车logo被曝涉嫌抄袭?网友:logo是白送的!

老张聊设计
2026-04-06 12:10:08
美论坛:为什么中国在明确我们不会偿还的情况下还要购买美债?

美论坛:为什么中国在明确我们不会偿还的情况下还要购买美债?

共工之锚
2026-04-06 00:15:47
广东今日早报!再创CBA纪录,新大外浮出水面,萨林杰休战一周

广东今日早报!再创CBA纪录,新大外浮出水面,萨林杰休战一周

多特体育说
2026-04-06 11:05:53
三亚返程炸锅!机票暴涨50倍,一家五口花十万,游客被困进退两难

三亚返程炸锅!机票暴涨50倍,一家五口花十万,游客被困进退两难

青眼财经
2026-04-05 23:47:54
家里有机关事业单位退休老人的注意!

家里有机关事业单位退休老人的注意!

小影的娱乐
2026-04-06 11:14:43
上海一老乡鸡门店标注“3元自助早餐”,两人结账竟被收取45.5元并被告知“仅粥饮自助”,官方客服回应:已反馈调查

上海一老乡鸡门店标注“3元自助早餐”,两人结账竟被收取45.5元并被告知“仅粥饮自助”,官方客服回应:已反馈调查

齐鲁壹点
2026-04-05 09:18:49
韩国人知道他们国家小吗?网友说他们不知道,但导演肯定知道

韩国人知道他们国家小吗?网友说他们不知道,但导演肯定知道

侃神评故事
2026-04-05 15:05:07
西班牙彻底掀桌子 宁弃2026世界杯也要抵制以色列参赛

西班牙彻底掀桌子 宁弃2026世界杯也要抵制以色列参赛

林子说事
2026-04-05 17:04:22
李泽楷被她迷得疯狂,林丹为她不顾孕妻,她有什么魅力?

李泽楷被她迷得疯狂,林丹为她不顾孕妻,她有什么魅力?

观察鉴娱
2026-04-05 21:26:05
油价暴跌变了天!油价180°大反转?明天油价调整!赶快加油!油价马上要涨了?4月7日调价后:全...

油价暴跌变了天!油价180°大反转?明天油价调整!赶快加油!油价马上要涨了?4月7日调价后:全...

新浪财经
2026-04-06 11:46:04
湖人输独行侠1喜3忧!老詹体能不支,艾顿无态度,雷迪克死草主力

湖人输独行侠1喜3忧!老詹体能不支,艾顿无态度,雷迪克死草主力

篮球资讯达人
2026-04-06 10:18:56
塞尔维亚“土耳其溪”天然气管道附近发现“强力炸药”,炸药产自美国,匈牙利外长:攻击该管道就是在攻击匈牙利主权

塞尔维亚“土耳其溪”天然气管道附近发现“强力炸药”,炸药产自美国,匈牙利外长:攻击该管道就是在攻击匈牙利主权

极目新闻
2026-04-06 10:07:00
荒唐!猫王一生睡遍3000女人,42岁惨死卧室,内裤褪到大腿根

荒唐!猫王一生睡遍3000女人,42岁惨死卧室,内裤褪到大腿根

七阿姨爱八卦
2026-04-04 18:04:16
井喷!今晚双色球井喷72注一等奖,单注奖金138万,真的巨离谱!

井喷!今晚双色球井喷72注一等奖,单注奖金138万,真的巨离谱!

王晓爱体彩
2026-04-06 02:41:51
4吨冰毒、一本法国护照,死刑,法国想救人,中国的回应很干脆

4吨冰毒、一本法国护照,死刑,法国想救人,中国的回应很干脆

潮鹿逐梦
2026-04-06 11:08:21
美国人比我们还“怀念”毛主席?伟人的一句话,被拜登视为真理

美国人比我们还“怀念”毛主席?伟人的一句话,被拜登视为真理

锅锅爱历史
2026-03-25 20:20:01
《清明上班图》刷爆全网!网友:上班如上坟

《清明上班图》刷爆全网!网友:上班如上坟

营销头版
2026-04-06 13:05:54
2026-04-06 13:43:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16541文章数 514842关注度
往期回顾 全部

科技要闻

前同事被蒸馏成Token,AI能否偷走职场经验

头条要闻

牛弹琴:特朗普两个举动很反常 美国上下都很震惊

头条要闻

牛弹琴:特朗普两个举动很反常 美国上下都很震惊

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

乔任梁离世10年 父母曝舞台光鲜的背后

财经要闻

118吨!这家央行,大幅抛售黄金!

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

本地
家居
艺术
数码
教育

本地新闻

跟着歌声游安徽,听古村回响

家居要闻

温馨多元 爱的具象化

艺术要闻

20位中国当代名家的25幅油画

数码要闻

微星泰坦18 Ultra 2026 (Titan 18 HX)游戏本上市,47999元

教育要闻

让孩子远离手机的10个方法(建议收藏)

无障碍浏览 进入关怀版