网易首页 > 网易号 > 正文 申请入驻

阿里发布Qwen3-Coder:4800亿参数,实现开源代码模型新SOTA

0
分享至

今天,阿里全新开源代码模型 Qwen3-Coder 正式发布。

Qwen3-Coder 拥有多个尺寸,此次发布的是最强大的版本,名为 Qwen3-Coder-480B-A35B-Instruct(以下简称 Qwen3-Coder)。

它是一款混合专家(MoE)模型,总参数量高达 4,800 亿,激活参数为 350 亿,原生支持 256K token 的上下文,并可通过 YaRN 扩展到高达 1 百万 token,支持 358 种编程语言。

由于 Qwen3 系列模型的整体调整,Qwen3-Coder 仅支持非思考模式,不生成思考过程。

在注意力机制方面,Qwen3-Coder 采用了分组查询注意力(GQA)方案,配备 96 个查询(Q)注意力头和 8 个键/值(KV)注意力头,并拥有 160 个专家(Expert),其中 8 个专家被激活。

据介绍,预训练阶段,Qwen3-Coder 从数据、上下文、合成数据三个不同角度进行扩展(scaling),以提升模型的代码能力。

在后训练阶段,研究团队选择在更丰富的真实代码任务上扩展代码强化学习(Code RL)训练。通过自动扩展测试样例,他们构造了大量高质量的训练实例,成功释放了强化学习的潜力:不仅显著提升了代码执行成功率,还对其他任务带来增益。

此前网友挖出线索,阿里团队在代码中介绍 Qwen3-Coder 时写道:“Qwen3-Coder-480B-A35B-Instruct 是一个强大的编码专用语言模型,在代码生成、工具使用和代理任务方面表现出色。”

阿里表示,该模型“拥有卓越的代码和代理能力”。Qwen3-Coder 在代理式编码、代理式浏览器使用和代理式工具使用上成为了开源模型的 SOTA,可以媲美 Claude Sonnet 4。

Qwen3-Coder 也是受到了网友的大力追捧,代码库上线一小时就收获了 5.1k Star。

与此同时,阿里还推出并开源了一款用于代理式编程的命令行工具:Qwen Code。

“Qwen Code 基于 Gemini Code 进行二次开发,但我们进行了提示词和工具调用协议适配,使得 Qwen Code 可以最大程度激发 Qwen3-Coder 在代理式编程任务上的表现。”阿里在官网上表示。

另外,Qwen3-Coder 也可以和 AI 社区优秀的编程工具结合使用,如 Claude Code、Cline 等。开发者也可以通过阿里云 Model Studio 调用 Qwen3-Coder API。

目前,Qwen3-Coder 网页版已经上线,笔者第一时间尝试了它的编程水平。

在只提供一句“克隆推特网页设计和UI”提示的情况下,Qwen3-Coder 给出的结果还是不错的:

相比之下,ChatGPT(免费版)给出的结果则是有些简陋,虽然文本和几个功能区域都有,但几乎没有视觉元素:

笔者还让 Qwen3-Coder 做了一个简单的网页版乒乓球游戏,同样只是一句话提示:“开发一个可以在网站上运行的乒乓球游戏”。

代码生成后直接在 Artifact 上无缝运行,整个过程不到 20 秒,效果很惊艳,直接用键盘就能控制,支持两人对战,它还自主发挥加上了获胜规则:

而 ChatGPT 生成的虽然也能运行,但无论是美观还是完整性,都远不及 Qwen3-Coder:

最后是官方给出的两段代码运行效果,分别是地球 3D 模拟和 Flappy Bird 游戏:

此次发布的 Qwen3-Coder 属于阿里 Qwen3 系列。

三个月前,阿里发布了千问 3(Qwen3)系列模型,包括两款混合专家 MoE 模型、六款密集模型和若干模型变种,例如后训练、FP8 版本等等。

其中的旗舰模型 Qwen3-235B-A22B,总参数量高达 2,350 亿(235B),其中激活参数为 220 亿(A22B),分布在 94 个深层网络层中。

另外一个 MoE 模型 Qwen3-30B-A3B,尺寸较小,总参数量 300 亿,激活参数量 30 亿。

当时,Qwen3 系列引入了一种混合方法来解决问题,一个模型同时支持思考模式和非思考模式。但现在这种模式已经被取消。

就在 Qwen3-Coder 发布的前一天,阿里同样更新了 Qwen3 系列,新模型名为 Qwen3-235B-A22B-Instruct-2507(简称 Qwen3-2507),迭代速度令人惊喜。

阿里在官网表示,“经过与社区沟通和深思熟虑后,我们决定停止使用混合思维模式。取而代之的是,我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量。所以我们发布了 Qwen3-235B-A22B-Instruct-2507 及其 FP8 版本,供大家使用。”

Qwen3-2507 在主流基准测试中表现优异。作为一款“没有思考能力”的开源模型,它在 GPQA、AIME25 和 LiveCodeBench v6 等测试中均超越了未开启思考模式的 Claude Opus 4。

可以说,无论是Qwen3-Coder 还是 Qwen3-2507,再加上 DeepSeek 和 Kimi,都是 AI 开源社区宝贵的财富。

在闭源模型各种刷榜的今天,它们难得的推动了大模型技术的普及化,为AI 社区开发者和研究人员提供了强大的免费工具。更重要的是,它们的广受欢迎让中国在全球 AI 开源领域占据了重要一席。

这不仅能促进 AI 技术的普惠发展,还能有效降低创新门槛,让更多开发者参与进来,共同构建一个更加开放和繁荣的 AI 生态系统。

反过来,这些模型未来在产业应用、学术研究和人才培养等方面都将发挥不可估量的作用,进一步加速中国在 AI 领域的进步。

参考资料:

https://qwenlm.github.io/blog/qwen3-coder/

https://qwenlm.github.io/blog/qwen3/

https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

https://arxiv.org/pdf/2505.09388

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本刚降级对华关系,被曝53条中日航线全部取消,中方反应很平静

日本刚降级对华关系,被曝53条中日航线全部取消,中方反应很平静

坠入二次元的海洋
2026-04-11 03:45:17
72岁特拉沃尔塔晒女照,网友集体认错:这是本人吧?

72岁特拉沃尔塔晒女照,网友集体认错:这是本人吧?

热搜摘要官
2026-04-10 08:23:41
黄景瑜王玉雯双方否认恋情!聚会细节被扒于适在场,带了一箱茅台

黄景瑜王玉雯双方否认恋情!聚会细节被扒于适在场,带了一箱茅台

萌神木木
2026-04-10 12:08:58
中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

奇思妙想生活家
2026-04-09 07:49:40
江苏省挂号费最贵的十位医生

江苏省挂号费最贵的十位医生

华庭讲美食
2026-04-10 12:09:24
为啥男人一出门就要拉屎?

为啥男人一出门就要拉屎?

混知
2026-04-09 14:55:16
没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

健康之光
2026-01-04 09:31:45
英超冠军主帅带队保级:4个月从垫底爬到悬崖边

英超冠军主帅带队保级:4个月从垫底爬到悬崖边

篮坛第一线
2026-04-10 14:41:42
郑丽文访团亮点:30岁哈佛女博士董佳瑜台商二代引关注

郑丽文访团亮点:30岁哈佛女博士董佳瑜台商二代引关注

二大爷观世界
2026-04-10 23:33:35
明星盛典上,矿泉水被胶水粘死,全场艺人拔到怀疑人生!

明星盛典上,矿泉水被胶水粘死,全场艺人拔到怀疑人生!

茶余饭好
2026-04-09 11:03:46
上交所:盘后固定价格交易方式扩展至全部A股和ETF

上交所:盘后固定价格交易方式扩展至全部A股和ETF

每日经济新闻
2026-04-10 17:27:06
以军在教室开枪,打死正在上课的9岁加沙女孩

以军在教室开枪,打死正在上课的9岁加沙女孩

潇湘晨报
2026-04-10 14:59:14
国家触发一级战备时,普通人千万要牢记这3条!保命切记别去抢购

国家触发一级战备时,普通人千万要牢记这3条!保命切记别去抢购

健身狂人
2026-04-05 12:39:10
访陆第4天,郑丽文喊民族复兴,国民党再进一步,顾立雄差点哭了

访陆第4天,郑丽文喊民族复兴,国民党再进一步,顾立雄差点哭了

时尚的弄潮
2026-04-11 03:47:27
突发!特斯拉新款 Model Y 发布,有点离谱

突发!特斯拉新款 Model Y 发布,有点离谱

新浪财经
2026-04-11 04:45:06
长春市纪委监委通报:张志超被查

长春市纪委监委通报:张志超被查

吉刻新闻
2026-04-10 19:09:17
重磅!巴拿马港口公司宣布:正式对马士基启动仲裁程序!

重磅!巴拿马港口公司宣布:正式对马士基启动仲裁程序!

混沌录
2026-04-10 17:17:20
莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

每日一首古诗词
2026-04-09 06:06:47
“台独”顽固分子萧美琴发表声明!

“台独”顽固分子萧美琴发表声明!

安安说
2026-04-10 12:18:00
打起来了!赵丽颖方发文宣誓楚乔主权,《冰湖重生》暗讽后秒删

打起来了!赵丽颖方发文宣誓楚乔主权,《冰湖重生》暗讽后秒删

影视地平线
2026-04-10 22:20:59
2026-04-11 05:15:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16563文章数 514859关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

家居
教育
亲子
时尚
房产

家居要闻

复古风格 自然简约

教育要闻

2026年最具“性价比”的4个专业,本科就业率高,考研容易上岸!

亲子要闻

时间会融化所有尖锐,只剩平静

今日热点:陈添祥长文道歉;夏克立曾给前经纪人传上厕所照片……

房产要闻

28条新规落地!好房子,终于有了“广州标准”!

无障碍浏览 进入关怀版