网易首页 > 网易号 > 正文 申请入驻

阿里发布Qwen3-Coder:4800亿参数,实现开源代码模型新SOTA

0
分享至

今天,阿里全新开源代码模型 Qwen3-Coder 正式发布。


(来源:X)

Qwen3-Coder 拥有多个尺寸,此次发布的是最强大的版本,名为 Qwen3-Coder-480B-A35B-Instruct(以下简称 Qwen3-Coder)。

它是一款混合专家(MoE)模型,总参数量高达 4,800 亿,激活参数为 350 亿,原生支持 256K token 的上下文,并可通过 YaRN 扩展到高达 1 百万 token,支持 358 种编程语言。


图 | Qwen3-Coder 在测试中的表现(来源:资料图)

由于 Qwen3 系列模型的整体调整,Qwen3-Coder 仅支持非思考模式,不生成思考过程。

在注意力机制方面,Qwen3-Coder 采用了分组查询注意力(GQA)方案,配备 96 个查询(Q)注意力头和 8 个键/值(KV)注意力头,并拥有 160 个专家(Expert),其中 8 个专家被激活。


图 | Qwen3-Coder 模型总览(来源:Qwen)

据介绍,预训练阶段,Qwen3-Coder 从数据、上下文、合成数据三个不同角度进行扩展(scaling),以提升模型的代码能力。

在后训练阶段,研究团队选择在更丰富的真实代码任务上扩展代码强化学习(Code RL)训练。通过自动扩展测试样例,他们构造了大量高质量的训练实例,成功释放了强化学习的潜力:不仅显著提升了代码执行成功率,还对其他任务带来增益。

此前网友挖出线索,阿里团队在代码中介绍 Qwen3-Coder 时写道:“Qwen3-Coder-480B-A35B-Instruct 是一个强大的编码专用语言模型,在代码生成、工具使用和代理任务方面表现出色。”


图 | 网友先前挖出 Qwen3-Coder 的线索(来源:X)

阿里表示,该模型“拥有卓越的代码和代理能力”。Qwen3-Coder 在代理式编码、代理式浏览器使用和代理式工具使用上成为了开源模型的 SOTA,可以媲美 Claude Sonnet 4。

Qwen3-Coder 也是受到了网友的大力追捧,代码库上线一小时就收获了 5.1k Star。


(来源:GitHub)

与此同时,阿里还推出并开源了一款用于代理式编程的命令行工具:Qwen Code。

“Qwen Code 基于 Gemini Code 进行二次开发,但我们进行了提示词和工具调用协议适配,使得 Qwen Code 可以最大程度激发 Qwen3-Coder 在代理式编程任务上的表现。”阿里在官网上表示。


(来源:资料图)

另外,Qwen3-Coder 也可以和 AI 社区优秀的编程工具结合使用,如 Claude Code、Cline 等。开发者也可以通过阿里云 Model Studio 调用 Qwen3-Coder API。

目前,Qwen3-Coder 网页版已经上线,笔者第一时间尝试了它的编程水平。


(来源:https://chat.qwen.ai/)

在只提供一句“克隆推特网页设计和UI”提示的情况下,Qwen3-Coder 给出的结果还是不错的:


图 | Qwen3-Coder 生成的仿推特 UI(来源:资料图)

相比之下,ChatGPT(免费版)给出的结果则是有些简陋,虽然文本和几个功能区域都有,但几乎没有视觉元素:


图 | ChatGPT 生成的仿推特 UI(来源:资料图)

笔者还让 Qwen3-Coder 做了一个简单的网页版乒乓球游戏,同样只是一句话提示:“开发一个可以在网站上运行的乒乓球游戏”。

代码生成后直接在 Artifact 上无缝运行,整个过程不到 20 秒,效果很惊艳,直接用键盘就能控制,支持两人对战,它还自主发挥加上了获胜规则:

而 ChatGPT 生成的虽然也能运行,但无论是美观还是完整性,都远不及 Qwen3-Coder:


图 | ChatGPT 生成的乒乓球游戏截图(来源:资料图)

最后是官方给出的两段代码运行效果,分别是地球 3D 模拟和 Flappy Bird 游戏:

此次发布的 Qwen3-Coder 属于阿里 Qwen3 系列。

三个月前,阿里发布了千问 3(Qwen3)系列模型,包括两款混合专家 MoE 模型、六款密集模型和若干模型变种,例如后训练、FP8 版本等等。

其中的旗舰模型 Qwen3-235B-A22B,总参数量高达 2,350 亿(235B),其中激活参数为 220 亿(A22B),分布在 94 个深层网络层中。

另外一个 MoE 模型 Qwen3-30B-A3B,尺寸较小,总参数量 300 亿,激活参数量 30 亿。


(来源:Qwen3)

当时,Qwen3 系列引入了一种混合方法来解决问题,一个模型同时支持思考模式和非思考模式。但现在这种模式已经被取消。

就在 Qwen3-Coder 发布的前一天,阿里同样更新了 Qwen3 系列,新模型名为 Qwen3-235B-A22B-Instruct-2507(简称 Qwen3-2507),迭代速度令人惊喜。

阿里在官网表示,“经过与社区沟通和深思熟虑后,我们决定停止使用混合思维模式。取而代之的是,我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量。所以我们发布了 Qwen3-235B-A22B-Instruct-2507 及其 FP8 版本,供大家使用。”


(来源:资料图)

Qwen3-2507 在主流基准测试中表现优异。作为一款“没有思考能力”的开源模型,它在 GPQA、AIME25 和 LiveCodeBench v6 等测试中均超越了未开启思考模式的 Claude Opus 4。

可以说,无论是Qwen3-Coder 还是 Qwen3-2507,再加上 DeepSeek 和 Kimi,都是 AI 开源社区宝贵的财富。

在闭源模型各种刷榜的今天,它们难得的推动了大模型技术的普及化,为AI 社区开发者和研究人员提供了强大的免费工具。更重要的是,它们的广受欢迎让中国在全球 AI 开源领域占据了重要一席。


(来源:资料图)

这不仅能促进 AI 技术的普惠发展,还能有效降低创新门槛,让更多开发者参与进来,共同构建一个更加开放和繁荣的 AI 生态系统。

反过来,这些模型未来在产业应用、学术研究和人才培养等方面都将发挥不可估量的作用,进一步加速中国在 AI 领域的进步。

参考资料:

https://qwenlm.github.io/blog/qwen3-coder/

https://qwenlm.github.io/blog/qwen3/

https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

https://arxiv.org/pdf/2505.09388

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这绝对是超级传奇:乌一无人机部队摧毁120亿美元敌方装备!

这绝对是超级传奇:乌一无人机部队摧毁120亿美元敌方装备!

头条刘博士看美国
2025-11-13 10:57:37
唐朝宗室制度有多严格?不管是皇亲国戚,出了五服,就得自谋生路

唐朝宗室制度有多严格?不管是皇亲国戚,出了五服,就得自谋生路

掠影后有感
2025-11-15 11:25:25
“威胁出兵台海”风波还未过,高市又搞动作,大佐称呼或要回归了

“威胁出兵台海”风波还未过,高市又搞动作,大佐称呼或要回归了

通文知史
2025-11-14 16:25:03
日媒关注:中方愤怒正在升级

日媒关注:中方愤怒正在升级

环球时报新闻
2025-11-15 14:00:04
世界各国都在拒签印度签证!印度人终于醒悟了,可醒悟后更疯狂了

世界各国都在拒签印度签证!印度人终于醒悟了,可醒悟后更疯狂了

特特农村生活
2025-11-15 05:25:52
刚刚,《自然》紧急发布!美国猪肾移植人体取得重大进展!

刚刚,《自然》紧急发布!美国猪肾移植人体取得重大进展!

徐德文科学频道
2025-11-14 20:58:38
前男友分手四月就结婚,女子破防大哭,现任被扒很漂亮,难怪破防

前男友分手四月就结婚,女子破防大哭,现任被扒很漂亮,难怪破防

揽星河的笔记
2025-11-14 17:22:32
全运会乒乓球爆冷!34岁老将夺冠,陈梦逆袭,患癌选手对战孙颖莎

全运会乒乓球爆冷!34岁老将夺冠,陈梦逆袭,患癌选手对战孙颖莎

叶公子
2025-11-15 02:14:19
难以置信:刘道玉的几件奇葩事!

难以置信:刘道玉的几件奇葩事!

仕道
2025-11-14 09:07:07
哇塞!演员情侣官宣结婚,谭松韵刘昊然送祝福,网友高呼青春回归

哇塞!演员情侣官宣结婚,谭松韵刘昊然送祝福,网友高呼青春回归

策略剖析
2025-11-15 13:14:38
佘智江被抓,牵出赵薇前夫黄有龙和妙瓦底诈骗的瓜,真相太炸裂

佘智江被抓,牵出赵薇前夫黄有龙和妙瓦底诈骗的瓜,真相太炸裂

吃瓜局
2025-11-13 20:50:11
奋斗后发现大麻烦,网友:只要努力就必然负债!

奋斗后发现大麻烦,网友:只要努力就必然负债!

特约前排观众
2025-11-15 00:05:08
三峡大坝有可能报废?淤泥堆积超18亿吨,究竟该如何治理?

三峡大坝有可能报废?淤泥堆积超18亿吨,究竟该如何治理?

文雅笔墨
2025-11-14 00:13:42
DeepSeek预测:2030年,300万的房子值多少钱?结果让人很意外

DeepSeek预测:2030年,300万的房子值多少钱?结果让人很意外

山丘楼评
2025-11-15 11:15:54
4-0!中国队大胜,狂轰4球,全场碾压,球迷欢呼:终于扬眉吐气

4-0!中国队大胜,狂轰4球,全场碾压,球迷欢呼:终于扬眉吐气

二疯说球
2025-11-15 09:08:19
小日本玩文字游戏,称签署日本投降书的是中华民国,而不是你们

小日本玩文字游戏,称签署日本投降书的是中华民国,而不是你们

我心纵横天地间
2025-11-15 13:43:23
美国总统为啥从没召集过50个州长开全国大会?不是不想,是没资格

美国总统为啥从没召集过50个州长开全国大会?不是不想,是没资格

诗意世界
2025-11-14 15:52:24
5个集团军30万大军严阵以待,台海封锁战露出獠牙!

5个集团军30万大军严阵以待,台海封锁战露出獠牙!

科学知识点秀
2025-11-15 08:00:03
台湾神秘队伍出击,扬言要铲除“台独”分子,这个组织到底是谁?

台湾神秘队伍出击,扬言要铲除“台独”分子,这个组织到底是谁?

小莜读史
2025-11-14 21:43:13
田曦薇现身上海恒隆,怼脸拍也好美,可盐可甜,捂嘴笑都那么漂亮

田曦薇现身上海恒隆,怼脸拍也好美,可盐可甜,捂嘴笑都那么漂亮

可乐谈情感
2025-11-15 09:53:10
2025-11-15 18:27:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15862文章数 514302关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

健康
教育
时尚
本地
旅游

金振口服液助力科学应对呼吸道疾病

教育要闻

山东卷和重庆卷打起来了?

冬天的“销冠”,已被羽绒服预定

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

旅游要闻

赏彩林不用去川西 凉山人自己的“大兴安岭”美翻了!丨图集

无障碍浏览 进入关怀版