网易首页 > 网易号 > 正文 申请入驻

刚刚,阿里最强编程模型开源!4800亿参数,Agent分数碾Kimi K2,训练细节公开

0
分享至


智东西
作者 陈骏达
编辑 云鹏

智东西7月23日报道,就在刚刚,阿里巴巴Qwen团队开源了其最新一代旗舰编程模型Qwen3-Coder-480B-A35B-Instruct。Qwen团队称,这是该团队迄今为止最强大的开源智能体编程模型,拥有480B参数,激活参数为35B,原生支持256K上下文,并可通过外推扩展至100万上下文(输入),其最大输出为6.5万token

在基准测试中,Qwen3-Coder在编程和智能体任务上拥有不错的性能,于Agentic Coding(智能体编程)、Agentic Browser-Use(智能体浏览器使用)和Agentic Tool-Use(智能体工具调用)三类任务中获得了开源SOTA超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型,并可与Claude Sonnet 4这一以编程能力著称的模型相媲美

Qwen3-Coder将提供多种尺寸,本次开源的是其最强大的变体,其参数量超过了阿里旗舰模型Qwen3的235B(2350亿),小于Kimi K2的1T(1万亿)。据阿里官方介绍,借助Qwen3-Coder,刚入行的程序员一天就能完成资深程序员一周的工作,生成一个品牌官网最快只需5分钟


除了模型之外,Qwen还开源了一个由Gemini Code分叉而来的智能体编程命令行工具——Qwen Code,这一工具进行了定制提示和函数调用协议的适配,能更充分的释放Qwen3-Coder在智能体编程任务上的能力。

这一模型已在阿里云旗下大模型服务平台百炼上线,其API采用了阶梯计费的方式,根据输入token量调整价格。在256K~1M一档,其输入价格为6美元/百万token,输出价格为60美元/百万token。相比之下,Claude Sonnet 4的输入输出价格分别为3美元/百万token、15美元/百万token,与Qwen3-Coder 128k~256k一档的价格持平。


Qwen3-Coder也已在Qwen Chat网页版上线,用户可免费体验。此外,其480B版本已在Hugging Face、魔搭等开源社区发布,可供下载和本地部署。Qwen还在一篇博客文章中详细分享了模型的技术细节。

模型开源地址:https://huggingface.co/Qwen

Qwen Code开源地址:https://github.com/QwenLM/qwen-code

博客地址:https://qwenlm.github.io/blog/qwen3-coder/

一、深夜上线Qwen Chat,海外网友已经玩疯了

在Qwen团队官宣Qwen3-Coder发布前,这一模型已经悄然在Qwen Chat官网上线,手速快的海外网友们贡献了一批实测案例。

这一案例让Qwen3-Coder打造一个Wordle单词游戏,规则是在六次尝试中猜出一个长度为5个字母的单词。最终,Qwen3-Coder交付的游戏页面和源代码如下。


提供案例的网友称,Qwen3-Coder在指令遵循、UI设计、动画方面的能力惊人,大部分测试结果一次就跑通了,完全不需要推理。不过,在Wordle游戏设计这一任务上,Qwen并没有使用单词解析器,也没有引用来源,而是决定自行枚举所有5个字母的单词。

在一则找不同游戏的开发案例中,可以看到与昨日发布的Qwen3-235B-A22B-2507相比,Qwen3-Coder在审美和完成度上要明显好于前者。


智东西则尝试让Qwen3-Coder开发一个中英文术语库,并支持增删改查的基础功能。可以直观感受到,由于并未开启推理,Qwen3-Coder的开发速度极快,20多秒便完成了初步结果,在对其生成结果进行进一步修改时,速度同样较快。


其最终生成的结果从UI角度上看的确美观清晰,功能运转正常,不过并没有遵循提示词中使用PHP+MySQL进行开发的指令。其最终交付的结果作为功能演示、原型展示完全足够,但在真实部署场景中的可扩展性还需进一步优化。


智东西还让Qwen3-Coder给自己出了一道3D HTML开发题,内容是创建一个3D旋转的立方体展示台,六个面显示不同颜色,自动旋转,添加光照效果和阴影等。Qwen3-Coder交付的结果完成度不错,基本实现了主要功能,旋转动效、阴影等处理到位。


编程能力之外,Qwen3-Coder还提供了许多其他的玩法,包括图像生成、视频生成等,并支持文档、图片、视频、音频等内容的上传,这可能是通过工具调用实现的。


正式发布后,Qwen官方也提供了Qwen3-Coder的部分用例。

例如,可以让其打造一个基于物理的烟囱拆除模拟,具有受控爆炸。


打造可互动的太阳系模拟,行星之间的关系基本准确。


开发出的网页小游戏完成度不错。


二、预训练仍有扩展空间,在20000个独立环境进行强化学习

Qwen团队在技术博客中分享了Qwen3-Coder的部分训练细节,该团队认为,目前预训练仍有进一步的扩展空间。

预训练阶段,Qwen3-Coder使用了7.5万亿token数据,其中代码占比70%,因此,模型在编程方面表现出色,同时也保留了通用和数学能力。

上下文方面,Qwen3-Coder原生支持256K上下文,并可通过YaRN扩展至1M,针对仓库规模和动态数据(例如拉取请求)进行了优化,从而适配智能体编程场景。

Qwen3-Coder的上一代模型Qwen2.5-Coder被运用于扩展合成数据,具体而言,Qwen2.5清洗并重写了噪声数据,提升了整体数据质量。

后训练阶段,Qwen团队认为,与普遍关注竞赛级代码生成不同,所有代码任务都天然适合执行驱动(execution-driven)的大规模强化学习。该团队在更广泛的现实世界编程任务上扩大了代码强化学习训练规模。

通过自动扩展多样化编程任务的测试用例,Qwen团队创建了高质量的训练实例,进一步释放了强化学习的潜力。这不仅提高了代码执行成功率,还为其他任务带来了收益。


这也启发该团队进一步探索难以解决,却易于验证的任务类型,这有望成为强化学习的沃土。

在现实世界的软件工程任务(例如 SWE-Bench)中,Qwen3-Coder必须与环境进行多轮交互,涉及规划、使用工具、接收反馈和做出决策。在Qwen3-Coder的后训练阶段,Qwen团队引入了长视距强化学习(智能体强化学习),鼓励模型通过使用工具进行多轮交互来解决现实世界任务。

智能体强化学习的关键挑战在于环境扩展。为解决这一问题,该团队构建了一个可扩展的系统,能够并行运行20000个独立环境。该基础设施为大规模强化学习提供了必要的反馈,并支持大规模评估。

因此,Qwen3-Coder在SWE-Bench Verified中实现了开源模型中的最佳性能,且无需使用推理(测试时扩展)。


同时开源的Qwen Code是一个用于研究目的的命令行界面(CLI)工具,基于Gemini CLI开发,针对Qwen-Coder模型进行了增强的解析器和工具支持。

除了Qwen Code,还可以使用Claude Code与Qwen3-Coder一起编程。只需在Dashscope平台上申请一个API密钥,并安装Claude Code即可开始编程。

结语:更多尺寸即将推出,探索编程智能体自我提升

在Cursor断供Claude等适用于编程领域的模型之际,Qwen3-Coder的本次开源给国内开发者提供了最新的替代选项。

Qwen团队透露,他们仍在努力提高Coding Agent的性能,旨在让它承担软件工程中复杂和乏味的任务,从而释放人类的生产力。

Qwen3-Coder的更多模型尺寸即将推出,可维持部署成本和性能之间的平衡。此外,该团队正在探索Coding Agent是否可以实现自我提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东一保安和AI聊天近6个月,打印出50万字聊天记录要讨说法:我以为它说的话、发来的签约协议都是真的……

广东一保安和AI聊天近6个月,打印出50万字聊天记录要讨说法:我以为它说的话、发来的签约协议都是真的……

观威海
2025-11-07 18:22:03
单位通知我被辞退,收拾时主管问我是干啥的,我笑了:明天就知道了

单位通知我被辞退,收拾时主管问我是干啥的,我笑了:明天就知道了

温情邮局
2025-10-29 10:16:06
废了?25岁国足新星神秘消失,别人比赛他逛商场,恐被邵佳一除名

废了?25岁国足新星神秘消失,别人比赛他逛商场,恐被邵佳一除名

国足风云
2025-11-08 11:19:02
建桥4399手表被偷后续!女小偷身份不一般,与男导员关系更是特殊

建桥4399手表被偷后续!女小偷身份不一般,与男导员关系更是特殊

夜深爱杂谈
2025-11-08 22:12:14
郭士强都不敢相信?当红国手战澳门半场0分,球迷:他投篮没眼看

郭士强都不敢相信?当红国手战澳门半场0分,球迷:他投篮没眼看

南海浪花
2025-11-08 15:52:43
炸!枪杀美医保CEO枪手曾被7个泰国人妖暴揍?狱中讨好粉丝收28万,网友:这算啥英雄?

炸!枪杀美医保CEO枪手曾被7个泰国人妖暴揍?狱中讨好粉丝收28万,网友:这算啥英雄?

英国报姐
2025-11-08 21:13:33
小红书上女性向避孕套火了,有人1个月狂揽300+万,增长20倍

小红书上女性向避孕套火了,有人1个月狂揽300+万,增长20倍

运营研究社
2025-11-07 14:05:57
“第二个香港”将要诞生?面积比香港大三十倍,目标是要比香港还自由

“第二个香港”将要诞生?面积比香港大三十倍,目标是要比香港还自由

叮当当科技
2025-11-08 10:32:33
中到大雨局部暴雨!今晚起,云南将再迎强降水,昆明……

中到大雨局部暴雨!今晚起,云南将再迎强降水,昆明……

鲁中晨报
2025-11-08 19:03:11
男子将热水器钢管通电致妻子洗澡时触电身亡 ,14岁女儿致信法院为父求情 终被判无期,判决书体现“司法温度”

男子将热水器钢管通电致妻子洗澡时触电身亡 ,14岁女儿致信法院为父求情 终被判无期,判决书体现“司法温度”

红星新闻
2025-11-08 13:45:22
妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

经典段子
2025-10-11 22:34:42
长沙医生不雅事件再升级!网传祖某某妻子为护士长,已经申请调岗

长沙医生不雅事件再升级!网传祖某某妻子为护士长,已经申请调岗

火山诗话
2025-11-07 20:55:08
强烈建议:今后所有的乒乓球比赛,禁止球迷到现场观看比赛和加油

强烈建议:今后所有的乒乓球比赛,禁止球迷到现场观看比赛和加油

杨哥乒乓
2025-11-07 19:45:29
“华人圈最红女优”被全网“开盒”荡妇羞辱,她却用恶评赚6000万

“华人圈最红女优”被全网“开盒”荡妇羞辱,她却用恶评赚6000万

诗意世界
2025-11-07 10:23:31
“最帅展昭”离世,享年58岁!

“最帅展昭”离世,享年58岁!

黎兜兜
2025-11-08 21:22:56
江苏3名失联孩童遗体找到,遗体现残酷真相,后悔没拦,邻居断交

江苏3名失联孩童遗体找到,遗体现残酷真相,后悔没拦,邻居断交

户外钓鱼哥阿勇
2025-11-09 04:26:33
中方拒买巴西高价大豆,巴西 3 天就报复,结果自己先慌了?

中方拒买巴西高价大豆,巴西 3 天就报复,结果自己先慌了?

阿器谈史
2025-11-08 05:34:40
沙特王子离奇重病赴华求医,中医把脉3分钟,1句话让随行医生傻眼

沙特王子离奇重病赴华求医,中医把脉3分钟,1句话让随行医生傻眼

小哥很OK
2025-10-14 17:59:41
央视“红姨”炸锅,网友变粉:全红婵带娃凭啥比金牌还让人上头?

央视“红姨”炸锅,网友变粉:全红婵带娃凭啥比金牌还让人上头?

可乐谈情感
2025-11-09 04:54:05
法兰克福冠军赛:男单四强对阵,松岛辉空迎战旧世一,邱党VS安东

法兰克福冠军赛:男单四强对阵,松岛辉空迎战旧世一,邱党VS安东

越岭寻踪
2025-11-08 06:12:09
2025-11-09 06:23:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10713文章数 116894关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

亲子
健康
时尚
游戏
公开课

亲子要闻

权威医者说|“备孕夫妻”饮食小技巧

超声探头会加重受伤情况吗?

五十多岁的女性秋季别瞎打扮,这3个技巧实用还时髦,快收藏

给游戏女主P上大雷后,却发现还是越丑越好卖?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版