网易首页 > 网易号 > 正文 申请入驻

阿里深夜开源80B编程模型!专攻智能体,周靖人、林俊旸最新成果发布

0
分享至

来源:市场资讯

(来源:智东西)


智东西

作者 李水青

编辑 心缘

智东西2月4日报道,今日凌晨,阿里开源了一款小型混合专家模型Qwen3-Coder-Next,专为编程智能体(Agent)和本地开发打造。

该模型总参数80B,激活参数仅3B,在权威基准SWE-Bench Verified上实现了超70%的问题解决率,性能媲美激活参数规模大10-20倍的稠密模型。

Qwen3-Coder-Next的主要增强功能如下:

1、高效MoE架构:仅需激活3B参数,可达到与激活参数数量高出10-20倍的模型相当的性能,包括37B激活参数的DeepSeek-V3.2、32B激活参数的Kimi K2.5等,降低显存与算力需求。

2、更强智能体能力:擅长长段推理、复杂工具使用以及从执行失败中恢复,在动态编程任务中性能强大。

3、与真实世界的IDE多样化集成:其256k的上下文长度,加上对各种脚手架模板的适应性,使其能够与OpenClaw、Qwen Code、Claude Code、Web Dev、Browser use、Cline等不同的CLI/IDE平台无缝集成,支持多样化的开发环境。

Qwen3-Coder-Next在实际开发中能理解需求、编写代码,还能与环境交互、完成任务,可以在没有人工干预的情况下生成可玩的网页游戏,部署服务并自动测试。

阿里在编程智能体上进展不断。就在昨日,阿里云CTO周靖人、阿里千问大模型技术负责人林俊旸署名的论文在Arxiv平台上发表,为推进下一代编程Agent的发展提供了新资源和可靠方法。

简单来说,他们提出了一个可扩展的高效框架SWE-Universe,用于从GitHub拉取请求自动构建真实世界的软件工程(SWE)可验证环境。利用一个构建Agent,团队将真实世界的多语言SWE环境的数量扩展到接近百万级(807693 个)。最后,团队将该技术应用于Qwen3-Max-Thinking,并在SWE-Bench Verified测试中取得了75.3%的高分。


▲论文截图

论文地址:

https://www.arxiv.org/abs/2602.02361

回到本次面向产业推出的新模型来看,团队已正式开源Qwen3-Coder-Next(Base)与Qwen3-Coder-Next(Instruct)两个版本,支持研究、评测及商业应用多种场景。

Qwen3-Coder-Next一经发布引起了广泛关注,有网友在社交平台X上称这一模型“尺寸完美”,也有网友表示自己等便携版的Qwen3-Coder已经很久了。


▲社交平台X网友对Qwen3-Coder-Next模型的部分评论

魔搭社区地址:

https://www.modelscope.cn/collections/Qwen/Qwen3-Coder-Next

Hugging Face地址:

https://huggingface.co/collections/Qwen/qwen3-coder-next

GitHub地址:

https://github.com/QwenLM/Qwen3-Coder

技术报告地址:

https://qwen.ai/blog?id=qwen3-coder-next

一、实测媲美10-20倍激活参数稠密模型,赶超DeepSeek

尽管激活参数规模很小,Qwen3-Coder-Next在多项智能体评测上仍能匹敌或超过若干更大的开源模型。

该模型在SWE-Bench、TerminalBench 2.0和Aider等多个主流编程智能体基准上的表现如下。


▲Qwen3-Coder-Next实测表现

使用SWE-Agent框架时,Qwen3-Coder-Next在SWE-Bench Verified上达到70%以上,超过了DeepSeek-V3.2,接近GLM-4.7、MiniMax M2.1。

在多语言设置以及更具挑战的SWE-Bench-Pro基准上,Qwen3-Coder-Next同样超过了DeepSeek-V3.2,还较大幅度领先于GLM-4.7、MiniMax M2.1。

在效率方面,Qwen3-Coder-Next与同类模型在SWE-Bench-Pro基准上进行对比分析,每次推理仅激活3B参数,却能达到与激活参数量达其10-20倍的模型相当的基准性能,包括37B激活参数的DeepSeek-V3.2、32B激活参数的GLM-4.7、32B激活参数的Kimi K2.5等。

虽然专有的全注意力模型在绝对性能上仍保持领先优势,但Qwen3-Coder-Next在面向低成本智能体部署的应用场景中,仍能在效率与性能之间取得更优的帕累托权衡。


▲Qwen3-Coder-Next实测表现

二、创新智能体训练配方:强化智能体训练的信号

Qwen3-Coder-Next模型基于Qwen3-Next-80B-A3B-Base构建,采用混合注意力与MoE的新架构;通过大规模可执行任务合成、环境交互与强化学习进行智能体训练,在降低推理成本的同时,提升编程与智能体能力。

Qwen3-Coder-Next并不只依赖参数规模扩张,而是将重点放在扩展智能体训练信号(agentic training signals)上。团队使用大规模的可验证编程任务与可执行环境进行训练,让模型能够直接从环境反馈中学习,而非仅依赖静态文本。

训练过程主要包括:

1、持续预训练:在以代码与智能体为中心的大规模数据上进行。

2、监督微调:基于高质量的智能体交互轨迹,优化模型的行为。

3、领域专家训练:针对软件工程、问答、Web/UX 等特定领域,精细化专家能力。

4、专家知识蒸馏:最终将27个专家的能力融合至一个轻量的、可部署的单一模型。

这套“配方”的核心目标,是教会模型长时程推理、熟练使用工具,以及从执行错误中有效恢复——这些正是实用编程智能体所需的核心能力。

三、多样化集成下游应用,游戏生成测试无需人工干预

Qwen3-Coder-Next的价值还体现在于其低部署门槛与应用体验。

得益于仅3B的激活参数,开发者可灵活将其集成至多种场景:作为本地IDE插件,实现自动修复与代码生成;构建命令行智能体(CLI Agent),通过自然语言操作终端、管理项目;部署于企业内网环境,打造私有化、高响应的编程辅助系统。“小激活、快响应、强能力”为编程智能体的规模化落地提供了更具可行性的路径。

该模型可集成到多种下游应用中,覆盖OpenClaw、Qwen Code、Claude Code、Web Dev、Browser use、Cline等多种开发环境。

结语:研发落地双投入,阿里加码编程智能体

编程智能体正成为阿里通义千问团队的强攻领域。Qwen3-Coder-Next在编程智能体基准上表现强劲,展现了技术在实用场景中的应用价值。而周靖人、林俊旸署名的新论文则代表了其编程智能体新的前沿进展,形成了研发和落地两条路快步走的趋势。

展望未来,团队认为强大的智能体能力,如自主使用工具、应对难题、管理复杂任务,是更好编程智能体的关键。接下来团队计划提升模型的推理与决策能力、支持更多任务,并根据使用反馈快速迭代更新。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
婆婆退休宴20口独漏我,关机旅游回家老公痛哭九百万养老金没了

婆婆退休宴20口独漏我,关机旅游回家老公痛哭九百万养老金没了

晓艾故事汇
2026-05-07 11:02:58
历史奖金排名更新!吴宜泽跃居第47位,丁俊晖中国最高火箭第一!

历史奖金排名更新!吴宜泽跃居第47位,丁俊晖中国最高火箭第一!

世界体坛观察家
2026-05-07 06:26:13
我老公是上门女婿,我父母那天把他骂走了,6个月都没回来

我老公是上门女婿,我父母那天把他骂走了,6个月都没回来

千秋文化
2026-04-28 20:12:39
苦脸小花被平台封杀了?张子枫手臂伤疤?吴昕踩谢娜?乔欣要退圈了?姨太问答

苦脸小花被平台封杀了?张子枫手臂伤疤?吴昕踩谢娜?乔欣要退圈了?姨太问答

毒舌扒姨太
2026-05-06 22:27:39
尼克斯2比0!三人20+1将堪比定海神针 “马乔组合”45分难救费城

尼克斯2比0!三人20+1将堪比定海神针 “马乔组合”45分难救费城

枪炮篮球 PiU
2026-05-07 10:10:18
三星中国涉多起法律纠纷,旗下50余家分支机构已注销

三星中国涉多起法律纠纷,旗下50余家分支机构已注销

PChome电脑之家
2026-05-07 11:06:20
女子玩瀑布秋千坠亡,“已达成赔偿协议”,目击者:她头撞到瀑布凸出岩石上,景区曾称“包活”,劝体验者“胆子要放大”,警方已介入

女子玩瀑布秋千坠亡,“已达成赔偿协议”,目击者:她头撞到瀑布凸出岩石上,景区曾称“包活”,劝体验者“胆子要放大”,警方已介入

沈阳公交网小林
2026-05-07 00:14:19
黄仁勋下定决心彻底不装了!

黄仁勋下定决心彻底不装了!

安安说
2026-05-07 11:03:58
你以为麻豆传媒是卖片的,其实它是卖人的

你以为麻豆传媒是卖片的,其实它是卖人的

创始人笔记
2026-04-23 21:44:50
特朗普:若伊朗同意协议将开放霍尔木兹海峡 ,否则轰炸就会开始 ,且规模和强度将远超以往 ,伊朗称正在审阅美方提案

特朗普:若伊朗同意协议将开放霍尔木兹海峡 ,否则轰炸就会开始 ,且规模和强度将远超以往 ,伊朗称正在审阅美方提案

每日经济新闻
2026-05-07 00:33:15
真相大白!那台拉缸的张雪820RR返厂,经拆解后本人公布故障原因

真相大白!那台拉缸的张雪820RR返厂,经拆解后本人公布故障原因

娱乐圈的笔娱君
2026-05-07 06:18:09
俄罗斯是真眼馋!中国大量东风导弹将要退役,可以出口换外汇吗?

俄罗斯是真眼馋!中国大量东风导弹将要退役,可以出口换外汇吗?

潮鹿逐梦
2026-05-06 16:44:26
卢卡・东契奇伤病重大更新,对湖人而言是糟糕消息

卢卡・东契奇伤病重大更新,对湖人而言是糟糕消息

夜白侃球
2026-05-07 10:37:22
世界杯FIFA开出天价版权,电视转播谈判陷僵局

世界杯FIFA开出天价版权,电视转播谈判陷僵局

齐鲁壹点
2026-05-06 12:45:16
知名医科大学原校长被查,曾为院士候选人,是当地“顶流”医生

知名医科大学原校长被查,曾为院士候选人,是当地“顶流”医生

梅斯医学
2026-05-06 19:00:04
冒死突围!伊朗外长抵京:身陷三重绝境,北京成其最后“生路”?

冒死突围!伊朗外长抵京:身陷三重绝境,北京成其最后“生路”?

沧海一书客
2026-05-07 09:35:13
加速高血脂恶化的原因:喝酒排第9,排第1的,很多人天天做

加速高血脂恶化的原因:喝酒排第9,排第1的,很多人天天做

健康科普365
2026-05-06 09:10:47
“停火了,开火了,叫停了”

“停火了,开火了,叫停了”

中国新闻周刊
2026-05-06 18:10:56
导演王晶揭秘当年婚姻变故,不是王菲,三年五次怀胎才是分开根源

导演王晶揭秘当年婚姻变故,不是王菲,三年五次怀胎才是分开根源

夸大其词的说
2026-05-06 05:35:37
随着浙江2-1绝杀玉昆,10人国安3-0,中超最新积分:海牛反超海港

随着浙江2-1绝杀玉昆,10人国安3-0,中超最新积分:海牛反超海港

球场没跑道
2026-05-06 22:13:27
2026-05-07 11:48:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3120988文章数 7199关注度
往期回顾 全部

科技要闻

凌晨突发!马斯克租22万块GPU给“死敌”

头条要闻

北京三位女大学生青海自驾游2死1伤 伤者一审获刑4年

头条要闻

北京三位女大学生青海自驾游2死1伤 伤者一审获刑4年

体育要闻

阿森纳巴黎会师欧冠决赛!5月31日开战

娱乐要闻

小S阿雅重返大S母校,翻看大S毕业照

财经要闻

特朗普:美伊“很有可能”达成协议

汽车要闻

理想为什么不做轿车,有了解释……

态度原创

本地
健康
游戏
公开课
军事航空

本地新闻

用青花瓷的方式,打开西溪湿地

干细胞治烧烫伤面临这些“瓶颈”

《文明7》更新“Test of Time”5月19日上线 新系统导入

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:美伊"很可能"达成协议

无障碍浏览 进入关怀版