它不是“更聪明的程序员”,是第一次把开发当一整件事来学。以前的代码模型学的是“怎么写对”,它学的是“怎么干成”。比如修一个GitHub上的bug,得先复现问题,看日志,改三四个文件,跑通全部测试,还得按项目规范写提交信息——这些不是靠猜,是模型在训练时就反复走完无数遍失败-重试-成功的完整路径。它记住的不是语法,是动作和后果之间的关系。
官方说80B总参数、只激活3B,听起来像挤牙膏,但重点不在省电。RTX 4090显卡就能跑它的Instruct版,装进VS Code插件里,敲完“把登录页按钮改成蓝色并加埋点”就直接执行,不用跳网页、不用等API、不用手动切终端。我试了下本地起一个Python服务,它自动检查requirements.txt缺啥、改pyproject.toml、顺手加了个health check路由,最后用curl测了一次返回200——整个过程没卡顿,也没让我点“确认”。
SWE-Bench Verified跑出70%+,这分数不像以前那样只看结果对不对。它要求模型必须真正在沙箱里跑起来,环境要配,测试要过,补丁要合进主干,不能靠蒙。有信源提到,它在跨文件修改时不再乱改无关代码,崩溃后也不瞎重试,而是真去翻error traceback定位第几行、哪个变量没初始化。TerminalBench 2.0里它甚至能把“帮我找最近三天nginx错误日志里502最多的IP”直接转成带grep、awk、sort的命令串,还顺手加了sudo提醒。
开源版本分Base和Instruct两种。Base给研究者用,你可以加自己的调试逻辑、挂进CI流程;Instruct直接给开发者,拖进IDE就能干活。它不逼你上云,也不卖API套餐,阿里云百炼只是可选增强——本地搞不定的重活,再扔上去算。这跟以前动不动就要部署GPU集群的AI编码工具完全不是一路。
回头看Qwen这三年,Qwen1是能读新闻的AI,Qwen2开始能写点脚本,Qwen3-235B能聊技术文档,Qwen3-Coder是能写单元测试的,而这次Qwen3-Coder-Next是第一个敢在你本地终端里敲Git commit的。全球开源模型里,CodeLlama喂的是代码文本,StarCoder2比谁生成更准,Phind拼谁检索更快,只有它拿真实执行反馈当训练主料,错一次,学一次,跑崩一次,记一条。
![]()
当然不是万能。有工程师说,让它重构一个有十几层依赖的微服务网关,它改了一半就不知道下一步该动API网关还是服务发现配置,最后卡在选工具上:该用kubectl还是直接改yaml?官方文档里也写了,这种时候它不会硬上,而是停住,告诉你卡在哪,等你指方向。
它不解释原理,不画流程图,也不输出“思考过程”。但如果你打开它的调试日志,能看到它每步做的选择:为什么先查package.json而不是tsconfig,为什么删了那行console.log,为什么把timeout从3秒调成5秒。这些不是答案,是动作记录——就像一个实习生一边干一边告诉你他在想啥。
它没法代替人做架构设计,也不会帮你跟产品吵架要排期,但当你第4次手动配置同一套CI环境,第7次翻文档找Git hook写法,第12次在日志里找那个飘忽的undefined时,Qwen3-Coder-Next只是默默把终端光标挪到正确位置,敲下你本来就要敲的那几行。
代码能运行,不等于活了。但至少这回,它开始学着呼吸了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.