网易首页 > 网易号 > 正文 申请入驻

模型即 Agent:Qoder 如何用真实工程奖励训练出更好用的编程模型!

0
分享至

点击下方“JavaEdge”,选择“设为星标”

第一时间关注技术干货!

本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!

  • 魔都架构师 | 全网30W技术追随者

  • 大厂分布式系统/数据中台实战专家

  • 主导交易系统百万级流量调优 & 车联网平台架构

  • AIGC应用开发先行者 | 区块链落地实践者

  • 以技术驱动创新,我们的征途是改变世界!

  • 实战干货:编程严选网

为 Qoder 量身定制的强化学习模型 ”
1 引言

为提升 Qoder 端到端编程体验而打造的定制模型——Qwen-Coder-Qoder。

基于 Qwen-Coder 基座,并紧贴 Qoder 的 Agent 框架、工具与场景进行了大规模强化学习训练。面向真实软件工程任务的评测集 Qoder Bench 上,任务解决率超过 Cursor Composer-1,尤其在 Windows 系统下的终端命令准确率方面,领先幅度达到 50%。


也为 Qoder 的线上用户体验带来了切实的、数据可证的提升。线上代码留存率提升 3.85%,工具异常率下降 61.5%,Token 消耗下降 14.5%,数据整体已接近世界顶级模型水平。


许多方面都展现出更接近资深开发者的"品味"和"思维"。一个优秀的 AI 编程伙伴,不仅要能解决问题,更要解决得漂亮、解决得地道。

  • 遵循软件工程规范:许多通用模型在训练时以"解决问题"为唯一目标,倾向于"另辟蹊径",绕开现有框架。而 Qwen-Coder-Qoder 在训练中被引导去严格遵循工程规范,保持与项目一致的代码风格,确保代码质量。

  • 理解完整项目上下文:通过学习 Qoder Agent 特有的工具和上下文数据(如代码图谱、项目记忆、Repo Wiki 等),Qwen-Coder-Qoder 能够从全局视角理解代码仓库,精准地使用工具完成任务。

  • 高效的并行处理能力:它能够识别逻辑上无依赖关系的工具调用任务,并行执行代码检索、任务规划、多位置代码修改等操作,显著提升执行效率。

  • 坚韧的问题解决能力:在面对复杂或棘手问题时,通用模型在多次失败后往往会放弃。而 Qwen-Coder-Qoder 则展现出更强的"开发者思维":持续尝试,直至问题解决。

2 "模型-智能体-产品"的智能进化体系

Qoder 智能进化体系的必然产物。


image.png

AI Coding正快速发展,着力构建"模型即 Agent,Agent 即产品,产品增强模型"的智能进化体系。模型是这一切基础,将 Qoder Agent 需要的各种能力都训练到 Qwen-Coder-Qoder,这个模型直接驱动 Agent 来执行任务。Agent 是核心,一切功能都围绕 Qoder Agent 展开。产品触达万千用户,可感知用户的真实行为和偏好,从中发掘出"软件工程的最佳开发实践"来作为奖励信号,增强模型的训练。

这形成了一个大模型软件工程智能的进化体系。Qwen-Coder-Qoder 正是基于真实产品环境、真实软件开发任务、真实软件开发奖励而训练的大规模强化学习模型。

3 实现 3.1 真实的 Qoder Agent 作为沙盒环境

模型充分学习综合使用 Qoder 的 Knowledge、Memory、Tools/MCP、Context 等来解决真实编程任务,相比通用模型,我们的模型和产品能做到最好契合,随模型训练迭代演进,这种优势不断释放价值。还打造了一条完整的自动化可执行环境构建链路,产出大量真实项目的可执行环境。在训练过程中,依靠强大虚拟化容器技术,可快速拉起和销毁数万级别的容器,以满足大规模强化学习训练需求。


3.2 真实软件工程最佳实践作为奖励信号

Reward 在智能体训练中尤重要,我们启用了多种正确性的验证方式,包括单元测试验证、命令行验证、多维任务验证等,确保智能体正确解决问题。

还对过程做更多约束,确保变更符合软件工程规范,如:编码风格、复用性和耦合度等,使解决方案无论是方案思路、编码风格均与资深开发者对齐。

在 Reward 构建过程中,Reward Hacking 是绕不开的话题,如想提高模型并行度,如果只要并行调用就得到奖励,那模型为骗取奖励就会搜索大量不相关或弱相关文件,使并行度大幅提升,但对最终正确性没带来实质贡献。Reward Hacking就是与大模型强化学习"斗智斗勇",为此专门构建了一套 "Rewarder - Attacker" 对抗式审查机制,有效提升 Reward 系统构建的速度和健壮性。

3.3 大规模高效的强化学习训练框架

用 ROLL 训练,通过一系列系统级优化,让数千卡规模集群能够高效完成数千亿参数 MoE LLM 的 RL 后训练。在每轮包含 rollout 与 training 的流程中,rollout 往往占用 70% 以上时间。为提升端到端吞吐:

  • 优化 rollout 阶段本身(异步调度减少等待、prefix/KV cache 复用消除冗余计算、冗余环境对抗长尾等)

  • 优化 rollout–training 协同(放宽 on-policy 约束、支持跨版本样本生成、training 与 rollout 异步并行、等待时让渡 GPU 给 rollout 等)

综合这些优化,实际获得 10× 以上吞吐提升,显著缩短训练周期。

4 展望

模型即 Agent,Agent 即产品,产品增强模型的智能进化体系打造的初版模型。可见模型对整体端到端体验提升的潜力。

编程严选网:http://www.javaedge.cn/ 专注分享AI时代下软件开发全场景最新最佳实践~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
中方划下红线,不许对台军售,美方下达通牒,蓝白阵营已经选边站

中方划下红线,不许对台军售,美方下达通牒,蓝白阵营已经选边站

人间放映厅
2026-02-12 15:10:18
高铁时代,绿皮车却火了,大巴车都要起死回生了

高铁时代,绿皮车却火了,大巴车都要起死回生了

历史总在押韵
2026-02-12 23:53:10
不是租借,前国门被低价甩卖!上海申花决策失误,门将已无人可用

不是租借,前国门被低价甩卖!上海申花决策失误,门将已无人可用

大嘴说台球
2026-02-13 09:50:27
陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

好贤观史记
2025-11-09 21:58:39
和谢贤分手7年后,40岁Coco胖到认不出,拿着巨额分手费周游世界

和谢贤分手7年后,40岁Coco胖到认不出,拿着巨额分手费周游世界

小熊侃史
2026-02-11 12:57:49
刘炜正式回应辞职:感谢新疆所有人员 执教两季合计33胜20负

刘炜正式回应辞职:感谢新疆所有人员 执教两季合计33胜20负

醉卧浮生
2026-02-13 22:46:39
官方:巴萨已被欧洲足球俱乐部协会重新接纳为正式会员

官方:巴萨已被欧洲足球俱乐部协会重新接纳为正式会员

懂球帝
2026-02-14 00:12:17
江西省金融控股集团有限公司原党委书记、董事长齐伟被查

江西省金融控股集团有限公司原党委书记、董事长齐伟被查

澎湃新闻
2026-02-13 20:17:03
冬奥会女子冰壶循环赛:中国队7-4战胜英国迎来开门红

冬奥会女子冰壶循环赛:中国队7-4战胜英国迎来开门红

懂球帝
2026-02-13 12:34:36
医生建议!冰箱里这4样东西快扔掉,尤其第三种,多数家庭都在用

医生建议!冰箱里这4样东西快扔掉,尤其第三种,多数家庭都在用

展望云霄
2026-02-13 11:16:35
7000 万清洗!皇马更衣室炸了,阿韦罗亚下死手:他再无出场机会

7000 万清洗!皇马更衣室炸了,阿韦罗亚下死手:他再无出场机会

奶盖熊本熊
2026-02-13 07:04:24
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
2000万网红“听风的蚕”惨遭封禁!震惊全网

2000万网红“听风的蚕”惨遭封禁!震惊全网

李东阳朋友圈
2026-02-13 14:04:47
蔡文静穿这么露竟然敢去公园玩

蔡文静穿这么露竟然敢去公园玩

小椰的奶奶
2026-02-14 01:07:16
铁了心对付中国?暴跌58%,俄罗斯大幅加税,中国汽车出口骤降

铁了心对付中国?暴跌58%,俄罗斯大幅加税,中国汽车出口骤降

卷史
2026-02-02 12:01:46
你要做到:表面上不要和任何人翻脸,但内心可以和任何人说再见

你要做到:表面上不要和任何人翻脸,但内心可以和任何人说再见

木言观
2026-01-11 12:11:23
中国最著名“叛国者”去世,逃亡99.9%概率死,0.1%奇迹改写一生

中国最著名“叛国者”去世,逃亡99.9%概率死,0.1%奇迹改写一生

近史谈
2026-02-11 19:15:10
老A8想要让牢A进去……当然我说的是进监狱,别乱想!

老A8想要让牢A进去……当然我说的是进监狱,别乱想!

红色少女主播
2026-02-12 11:26:17
詹雅雯直奔金宝山看大S! 「激动蹲地痛哭」喊话具俊晔:不要失去勇气

詹雅雯直奔金宝山看大S! 「激动蹲地痛哭」喊话具俊晔:不要失去勇气

ETtoday星光云
2026-02-13 16:58:05
2026-02-14 03:35:00
JavaEdge incentive-icons
JavaEdge
Java 技术
470文章数 457关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

手机
房产
旅游
时尚
军事航空

手机要闻

iPhone 17e外观在新视频中曝光 预计发布日期即将到来

房产要闻

三亚新机场,又传出新消息!

旅游要闻

土耳其自驾行记(八)地中海边的慢时光——卡什小镇

穿上这些鞋拥抱春天

军事要闻

多次成功应对外舰、外机挑衅 太原舰展示052D硬核实力

无障碍浏览 进入关怀版