网易首页 > 网易号 > 正文 申请入驻

AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题

0
分享至



作者:上交博士,在腾讯codebuddy 实习,发表一作顶会顶刊论文10篇(含best paper 等),开源PFLlib等明星项目,获得社区赞誉。主要研究AI强化学习、AI合成数据、Agent 记忆等。

在 AI 辅助 Coding 技术快速发展的背景下,大语言模型(LLMs)虽显著提升了软件开发效率,但开源的 LLMs 生成的代码依旧存在运行时错误,增加了开发者调试成本。

现有基于偏好优化的改进方法,多依赖「通过 / 失败」二元信号构建训练数据,难以知晓「错在哪」,也忽视了模型能力在训练时的动态变化特性。

针对此缺口,在腾讯 CodeBuddy 实习期间,我们提出自适应渐进式偏好优化方法(AP2O),并构建 AP2O-Coder 框架。该方法借鉴人类的「按题型高效刷题」经验出发,通过「考试 - 分析 - 纠错 - 小测」的系统性流程提升模型代码纠错能力,在多款主流开源模型上实现最高 3% 的 pass@k 性能提升,同时降低训练数据需求量。



  • 论文标题:AP2O-Coder: Adaptively Progressive Preference Optimization for Reducing Compilation and Runtime Errors in LLM-Generated Code
  • 论文链接:https://arxiv.org/pdf/2510.02393
  • 开源代码:https://github.com/TsingZ0/AP2O

一、现有方法的核心挑战

与 AP2O-Coder 的针对性设计

当前离线偏好优化方法(如 DPO 等)在 LLM 代码纠错任务中面临三大核心挑战:

  • 错误类型感知缺失:仅依赖单元测试的二元反馈信号,无法知晓类型错误(如 KeyError、ValueError 等),导致模型难以定位错误原因;
  • 训练聚焦性不足:训练数据采用随机打乱的方式批量输入,模型需在多种错误类型间频繁切换适应,纠错学习的针对性不强;
  • 动态适配能力薄弱:静态构建的训练集无法匹配模型训练过程中不断变化的能力短板,易引发灾难性遗忘或训练资源浪费。

为应对上述挑战,AP2O-Coder 借鉴人类按题型进行的「错题整理 - 专题突破 - 定期复盘」的学习模式,构建了包含四大核心模块的优化框架,旨在实现错误信息的深度利用与模型能力的动态适配。

二、AP2O-Coder 的

核心技术框架与工作机制

AP2O-Coder 的核心设计思路是通过系统化流程实现错误类型的精准捕捉、渐进式优化与动态适配,其整体框架包含四个关键步骤(如图 1 所示):



图 1:AP2O-Coder 框架流程图

代码生成评估(Exam)

为全面掌握目标模型的初始能力边界,该模块让 LLM 在 M 个编程任务上生成 N 个候选答案(采用温度系数 1.0 的设置以充分探索能力范围),通过配套的单元测试获取每个答案的「通过 / 失败」标签,形成初始训练数据集,为后续错误分析提供基础。

错误诊断分析(Analysis)

借助编程语言专用分析工具(如 Python 解释器)对所有失败答案进行结构化解析,标注具体错误类型并统计各类错误的出现频率,按错误题型构建结构化的「错题本」。该过程实现了从二元反馈到精细化错误信息的转化,为针对性优化提供数据支撑。

渐进式偏好优化(Correction)



自适应错误回放(Quiz)

为适配模型训练过程中的能力变化,该模块定期在一个小验证集上评估模型性能,实时捕捉当前阶段的高频错误类型,找出模型依旧犯错的题型,将其对应的失败答案重新纳入训练流程。通过动态调整训练数据分布,确保模型始终聚焦于当前的能力短板,有效缓解灾难性遗忘问题。

三、实验验证与结果分析

研究团队在 6 款主流 LLM(含代码专用模型 CodeLlama、DeepSeek-Coder、Qwen2.5-Coder 与通用模型 Llama3、Qwen2.5、Qwen3)上开展了系统验证,参数规模覆盖 0.5B - 34B,实验基准包括 EvalPlus(HumanEval/MBPP)与 LiveCodeBench v6,主要取得以下研究发现:

性能提升的有效性

在不同类型与参数规模的模型上,AP2O-Coder 均展现出稳定的性能改进。如下表所示,在 EvalPlus(HumanEval)基准上,AP2O-Coder (H2L) 即使对于 30B+ 的大参数模型,也能实现 2.8% - 3.4% 的性能优化,且未出现现有后训练方法中性能退化现象。



表 1:各种类型和规模代码的 LLM 在 Pass@1 on EvalPlus (HumanEval) 上的表现。

错误抑制效果与泛化能力



图 2:使用 Qwen2.5-Coder-7B 在测试基准上出现错误的统计数据。



图 3:使用 Qwen2.5-Coder-7B 在测验阶段对验证集上的错误统计结果。我们的 AP2O-Coder 能够逐步减少错误。

如图 2 所示,相较于 SFT、DPO 等基线方法,AP2O-Coder 能够有效降低各类错误的发生频率,且未引入新的错误类型。如图 3,在 Qwen2.5-Coder-7B 的实验中,高频错误「WrongResult」的发生率显著下降,IndexError 等小众错误在训练后期实现清零。同时,该方法在 pass@5、pass@10 等指标上的稳定提升(如图 4),表明其增强了模型代码生成的泛化能力。



图 4:在不同模型规模下,使用 DeepSeek-Coder 在 EvalPlus (HumanEval) 基准上的 pass@5 和 pass@10 表现。

样本效率的优化



图 5:用于在 MBPP 训练集上对不同规模的 Qwen2.5-Coder 进行训练并达到最优性能的偏好数据对需求。

AP2O-Coder 通过错误类型的精准聚焦,显著提升了训练数据的利用效率。实验结果显示,该方法仅需 4% - 60% 的偏好数据即可达到传统 DPO 方法的最优性能,在 32B 参数规模的模型上,数据需求量减少更为明显(如图 5),这就和班上刷题时,优等生所需刷题量更少类似,为低资源场景下的 LLM 代码优化提供了可行路径。

通用 LLM 适配性



图 6:在将通用 LLM(如 Qwen2.5、Qwen3 和 Llama3)适配到代码领域时,其在 EvalPlus (MBPP) 上的 pass@1 表现。

AP2O-Coder 不仅适用于代码专用 LLM,也能有效支持通用 LLM 向代码领域的适配。在 Qwen3、Llama3 等通用模型的实验中,经过该方法优化后,模型在 MBPP 基准上的 pass@1 分数显著提升,验证了其跨模型类型的适配能力(如图 6)。

四、研究发现与方法特性

实验过程中,团队发现了优化策略与模型规模的适配规律:

对于Qwen2.5-Coder,小参数模型(≤ 3B)采用「低频错误 -> 高频错误」的优化顺序更具优势,这一策略可避免模型因能力有限而陷入高频常见错误的学习困境,而让小模型一开始能看到不同种类的错误,跳出局部最优;

大参数模型(≥ 7B)采用「高频错误 -> 低频错误」的顺序效果更优,能够充分发挥其强学习能力,快速实现整体错误率的下降。这一发现为不同规模 LLM 的代码优化提供了针对性参考。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张艺谋没想到,化“轻薄妆”杀疯全场的60岁巩俐,再次证实他眼光

张艺谋没想到,化“轻薄妆”杀疯全场的60岁巩俐,再次证实他眼光

冷紫葉
2026-01-14 22:19:27
中国被公认为世界上最安全的大国

中国被公认为世界上最安全的大国

中国日报网
2026-01-16 17:53:07
商务部美大司负责人解读中国加拿大经贸磋商成果

商务部美大司负责人解读中国加拿大经贸磋商成果

极目新闻
2026-01-16 23:05:00
中央纪委全会提年轻干部腐败,有何深意

中央纪委全会提年轻干部腐败,有何深意

中国新闻周刊
2026-01-15 20:02:26
越南决定赌,宁愿多花300亿美元也不选中国

越南决定赌,宁愿多花300亿美元也不选中国

扶苏聊历史
2025-12-22 15:52:18
刚刚通知!深圳将取消限外!

刚刚通知!深圳将取消限外!

东莞好生活
2026-01-16 22:04:13
牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

春露秋霜
2026-01-16 06:27:20
阿森纳颤抖!曼城3000万镑敲定第2签 英超顶级中卫加盟 击败2豪门

阿森纳颤抖!曼城3000万镑敲定第2签 英超顶级中卫加盟 击败2豪门

我爱英超
2026-01-16 19:52:25
一针见血?名宿为国足19岁神童喊冤:他能拿球组织,被教练用废了

一针见血?名宿为国足19岁神童喊冤:他能拿球组织,被教练用废了

国足风云
2026-01-16 13:56:41
日本集体悼念聂卫平!棋圣小林光一:中国国民英雄 输给他后我剃发出家

日本集体悼念聂卫平!棋圣小林光一:中国国民英雄 输给他后我剃发出家

野渡舟山人
2026-01-16 09:52:00
U23亚洲杯争议判罚!日本队点球被取消,VAR介入,约旦逃过一劫

U23亚洲杯争议判罚!日本队点球被取消,VAR介入,约旦逃过一劫

奥拜尔
2026-01-16 21:04:36
泰军无视VT-4小插曲,加码采购VN-1轮式步战车!

泰军无视VT-4小插曲,加码采购VN-1轮式步战车!

杨风
2026-01-15 22:08:36
“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

智能车参考
2026-01-14 17:14:37
WTT球星赛:林诗栋10-7被逆转!29岁韩国名将反败为胜,追到1-1!

WTT球星赛:林诗栋10-7被逆转!29岁韩国名将反败为胜,追到1-1!

刘姚尧的文字城堡
2026-01-16 17:00:58
特朗普向全球发出通牒:180天内必须对中国动手,不帮忙就加税

特朗普向全球发出通牒:180天内必须对中国动手,不帮忙就加税

易昂杨
2026-01-16 15:18:11
铁托晚年生活极其奢靡,去世40年了,前南斯拉夫民众依然怀念他

铁托晚年生活极其奢靡,去世40年了,前南斯拉夫民众依然怀念他

大千世界观
2026-01-16 19:40:14
聂卫平全家福曝光太催泪,3个子女近况各不同,最后露面暴瘦!

聂卫平全家福曝光太催泪,3个子女近况各不同,最后露面暴瘦!

古希腊掌管松饼的神
2026-01-15 13:55:45
猪肚炖得对,药铺关门睡!学会炖一锅,胃病、湿气都怕它!别不懂

猪肚炖得对,药铺关门睡!学会炖一锅,胃病、湿气都怕它!别不懂

江江食研社
2026-01-15 07:30:08
贾国龙,这是要不死不休啊

贾国龙,这是要不死不休啊

亮见
2026-01-16 14:43:38
突发!血栓噩梦+赛季报销,火箭弃将再遭打击,才21岁啊,可惜了

突发!血栓噩梦+赛季报销,火箭弃将再遭打击,才21岁啊,可惜了

球童无忌
2026-01-16 15:22:47
2026-01-17 00:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12133文章数 142542关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

教育
本地
亲子
艺术
健康

教育要闻

寒假指南|你的国美寒假生活一站式指南,请查收!

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

亲子要闻

精神科医生:家长的“为你好”也可能对孩子造成创伤

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

血常规3项异常,是身体警报!

无障碍浏览 进入关怀版