网易首页 > 网易号 > 正文 申请入驻

AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题

0
分享至



作者:上交博士,在腾讯codebuddy 实习,发表一作顶会顶刊论文10篇(含best paper 等),开源PFLlib等明星项目,获得社区赞誉。主要研究AI强化学习、AI合成数据、Agent 记忆等。

在 AI 辅助 Coding 技术快速发展的背景下,大语言模型(LLMs)虽显著提升了软件开发效率,但开源的 LLMs 生成的代码依旧存在运行时错误,增加了开发者调试成本。

现有基于偏好优化的改进方法,多依赖「通过 / 失败」二元信号构建训练数据,难以知晓「错在哪」,也忽视了模型能力在训练时的动态变化特性。

针对此缺口,在腾讯 CodeBuddy 实习期间,我们提出自适应渐进式偏好优化方法(AP2O),并构建 AP2O-Coder 框架。该方法借鉴人类的「按题型高效刷题」经验出发,通过「考试 - 分析 - 纠错 - 小测」的系统性流程提升模型代码纠错能力,在多款主流开源模型上实现最高 3% 的 pass@k 性能提升,同时降低训练数据需求量。



  • 论文标题:AP2O-Coder: Adaptively Progressive Preference Optimization for Reducing Compilation and Runtime Errors in LLM-Generated Code
  • 论文链接:https://arxiv.org/pdf/2510.02393
  • 开源代码:https://github.com/TsingZ0/AP2O

一、现有方法的核心挑战

与 AP2O-Coder 的针对性设计

当前离线偏好优化方法(如 DPO 等)在 LLM 代码纠错任务中面临三大核心挑战:

  • 错误类型感知缺失:仅依赖单元测试的二元反馈信号,无法知晓类型错误(如 KeyError、ValueError 等),导致模型难以定位错误原因;
  • 训练聚焦性不足:训练数据采用随机打乱的方式批量输入,模型需在多种错误类型间频繁切换适应,纠错学习的针对性不强;
  • 动态适配能力薄弱:静态构建的训练集无法匹配模型训练过程中不断变化的能力短板,易引发灾难性遗忘或训练资源浪费。

为应对上述挑战,AP2O-Coder 借鉴人类按题型进行的「错题整理 - 专题突破 - 定期复盘」的学习模式,构建了包含四大核心模块的优化框架,旨在实现错误信息的深度利用与模型能力的动态适配。

二、AP2O-Coder 的

核心技术框架与工作机制

AP2O-Coder 的核心设计思路是通过系统化流程实现错误类型的精准捕捉、渐进式优化与动态适配,其整体框架包含四个关键步骤(如图 1 所示):



图 1:AP2O-Coder 框架流程图

代码生成评估(Exam)

为全面掌握目标模型的初始能力边界,该模块让 LLM 在 M 个编程任务上生成 N 个候选答案(采用温度系数 1.0 的设置以充分探索能力范围),通过配套的单元测试获取每个答案的「通过 / 失败」标签,形成初始训练数据集,为后续错误分析提供基础。

错误诊断分析(Analysis)

借助编程语言专用分析工具(如 Python 解释器)对所有失败答案进行结构化解析,标注具体错误类型并统计各类错误的出现频率,按错误题型构建结构化的「错题本」。该过程实现了从二元反馈到精细化错误信息的转化,为针对性优化提供数据支撑。

渐进式偏好优化(Correction)



自适应错误回放(Quiz)

为适配模型训练过程中的能力变化,该模块定期在一个小验证集上评估模型性能,实时捕捉当前阶段的高频错误类型,找出模型依旧犯错的题型,将其对应的失败答案重新纳入训练流程。通过动态调整训练数据分布,确保模型始终聚焦于当前的能力短板,有效缓解灾难性遗忘问题。

三、实验验证与结果分析

研究团队在 6 款主流 LLM(含代码专用模型 CodeLlama、DeepSeek-Coder、Qwen2.5-Coder 与通用模型 Llama3、Qwen2.5、Qwen3)上开展了系统验证,参数规模覆盖 0.5B - 34B,实验基准包括 EvalPlus(HumanEval/MBPP)与 LiveCodeBench v6,主要取得以下研究发现:

性能提升的有效性

在不同类型与参数规模的模型上,AP2O-Coder 均展现出稳定的性能改进。如下表所示,在 EvalPlus(HumanEval)基准上,AP2O-Coder (H2L) 即使对于 30B+ 的大参数模型,也能实现 2.8% - 3.4% 的性能优化,且未出现现有后训练方法中性能退化现象。



表 1:各种类型和规模代码的 LLM 在 Pass@1 on EvalPlus (HumanEval) 上的表现。

错误抑制效果与泛化能力



图 2:使用 Qwen2.5-Coder-7B 在测试基准上出现错误的统计数据。



图 3:使用 Qwen2.5-Coder-7B 在测验阶段对验证集上的错误统计结果。我们的 AP2O-Coder 能够逐步减少错误。

如图 2 所示,相较于 SFT、DPO 等基线方法,AP2O-Coder 能够有效降低各类错误的发生频率,且未引入新的错误类型。如图 3,在 Qwen2.5-Coder-7B 的实验中,高频错误「WrongResult」的发生率显著下降,IndexError 等小众错误在训练后期实现清零。同时,该方法在 pass@5、pass@10 等指标上的稳定提升(如图 4),表明其增强了模型代码生成的泛化能力。



图 4:在不同模型规模下,使用 DeepSeek-Coder 在 EvalPlus (HumanEval) 基准上的 pass@5 和 pass@10 表现。

样本效率的优化



图 5:用于在 MBPP 训练集上对不同规模的 Qwen2.5-Coder 进行训练并达到最优性能的偏好数据对需求。

AP2O-Coder 通过错误类型的精准聚焦,显著提升了训练数据的利用效率。实验结果显示,该方法仅需 4% - 60% 的偏好数据即可达到传统 DPO 方法的最优性能,在 32B 参数规模的模型上,数据需求量减少更为明显(如图 5),这就和班上刷题时,优等生所需刷题量更少类似,为低资源场景下的 LLM 代码优化提供了可行路径。

通用 LLM 适配性



图 6:在将通用 LLM(如 Qwen2.5、Qwen3 和 Llama3)适配到代码领域时,其在 EvalPlus (MBPP) 上的 pass@1 表现。

AP2O-Coder 不仅适用于代码专用 LLM,也能有效支持通用 LLM 向代码领域的适配。在 Qwen3、Llama3 等通用模型的实验中,经过该方法优化后,模型在 MBPP 基准上的 pass@1 分数显著提升,验证了其跨模型类型的适配能力(如图 6)。

四、研究发现与方法特性

实验过程中,团队发现了优化策略与模型规模的适配规律:

对于Qwen2.5-Coder,小参数模型(≤ 3B)采用「低频错误 -> 高频错误」的优化顺序更具优势,这一策略可避免模型因能力有限而陷入高频常见错误的学习困境,而让小模型一开始能看到不同种类的错误,跳出局部最优;

大参数模型(≥ 7B)采用「高频错误 -> 低频错误」的顺序效果更优,能够充分发挥其强学习能力,快速实现整体错误率的下降。这一发现为不同规模 LLM 的代码优化提供了针对性参考。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国23岁女生在澳大利亚市中心遭种族歧视言论,并被打成脑震荡!两名施暴女子已逃跑,当地警方正公开征集案件线索

中国23岁女生在澳大利亚市中心遭种族歧视言论,并被打成脑震荡!两名施暴女子已逃跑,当地警方正公开征集案件线索

都市快报橙柿互动
2026-05-01 00:13:44
高速服务区靠什么赚钱,多数人只上个厕所,保安大叔一语道破玄机

高速服务区靠什么赚钱,多数人只上个厕所,保安大叔一语道破玄机

老特有话说
2026-04-28 23:40:28
如今黄金价格变成了一个天大的笑话,买黄金可笑到什么程度

如今黄金价格变成了一个天大的笑话,买黄金可笑到什么程度

阿器谈史
2026-03-25 04:43:38
苹果煮水太养人!5种搭配换着喝,脾胃好脸色更红润

苹果煮水太养人!5种搭配换着喝,脾胃好脸色更红润

开心美食白科
2026-04-11 15:27:36
立夏将至,劝告中老年人:坚持3多吃2少吃,顺时而食安稳入夏

立夏将至,劝告中老年人:坚持3多吃2少吃,顺时而食安稳入夏

市井觅食记
2026-04-30 13:31:45
马自达这款小SUV,让奥迪Q3有点尴尬

马自达这款小SUV,让奥迪Q3有点尴尬

像素与芯片
2026-04-30 20:08:27
世锦赛战报:墨菲4-4!竞逐决赛,6-2,吴宜泽四连鞭碾压12冠王

世锦赛战报:墨菲4-4!竞逐决赛,6-2,吴宜泽四连鞭碾压12冠王

求球不落谛
2026-05-01 04:58:37
瓦伦丁一句“车随便骑饭管够”火了,雅马哈被网友扒到裤子都掉了

瓦伦丁一句“车随便骑饭管够”火了,雅马哈被网友扒到裤子都掉了

小娱乐悠悠
2026-05-01 08:34:20
骑士幸运有哈登!如果把哈登换成加兰此刻不是41就是23断无生机

骑士幸运有哈登!如果把哈登换成加兰此刻不是41就是23断无生机

刘哥谈体育
2026-05-01 19:40:13
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
傅作义亲手放走5个蒋介石嫡系将领,几十年后才知他保全的是什么

傅作义亲手放走5个蒋介石嫡系将领,几十年后才知他保全的是什么

睡前讲故事
2025-12-09 13:06:03
815都怼到脸上了!菲律宾媒体:七艘中国军舰现场监控军演

815都怼到脸上了!菲律宾媒体:七艘中国军舰现场监控军演

阿龙聊军事
2026-04-30 21:52:52
奥尼尔:讨厌看湖人队打球,因为到最后阶段,他们总是想打英雄球

奥尼尔:讨厌看湖人队打球,因为到最后阶段,他们总是想打英雄球

好火子
2026-04-30 22:37:39
你敢信?这是61岁的背影!这位阿姨的自律,让很多年轻人沉默了…

你敢信?这是61岁的背影!这位阿姨的自律,让很多年轻人沉默了…

马拉松跑步健身
2026-04-29 21:38:52
国防部已经发出最后警告:关于如何处置赖清德,大陆早就想好了!

国防部已经发出最后警告:关于如何处置赖清德,大陆早就想好了!

揽星辰入梦
2026-04-29 17:05:55
南开杰青院长遭实名举报!64个数据完全一致,官方火速启动调查

南开杰青院长遭实名举报!64个数据完全一致,官方火速启动调查

老猫观点
2026-05-01 16:40:39
第11位下课主帅诞生 英超再遇“疯狂换帅季”

第11位下课主帅诞生 英超再遇“疯狂换帅季”

体坛周报
2026-04-30 20:03:15
大国重器集体亮相!人民海军成功配齐“航母五件套”

大国重器集体亮相!人民海军成功配齐“航母五件套”

环球网资讯
2026-05-01 07:24:23
比曹德旺还狠!豪捐300亿建大学,这个中国芯片首富什么来头?

比曹德旺还狠!豪捐300亿建大学,这个中国芯片首富什么来头?

百年历史老号
2024-05-05 22:30:31
解决“四人帮”过程中,吴德要调动部队,华国锋:你去找陈锡联

解决“四人帮”过程中,吴德要调动部队,华国锋:你去找陈锡联

元哥说历史
2026-05-01 20:45:03
2026-05-01 21:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12902文章数 142639关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

70岁法国老人骑浙江品牌摩托车 穿越多国抵达杭州

头条要闻

70岁法国老人骑浙江品牌摩托车 穿越多国抵达杭州

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

艺术
教育
健康
房产
数码

艺术要闻

Nikolai Vryasov:当代俄罗斯画家

教育要闻

告别“纸上谈兵”!这个地方打破劳动教育围墙,给孩子留下值得回忆的汗水!

干细胞治烧烫伤面临这些“瓶颈”

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

数码要闻

三星T7存储卡发售:提供128GB至1TB可选,329元起

无障碍浏览 进入关怀版