网易首页 > 网易号 > 正文 申请入驻

打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级

0
分享至

MicroCoder团队 投稿
量子位 | 公众号 QbitAI

新一代代码模型的训练动态已与旧模型截然不同,主流强化学习方法和数据集在其上几乎“失效”。

微软亚洲研究院与剑桥大学、普林斯顿联合推出MicroCoder,从算法、数据、框架、训练经验四个维度全面升级,在最新代码测试集上取得明显提升,并从七个方面开源了34条训练洞察。



背景:旧经验遇上新模型,为何几乎全部“失效”?

强化学习正在成为代码大模型能力提升的核心路径。以GRPO为代表的策略优化方法在数学推理任务上积累了大量成功经验,人们自然地把这套方法迁移到了代码生成上。

然而研究者很快发现了一个现象:用DeepCoder这类主流数据集训练最新推理模型,性能几乎没有提升;而同样的做法在过去版本的模型上却有显著效果。

这背后的原因是代际性的:最新推理模型的能力已经超出了主流数据集的难度,这些题目对它而言过于简单,无法产生有效的学习。与此同时,最新推理模型在训练中输出长度持续增长,而旧模型的输出长度稳定甚至下降,两代模型的训练动态已经截然不同,专为旧模型设计的训练方法在新模型上不再适用。

针对这一训练瓶颈,来自微软亚洲研究院、剑桥大学和普林斯顿大学的研究团队提出了MicroCoder项目,包含四个核心贡献:MicroCoder-GRPO算法、MicroCoder-Dataset数据集、MicroCoder-Evaluator训练评估框架,以及跨超过30组受控实验总结的34条训练经验



算法:MicroCoder-GRPO

MicroCoder-GRPO在GRPO基础上引入三项修改,专门应对现代代码模型的训练动态。

修改一:条件截断掩码

强化学习训练中,被最大长度截断的输出若参与策略优化,会引导模型生成更短的输出。为此,DeepCoder等方法采用“全部掩码”策略,对所有达到最大长度的输出都将优势分数置零,但这会导致输出长度增长过快。

MicroCoder-GRPO提出了更精细的条件截断掩码:只对同时满足四个条件的输出执行掩码,达到最大长度、答案非错误、无尾部重复序列、且以特定概率随机抽取。实验表明,这一策略有效解锁了模型的长输出潜力,同时规避了全掩码策略带来的训练问题,最终收敛性能高于无掩码和全掩码两种方案。

修改二:多样性驱动的温度选择

输出多样性是强化学习稳定训练的关键指标。研究发现:在固定温度下,多样性不会总随训练进行持续变动,而是不同温度下会最终收敛到相近水平;而一旦初始多样性与预期收敛值相差较大,模型的训练就容易受到影响。传统标准温度对最新推理模型而言较低,容易因此产生影响。

MicroCoder-GRPO提出根据模型初始输出多样性动态确定训练温度:测量初始多样性趋势,选择能使多样性平稳收敛的温度值。文章还发现“先低温后高温”的分阶段方法优于全程固定温度,但需避免连续的温度过渡,即便是短暂的渐变也可能对多样性造成影响。

修改三:去除KL散度+高裁剪比率

沿用DAPO的设计思路,MicroCoder-GRPO将KL散度权重设为0,并采用更高的裁剪比率。实验证明,保留KL散度会持续影响输出多样性、限制输出长度增长,导致性能“先涨后跌”;去除后,模型获得持续的性能提升。

三项修改共同作用下,MicroCoder-GRPO在最新代码测试集上相比DAPO基线取得明显提升,且在拓展测试上下文长度时更为显著。



数据:MicroCoder-Dataset

算法之外,数据难度也是代码模型能力的重要影响因素。

四阶段数据处理流水线

MicroCoder-Dataset的构建分四个阶段:“收集”从多元平台收集真实竞赛题目;“处理”统一语言、去噪、格式标准化,并用LLM自动生成和筛选测试用例;“筛选”实施软硬约束及自适应难度过滤;“验证”进行人工抽查确保可读性和测试用例准确性。

自动难度过滤:预测-校准-选择

难度过滤是MicroCoder-Dataset的核心创新。研究团队设计了一套五维难度评估矩阵,由LLM对每道题进行三次独立打分,取平均后计算加权难度分。

这五个维度的权重设计有其理论依据,参考了Bloom教育目标分类法、McCabe和Halstead方法,将重心放在真正考验推理和编程能力的维度上,而非语义理解和记忆。

随后,以模型实际通过率为基准对预测分进行校准,在LiveCodeBench数据集上确定易、中、难的分界值,预测分布与实际分布几乎完全吻合。过滤后,简单题占比降至25%以下,困难题占比提升至50%以上。

数据集特点

最终,MicroCoder-Dataset包含超过13K经严格筛选的真实竞赛题,全部来自实际竞赛平台而非LLM生成。聚类分析表明各平台题目互补,与测试集之间没有重合。

效果对比

在相同训练下,MicroCoder-Dataset在300步训练内取得的性能增益是DeepCoder数据集的3倍。以DAPO训练最新推理模型为例,相比DeepCoder,MicroCoder在LeetCode上整体提升约6.0个百分点,难度越高,增益越明显。



训练评估框架:MicroCoder-Evaluator

代码评估的准确性直接决定强化学习的质量。

问题:原版评估器的误判

LiveCodeBench原版评估器采用严格精确匹配策略:直接等值比较、精确浮点计算、仅做基本空白去除。这种方式会将大量格式正确但略有差异的正确答案判为错误,例如返回列表与元组的格式差异、浮点精度差异,产生噪声,干扰训练。

解决方案:多方法回退的综合验证

MicroCoder-Evaluator采用6-7种方法组成的回退链进行综合输出验证,依次尝试不同的比较策略:支持列表、元组、字符串、集合等格式的自动类型转换;进行浮点近似比较;多行分割与空白规范化等预处理;单个方法失败后自动切换至下一种方法,全程高容错。

效果

与LiveCodeBench原版评估器相比,MicroCoder-Evaluator将评估准确率提升约25%,即更准确地识别了正确解法的变体,减少了误判噪声。训练曲线对比显示,使用MicroCoder-Evaluator的模型在早期训练阶段可以获得更可靠的学习反馈,最终测试准确率更高且收敛更快。

此外,通过优化并行处理策略,MicroCoder-Evaluator将每个训练步骤的执行速度提升约40%,显著提升了训练效率。

训练洞察:34条跨越七大维度的经验

MicroCoder项目通过超过30组受控实验完整地记录了现代代码模型强化学习训练中的经验,覆盖七大维度,以下列出各维度的核心洞察:

代码评估器:评估准确性对训练效果影响显著,尤其在早期阶段。高容错评估带来更可靠的结果反馈,能有效防止次优收敛。原版LiveCodeBench评估器的严格匹配策略会产生误判,在训练初期产生影响。

温度动态:模型对温度的鲁棒性随训练进行而增强。不同温度下,输出多样性变化但最终收敛到相近水平。当初始多样性低于收敛预期时,可能导致训练失败。

训练数据:数据难度影响泛化能力。在简单数据集上表现优秀并不意味着在测试集上同样优秀,只有挑战性更高的训练问题才能带来真正的泛化提升。更难的问题会促使模型生成更长的解题路径,输出长度增长速度和最终长度均更大。

上下文长度与扩展:更长的最大输出与更高的最终准确率、更快的输出增长和更高的多样性直接相关。早期训练阶段的输出长度限制会产生“不可逆”影响,一旦模型在短输出限制下训练足够长时间,后续即便增大上下文,性能也无法完全恢复。

截断掩码策略:掩码比例在训练速度与峰值性能之间形成平衡,更高的掩码比例能更快达到初始峰值,但较低的掩码比例能延长上升阶段并达到更高的峰值。30%的条件掩码在输出长度增长速率上已接近全掩码,同时显著优于全掩码在训练稳定性等方面的表现。

批大小与在线训练:较小的训练批大小产生更接近在线训练的行为,加快多样性收敛,但影响训练稳定性;较大的批大小产生离线训练行为,稳定性更强。最优选择来自两者之间的平衡。

KL散度与裁剪比率:标准KL散度会持续影响输出多样性并限制输出长度增长,形成“性能先涨后跌”的形式。去除KL散度是支持长期持续性能提升的重要条件。

完整的34条洞察已在项目主页的MicroCoder-Insights博客中完整整理,覆盖每个维度的具体实验和结论,是目前最为完整的现代代码模型强化学习训练经验库之一。

项目价值

代码大模型的强化学习训练长期借鉴数学推理任务的经验。MicroCoder首次完整提出,这一迁移路径存在代际断层,不同模型世代之间,训练动态、数据需求与算法设计的有效假设已发生质变而非量变,打破了该领域固有认知,明确了新一代代码模型的研究方向。

在算法设计层面,条件截断掩码与多样性驱动温度选择,对强化学习训练中训练稳定性与策略探索性之间的平衡提出了可执行的兼顾方案,具有超出代码生成任务本身的方法论参考价值。

本项目通过超过三十组受控实验完整整理34条训练经验与洞察,覆盖算法、数据、评估、上下文、温度等七大核心维度,是目前代码大模型后训练领域最为完整、有效的知识沉淀之一,对研究内容的整理分享是模型训练社区最有影响力的开源项目之一。



作者介绍:



MicroCoder第一作者李宗谦,剑桥大学自然语言处理博士生,剑桥信托学者,剑桥国际生全额博士奖学金,在微软亚洲研究院完成系列工作。他在微软、谷歌、红杉、真格等有实习工作经历,2025年完成一作论文9篇,发表于NeurIPS、ACL等会议,参与工作发表Nature,对学界、业界、创业有浓厚兴趣,是当前大语言模型领域值得关注的年轻研究员。

项目主页:
https://github.com/ZongqianLi/MicroCoder
算法论文:
https://arxiv.org/abs/2603.07777
数据集论文:
https://arxiv.org/abs/2603.07779
训练经验博客:https://github.com/ZongqianLi/MicroCoder/blob/main/MicroCoder-Insights.md

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李亚鹏和海哈金喜碰面!一起带女儿去烫发,“神秘女子”真相大白

李亚鹏和海哈金喜碰面!一起带女儿去烫发,“神秘女子”真相大白

阿纂看事
2026-05-06 16:29:36
刚刚,中澳航线突然没了!大批华人网上叫苦不迭!

刚刚,中澳航线突然没了!大批华人网上叫苦不迭!

澳洲红领巾
2026-05-06 13:30:36
22岁吴宜泽世锦赛封神!唯独塞尔比12岁女儿当众偏心太好磕

22岁吴宜泽世锦赛封神!唯独塞尔比12岁女儿当众偏心太好磕

乐悠悠娱乐
2026-05-06 11:28:31
知名港星曝家丑!被大儿子榨干百万积蓄,宣布身后事交给幼子代办

知名港星曝家丑!被大儿子榨干百万积蓄,宣布身后事交给幼子代办

草莓解说体育
2026-05-06 07:54:46
美军撤德:霸权衰落与北约裂痕

美军撤德:霸权衰落与北约裂痕

风铃草语
2026-05-06 06:35:53
终于有人敢怒怼迪士尼:谁交钱多就先放谁进去是吧?!

终于有人敢怒怼迪士尼:谁交钱多就先放谁进去是吧?!

皮蛋儿电影
2026-05-06 07:12:25
逛超市:在柴米油盐里,打捞生活的微光

逛超市:在柴米油盐里,打捞生活的微光

疾跑的小蜗牛
2026-05-05 21:06:36
斯威士兰国王有15个老婆,为了避免女人间的争风吃醋,买19辆豪车

斯威士兰国王有15个老婆,为了避免女人间的争风吃醋,买19辆豪车

魔都姐姐杂谈
2026-05-04 16:14:24
利好突袭!刚刚,熔断,暴涨!

利好突袭!刚刚,熔断,暴涨!

中国基金报
2026-05-06 09:23:57
实施不到48小时,特朗普紧急喊停“霍尔木兹自由计划”:美伊在达成一项全面且最终的协议方面取得重大进展

实施不到48小时,特朗普紧急喊停“霍尔木兹自由计划”:美伊在达成一项全面且最终的协议方面取得重大进展

都市快报橙柿互动
2026-05-06 08:07:25
特朗普称暂停“自由计划”行动

特朗普称暂停“自由计划”行动

财联社
2026-05-06 07:00:15
闻泰科技等20余股将被实施ST

闻泰科技等20余股将被实施ST

财闻
2026-05-06 08:37:45
47岁保姆坦言:可以做有偿陪伴保姆,但必须要遵守3个约定

47岁保姆坦言:可以做有偿陪伴保姆,但必须要遵守3个约定

孢木情感
2026-05-06 14:11:32
朝鲜战争停战,1953年胡宗南在台湾感叹彭德怀实力

朝鲜战争停战,1953年胡宗南在台湾感叹彭德怀实力

纪史行者
2026-05-04 10:02:55
小米新一代SU7锁单已超8万台

小米新一代SU7锁单已超8万台

财闻
2026-05-06 09:14:31
在朱元璋后宫中,为什么没人敢惹马皇后?真实原因说出来让人发抖

在朱元璋后宫中,为什么没人敢惹马皇后?真实原因说出来让人发抖

铭记历史呀
2026-05-06 00:32:13
金建希案法官身亡现场发现遗书,内容曝光

金建希案法官身亡现场发现遗书,内容曝光

极目新闻
2026-05-06 09:29:00
活到69岁才醒悟:跟子女要孝心是糊涂,给子女留家产是愚蠢,真正有大智慧的父母,晚年都在做这两件事

活到69岁才醒悟:跟子女要孝心是糊涂,给子女留家产是愚蠢,真正有大智慧的父母,晚年都在做这两件事

心理观察局
2026-05-06 08:41:16
打虎!合肥市委书记费高云,任上被查

打虎!合肥市委书记费高云,任上被查

农视网
2026-05-06 16:18:47
特朗普访华前,先把黎智英案摆上桌,29国要求放人,中方以一敌多

特朗普访华前,先把黎智英案摆上桌,29国要求放人,中方以一敌多

王姐懒人家常菜
2026-05-06 15:06:32
2026-05-06 17:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12576文章数 176461关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

陕西男子到湖北卖苹果突发脑梗 4吨苹果19小时被买空

头条要闻

陕西男子到湖北卖苹果突发脑梗 4吨苹果19小时被买空

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

最新GDP!全国30强城市,又变了

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

数码
教育
旅游
健康
艺术

数码要闻

Mionix发布AVIOR AIR CARBON FIBER鼠标:手工打造,限量出售

教育要闻

高考地理中的城市空间结构

旅游要闻

旅游相关商品销量翻倍,加长假期带动全场景消费升温|聚焦假日经济

干细胞治烧烫伤面临这些“瓶颈”

艺术要闻

震撼!康斯坦丁摄影作品里的性感曲线让人惊艳!

无障碍浏览 进入关怀版