网易首页 > 网易号 > 正文 申请入驻

「进化+压力测试」自动生成的竞赛级编程题,大模型谁更hold住

0
分享至

来源:市场资讯

(来源:机器之心Pro)


在当前评测生成式模型代码能力的浪潮中,传统依赖人工编写的算法基准测试集,正日益暴露出可扩展性不足与数据污染严重两大瓶颈。

为突破这一困局,北京大学与通用人工智能研究院联合提出全新 UniCode 框架。该研究由北京大学梁一韬助理教授指导,博士生郑欣悦为第一作者,林昊苇为共同一作,创新性地构建了一套能够自动生成高质量算法题目与抗污染测试用例的进化式评测系统。

UniCode 框架通过三大核心策略动态扩展题目,并采用基于「压力测试」的用例合成技术,成功构建出包含 492 道题目的全新评测基准。在对 19 个前沿大模型进行系统性测试后,表现最佳的 o4-mini 模型也仅达到 70.3% 的通过率,充分印证了 UniCode 在评测上的高挑战性与强判别力,为代码能力评估开辟了一条动态、可扩展的全新路径。


三种「进化式」题目生成策略


UniCode 将问题生成看作类似生物进化的变异与重组过程,设计了三类互补策略:

这三种策略既能沿用已有题目的结构性优势,又能通过单题变异和重组在题目分布上产生真正的新样本,从而抑制数据污染的影响并提高对模型算法泛化能力的考察力度。

压力驱动的测试用例合成


自动生成题目的难点在于:没有正确参考题解时,如何为题目构建高可信度的测试样例集合?UniCode 提出一个压力驱动的测试样例合成流程来解决这一核心问题:


3.LLM 仲裁(Adjudication):若没有严格多数产生共识,则把最票数最多的两种输出样例,再次输入给 LLMs 进行分析裁决;若裁决仍不明确,则该用例被舍弃以保持试题集的完整性和可靠性。通过这套流程,研究团队报告了测试用例正确率 94.5% 的水平,并在覆盖率上也优于多项基线方法。

该流程实现了94.5% 的测试用例正确率,并在覆盖率上优于多项基线方法。输入生成采用三路并重策略:随机样本、对抗生成与 LLM 合成,并按固定比例(20 随机 + 20 对抗 + 10 LLM 合成)构建最终测试套,兼顾覆盖广度与挑战性。

评测与结论


借助 UniCode 框架,研究团队从 Codeforces 等竞赛平台筛选种子算法题,自动生成了一个包含 492 道高质量题目、覆盖 15 个核心算法标签的评测基准,并在此基础上对 19 个主流大语言模型 进行了系统评估。关键发现包括:

LLMs 在算法推理场景下的泛化表现


为考察 LLMs 在算法题上的泛化能力,研究团队构造了三类对照题集:SeedQS(原始种子题)、ShadowQS(保留逻辑但改写叙述的「影子」题)与CodeGenQS(UniCode 生成的新题)。

实验显示:多数模型在 SeedQS 与 ShadowQS 上表现几乎一致,说明它们对表层叙述变换具有较强鲁棒性;但在 CodeGenQS(由 UniCode 生成、要求组合或迁移算法能力的题目)上,模型普遍出现显著下跌 —— 论文给出若干例证:claude-3.5-sonnet 从 0.70 跌至 0.21,gpt-4.1-mini 从 0.83 跌至 0.40,整体上模型在 UniCode 问题上的平均性能下降超过 30%,而在仅为叙述改写的 ShadowQS 上几乎无变化。

这一对照实验清晰区分了模型的「表层鲁棒性」与「算法迁移能力」,并验证了 UniCode 的「进化式」题目生成策略确实能够构造出新颖且具挑战性的任务,为理解和量化模型的真实泛化能力提供了帮助。

UniCode 题集与基准对齐

此外,研究团队通过与两项既有公开基准的对齐检验(LiveCodeBench 与 LiveCodeBenchPro)量化了 UniCode 的可信度:与 LiveCodeBench 的 Pass@1 分数呈高度正相关(Pearson r ≈ 0.986,p = 6.5e-06),而与 LiveCodeBenchPro(采用「排名越小越优」的打分方式)表现为强负相关(r ≈ −0.916),这主要是度量方向的约定所致 —— 若取绝对值,两者均显示 |r|>0.9。

论文特别指出:UniCode 与这些成熟基准间获得的相关性(以 |r| 衡量)超过了这些现有代码基准数据集之间的互相关,从而证明UniCode 在评估尺度上与现有主流工具高度一致,且具备独立揭露模型弱点的能力。论文同时通过人工盲审验证了生成题目的可解性(在抽样的 50 道题中,解题率达 98.0%),增强了生成题目在可读性与语义明确性方面的可信度。


讨论:错误题会让评测失效吗?

从可靠性角度的再思考

在传统观念中,一个基准的所有题目都必须是完美无瑕的。然而,当基准规模大幅扩展(如从几百题增至数千题),尤其是通过自动生成方式构建时,完全避免错误题目成本极高,甚至不现实。UniCode 的研究通过数学论证指出:一个存在少量错误但题量巨大的基准,其整体评估结果可能比一个题量小但「完美」的基准更为可靠。

这背后的核心逻辑在于区分两种不同类型的误差:

因此,在评估模型,尤其是区分顶尖模型时,我们更害怕的是结果「晃动」,而不是一个微小且固定的「偏移」。UniCode 通过其大规模生成能力,正是用可接受且极小的系统偏差,换取了随机误差的显著降低,从而实现了比传统小规模基准更高、更可靠的判别力。论文在附录中通过严格的数学模型证明了这一点,确保了其基准报告的准确性是值得信赖的。

结语

UniCode 将「生成式评测」从理念推进到了可操作的工程化体系:通过三条进化式题目生成路径 + 一套压力驱动、分层验证的测试合成流水线,UniCode 在题目多样性、判题可靠性和对模型泛化能力的诊断上都取得了令人信服的结果。该框架不仅能缓解传统静态基准的污染与扩展问题,还为研究人员提供了一个可重复、可追溯的工具链,有望成为未来代码生成与算法泛化评估的重要基石。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演技烂得像混子《沉默的荣耀》里混进关系户,于和伟都带不动

演技烂得像混子《沉默的荣耀》里混进关系户,于和伟都带不动

洲洲影视娱评
2025-10-14 15:04:37
这4个日本羽绒服:几乎不打广告,实力却不输波司登、始祖鸟

这4个日本羽绒服:几乎不打广告,实力却不输波司登、始祖鸟

时尚搭配师Nicole
2025-10-16 16:49:54
德转列防守型中场身价榜:凯塞多1亿欧居首,赫拉芬贝赫第二

德转列防守型中场身价榜:凯塞多1亿欧居首,赫拉芬贝赫第二

懂球帝
2025-11-03 01:04:34
特朗普下令战争部做好准备

特朗普下令战争部做好准备

澎湃新闻
2025-11-02 22:01:03
把工业毒废土当营养土卖,人怎么可以这么坏?

把工业毒废土当营养土卖,人怎么可以这么坏?

历史总在押韵
2025-11-01 23:56:55
陈震再杠小米!10℃也配叫“冬测”?米粉贴图科普秋冬也是无语

陈震再杠小米!10℃也配叫“冬测”?米粉贴图科普秋冬也是无语

小柱解说游戏
2025-11-03 04:41:47
“继承权”不用争了!2026年新规下:父母的房子全部将这样处理

“继承权”不用争了!2026年新规下:父母的房子全部将这样处理

白马惊天剑
2025-10-30 18:09:01
LPL场外爆猛料,两大冠军退出联盟!选手大幅降薪,面临生存危机

LPL场外爆猛料,两大冠军退出联盟!选手大幅降薪,面临生存危机

天下游戏吧
2025-11-02 20:17:56
为什么中国能够崛起?来看看中文背后的独特优势

为什么中国能够崛起?来看看中文背后的独特优势

枫冷慕诗
2025-10-28 19:53:06
女人坐了28年牢,出狱去办证,民警一查系统,当场愣了

女人坐了28年牢,出狱去办证,民警一查系统,当场愣了

卡西莫多的故事
2025-10-30 11:33:46
火箭对独行侠!伤病名单:休城2人缺阵+主力出战存疑,浓眉不打

火箭对独行侠!伤病名单:休城2人缺阵+主力出战存疑,浓眉不打

熊哥爱篮球
2025-11-03 07:25:58
广州的廖一帆爸爸火了,因为他揭开了家委会的真相

广州的廖一帆爸爸火了,因为他揭开了家委会的真相

清晖有墨
2025-09-05 19:24:18
李亚栋院士:要整体降低高考难度,尤其是降低数学与物理的难度

李亚栋院士:要整体降低高考难度,尤其是降低数学与物理的难度

化学人生
2025-10-31 21:20:19
8人上双打爆鱼腩!卫冕冠军疯狂7连胜,亚历山大轰30+7创纪录

8人上双打爆鱼腩!卫冕冠军疯狂7连胜,亚历山大轰30+7创纪录

体坛小李
2025-11-03 07:46:05
王家卫再次印证了张柏芝说的话:他作为出色的导演脑子有点不正常

王家卫再次印证了张柏芝说的话:他作为出色的导演脑子有点不正常

乐悠悠娱乐
2025-11-02 14:47:34
杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

阿纂看事
2025-11-02 15:32:11
2天之后,中方将在北京以最高规格接待俄贵客,反击特朗普的阳谋

2天之后,中方将在北京以最高规格接待俄贵客,反击特朗普的阳谋

影孖看世界
2025-11-01 22:28:34
悬念揭晓!山东泰山核心外援瓦科去向曝光,曝江南球队或2选1

悬念揭晓!山东泰山核心外援瓦科去向曝光,曝江南球队或2选1

璞玉话体坛
2025-11-02 19:49:43
中美贸易休战一年?别天真了!美国正在全球布局,决战可能在2026

中美贸易休战一年?别天真了!美国正在全球布局,决战可能在2026

听风50
2025-11-02 08:00:08
他在狱中亲眼见吴石将军,受电刑不吐一字,最后那餐只说了一句!

他在狱中亲眼见吴石将军,受电刑不吐一字,最后那餐只说了一句!

云霄纪史观
2025-11-01 09:13:37
2025-11-03 09:04:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1253510文章数 4330关注度
往期回顾 全部

科技要闻

马斯克为这事开骂:“他们什么都不懂”!

头条要闻

媒体:美防长针对中国发出尖锐"警告" 随后说法又变了

头条要闻

媒体:美防长针对中国发出尖锐"警告" 随后说法又变了

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

健康
教育
时尚
本地
旅游

核磁VS肌骨超声,谁更胜一筹?

教育要闻

韦达定理构方程,实在是太巧妙啦!

秋季穿衣别太老气横秋,看看这27套造型,时尚舒适又显高

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

旅游要闻

跟着这张地图,来重庆赏“秋”“香”

无障碍浏览 进入关怀版