网易首页 > 网易号 > 正文 申请入驻

告别简单编程题,人大用ICPC难题重新定义LLM推理评估

0
分享至


始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。

随着大语言模型(LLMs)在复杂编码和推理任务中的飞速进步,传统编程基准已难以跟上其发展步伐。现有测试要么难度不足,要么评估方式脱离实际场景,无法精准衡量模型的 “慢思考” 和迭代优化能力。近日,中国人民大学高瓴人工智能学院团队推出 ICPC-Eval 基准测试,以顶级编程竞赛题目为核心,创新评估机制与本地测试工具,为 LLM 推理能力提供了更严苛、更真实的检验标准!已上线始智AI-wisemodel开源社区,欢迎体验。


代码和数据集地址

https://wisemodel.cn/codes/shiyixu45/ICPC-Eval

https://wisemodel.cn/datasets/shiyixu45/ICPC-Eval

01.

行业痛点:

传统编程基准的三大短板

当前 LLM 编程能力评估体系存在明显局限,难以满足高阶推理测试需求:

1. 难度不足,区分度低:现有基准多来自普通编程平台,难度远未达到顶级算法竞赛水平。随着LLM能力提升,这些测试已无法有效区分不同模型的推理上限;

2. 评估脱离实际:主流的 Pass@K 指标仅关注多次采样中是否有正确结果,忽略了人类解题时 “尝试-反馈-优化” 的迭代过程,也未体现模型的反思修正能力;

3. 测试条件受限:顶级竞赛的私有测试用例不公开,多数基准依赖在线判题平台,本地评估困难,给研究者带来诸多不便。

这些问题导致对 LLM 真实推理能力的评估存在偏差,难以支撑模型的精准迭代。

02.

技术革新:

ICPC-Eval的三大核心突破

ICPC-Eval 以 “真实竞赛场景 + 科学评估体系 + 便捷测试工具” 为核心,实现三大关键创新:

1. 顶级竞赛题库:118 道难题构建严苛测试

团队从 11 场近年国际大学生程序设计竞赛(ICPC)中精心筛选 118 道题目,涵盖世界总决赛、洲际总决赛及区域赛等不同级别赛事。题目覆盖八大算法领域:

  • 基础算法(贪心、分治等)34 道

  • 动态规划 38 道

  • 数学(组合数学、数论等)48 道

  • 数据结构 30 道

  • 图论 26 道

  • 计算几何 17 道

  • 搜索算法 35 道

  • 字符串算法 6 道


这些题目需将复杂数学逻辑转化为高效代码,部分还涉及特殊判题场景,难度与真实竞赛完全一致,能充分暴露模型的推理短板。

2. 本地测试工具:LLM 生成鲁棒测试用例

为解决私有测试用例难以获取的问题,团队创新提出基于 LLM 的测试用例生成方案:

  • 为每道题生成两种 C++ 输入生成器:随机生成器(均匀覆盖数据范围)和边界用例生成器(针对极端场景和特殊结构);

  • 利用已知正确的 AC 代码生成对应输出,再通过错误代码(WA、TLE、RE 等)验证测试用例的有效性,确保零误判;

  • 提供完整本地评估工具包,支持特殊判题(SPJ)场景,无需依赖在线平台,实现高效精准的离线评估。


3. 创新评估指标:Refine@K 衡量迭代推理能力

摒弃传统 Pass@K 指标,提出更贴合真实解题流程的 Refine@K 评估方法:

  • 允许模型在 K 次尝试内迭代优化代码,每次错误后会收到具体执行反馈(编译错误、答案错误、超时等);

  • 首次尝试基于题目描述生成代码,后续尝试结合前序代码和反馈进行修正,模拟人类 “反思改进” 的解题过程;

  • 该指标能有效区分推理型模型与非推理型模型的核心差异,更真实反映模型的内在推理能力。


03.

测试结果:

顶尖LLM落后人类,推理模型优势凸显

团队对15款主流 LLM 进行全面测试,揭示了诸多关键发现:


各模型在ICPC-Eval不同算法领域及完整测试集上的Refine@5性能表现

  • 与人类差距明显:即使表现最佳的 o3-mini High 模型,平均每场竞赛仅能解决 28.8% 的题目,远低于人类奖牌获得者水平(如图 1 所示),证明顶级编程竞赛仍是 LLM 的巨大挑战;
  • 推理模型优势显著:DeepSeek R1、Gemini 2.5 Pro Exp 等推理型模型在 Refine@K 指标下表现突出,且随着尝试次数增加,性能持续提升。而非推理型模型即使增加尝试次数,优化空间也十分有限;
  • 模型各有擅长领域:Gemini 2.5 Pro Exp 在基础算法、数据结构和数学领域表现均衡,o3-mini High 在计算几何和字符串算法上优势明显,而计算几何和搜索算法是所有模型的共同难点;
  • Refine@K 更具区分度:相比 Pass@K,Refine@K 能更精准捕捉模型的迭代优化能力,同一基础模型的推理版本与非推理版本在该指标下差距显著。

04.

适用场景:

赋能LLM推理能力的精准迭代

ICPC-Eval 的设计特性使其在多个场景中具备重要应用价值:

  • 模型研发评估:为 LLM 推理能力提供严苛的基准测试,帮助研究者精准定位模型短板,指导迭代优化;
  • 推理机制研究:通过迭代优化过程的数据分析,深入探索 LLM “慢思考” 和反思修正的内在机制;
  • 竞赛辅助训练:为编程竞赛参与者提供 AI 辅助训练工具,生成多样化测试用例,提升训练效率;
  • 技术选型参考:为需要高阶推理能力的应用场景(如复杂系统开发、算法设计)提供模型选型依据。

无论是学术研究还是工业应用,ICPC-Eval 都能提供更真实、更全面的 LLM 推理能力评估支持。

ICPC-Eval 的推出,填补了顶级编程竞赛级 LLM 评估基准的空白。其真实的竞赛题目、创新的评估指标和便捷的本地测试工具,为 LLM 推理能力评估树立了新标杆。测试结果表明,尽管 LLM 在普通编程任务中表现出色,但在顶级算法竞赛场景中仍有巨大提升空间。

----- END -----


wisemodel相关:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李在明抵达北京,不到24小时,对华称呼变了,朝鲜突然做出大动作

李在明抵达北京,不到24小时,对华称呼变了,朝鲜突然做出大动作

不写散文诗
2026-01-06 12:30:12
一拿球就单打!三分球8中1,在场上一顿胡打,球迷: 赶紧滚蛋吧!

一拿球就单打!三分球8中1,在场上一顿胡打,球迷: 赶紧滚蛋吧!

金山话体育
2026-01-07 07:48:18
i茅台上线500ml飞天首日半小时内售罄,卖1399元的拼多多天塌了

i茅台上线500ml飞天首日半小时内售罄,卖1399元的拼多多天塌了

王新喜
2026-01-07 17:29:24
这一仗彻底把中国打醒!美军的狠毒的作战方式,中国摸的很清楚了

这一仗彻底把中国打醒!美军的狠毒的作战方式,中国摸的很清楚了

史之铭
2025-12-12 19:23:56
河北农村取暖上热搜,当地政府冷处理,补贴资金分配难辞其咎!

河北农村取暖上热搜,当地政府冷处理,补贴资金分配难辞其咎!

ICT解读者
2026-01-07 09:03:43
41岁勒布朗又创4历史第一!近三战场均29+8+8 湖媒:永远不该退役

41岁勒布朗又创4历史第一!近三战场均29+8+8 湖媒:永远不该退役

颜小白的篮球梦
2026-01-07 17:44:46
2026年1月1日刚过,不少人去医院开药就发现规矩变了

2026年1月1日刚过,不少人去医院开药就发现规矩变了

百态人间
2026-01-06 05:00:03
打破垄断,光模块巨头,利润大增300%!

打破垄断,光模块巨头,利润大增300%!

飞鲸投研
2026-01-07 18:48:43
半程落后榜首10分!曝62岁穆帅将连续3年被解雇 阿莫林或取而代之

半程落后榜首10分!曝62岁穆帅将连续3年被解雇 阿莫林或取而代之

风过乡
2026-01-07 08:11:54
美国人预测:未来20年,世界上最强大的"7个国家",看都有谁?

美国人预测:未来20年,世界上最强大的"7个国家",看都有谁?

小熊侃史
2026-01-07 11:18:33
上学时遭遇同学间的家境攀比,陈毅的儿子陈丹淮被追问家世背景,只简单答道:“我父亲就是个普通处长”

上学时遭遇同学间的家境攀比,陈毅的儿子陈丹淮被追问家世背景,只简单答道:“我父亲就是个普通处长”

史海残云
2025-12-27 18:00:16
小孩爱玩的“勒颈游戏”酿悲剧,10岁女童身亡

小孩爱玩的“勒颈游戏”酿悲剧,10岁女童身亡

新欧洲
2026-01-06 19:43:45
李在明结束访华

李在明结束访华

新京报政事儿
2026-01-07 20:03:00
香港餐厅收内地客“天价”小费?港人怒批:香港结业潮是有原因的

香港餐厅收内地客“天价”小费?港人怒批:香港结业潮是有原因的

朝子亥
2026-01-06 11:35:03
这一夜,70岁米雪秒了78岁的汪明荃,才懂穿着得体的含金量有多高

这一夜,70岁米雪秒了78岁的汪明荃,才懂穿着得体的含金量有多高

洲洲影视娱评
2026-01-05 12:41:30
多只小天鹅被冻在公园冰面上死亡?园方:已查看,将进一步反馈

多只小天鹅被冻在公园冰面上死亡?园方:已查看,将进一步反馈

半岛晨报
2026-01-06 19:46:12
山东一闲置水井突喷热水变“温泉”,村民称水温有三四十摄氏度,仅持续了24小时,当地:和降水较多有关

山东一闲置水井突喷热水变“温泉”,村民称水温有三四十摄氏度,仅持续了24小时,当地:和降水较多有关

极目新闻
2026-01-07 15:54:21
“乱港分子”周庭,弃保潜逃加拿大,扬言永不回国,如今怎么样了

“乱港分子”周庭,弃保潜逃加拿大,扬言永不回国,如今怎么样了

甜柠聊史
2025-12-27 10:54:15
斩首或活捉!卡德罗夫喊话普京,乌军最高戒备,基辅高官惶惶不安

斩首或活捉!卡德罗夫喊话普京,乌军最高戒备,基辅高官惶惶不安

凉羽亭
2026-01-07 19:00:54
刺激!苹果突然官宣:1月8日,新品正式发售!

刺激!苹果突然官宣:1月8日,新品正式发售!

科技堡垒
2026-01-06 11:41:33
2026-01-07 20:31:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
433文章数 14关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

三亚一游客被司机诱导就餐 点了4道海鲜花1868元

头条要闻

三亚一游客被司机诱导就餐 点了4道海鲜花1868元

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

亲子
房产
艺术
数码
本地

亲子要闻

这孩子玩不起了

房产要闻

最新!海口二手房,涨价房源突然猛增30%

艺术要闻

David Grossmann:不一样的风景画

数码要闻

AYANEO发布AM03迷你主机,性能与设计兼具

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

无障碍浏览 进入关怀版