![]()
始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。
随着大语言模型(LLMs)在复杂编码和推理任务中的飞速进步,传统编程基准已难以跟上其发展步伐。现有测试要么难度不足,要么评估方式脱离实际场景,无法精准衡量模型的 “慢思考” 和迭代优化能力。近日,中国人民大学高瓴人工智能学院团队推出 ICPC-Eval 基准测试,以顶级编程竞赛题目为核心,创新评估机制与本地测试工具,为 LLM 推理能力提供了更严苛、更真实的检验标准!已上线始智AI-wisemodel开源社区,欢迎体验。
![]()
代码和数据集地址
https://wisemodel.cn/codes/shiyixu45/ICPC-Eval
https://wisemodel.cn/datasets/shiyixu45/ICPC-Eval
01.
行业痛点:
传统编程基准的三大短板
当前 LLM 编程能力评估体系存在明显局限,难以满足高阶推理测试需求:
1. 难度不足,区分度低:现有基准多来自普通编程平台,难度远未达到顶级算法竞赛水平。随着LLM能力提升,这些测试已无法有效区分不同模型的推理上限;
2. 评估脱离实际:主流的 Pass@K 指标仅关注多次采样中是否有正确结果,忽略了人类解题时 “尝试-反馈-优化” 的迭代过程,也未体现模型的反思修正能力;
3. 测试条件受限:顶级竞赛的私有测试用例不公开,多数基准依赖在线判题平台,本地评估困难,给研究者带来诸多不便。
这些问题导致对 LLM 真实推理能力的评估存在偏差,难以支撑模型的精准迭代。
02.
技术革新:
ICPC-Eval的三大核心突破
ICPC-Eval 以 “真实竞赛场景 + 科学评估体系 + 便捷测试工具” 为核心,实现三大关键创新:
1. 顶级竞赛题库:118 道难题构建严苛测试
团队从 11 场近年国际大学生程序设计竞赛(ICPC)中精心筛选 118 道题目,涵盖世界总决赛、洲际总决赛及区域赛等不同级别赛事。题目覆盖八大算法领域:
基础算法(贪心、分治等)34 道
动态规划 38 道
数学(组合数学、数论等)48 道
数据结构 30 道
图论 26 道
计算几何 17 道
搜索算法 35 道
字符串算法 6 道
![]()
这些题目需将复杂数学逻辑转化为高效代码,部分还涉及特殊判题场景,难度与真实竞赛完全一致,能充分暴露模型的推理短板。
2. 本地测试工具:LLM 生成鲁棒测试用例
为解决私有测试用例难以获取的问题,团队创新提出基于 LLM 的测试用例生成方案:
为每道题生成两种 C++ 输入生成器:随机生成器(均匀覆盖数据范围)和边界用例生成器(针对极端场景和特殊结构);
利用已知正确的 AC 代码生成对应输出,再通过错误代码(WA、TLE、RE 等)验证测试用例的有效性,确保零误判;
提供完整本地评估工具包,支持特殊判题(SPJ)场景,无需依赖在线平台,实现高效精准的离线评估。

摒弃传统 Pass@K 指标,提出更贴合真实解题流程的 Refine@K 评估方法:
允许模型在 K 次尝试内迭代优化代码,每次错误后会收到具体执行反馈(编译错误、答案错误、超时等);
首次尝试基于题目描述生成代码,后续尝试结合前序代码和反馈进行修正,模拟人类 “反思改进” 的解题过程;
该指标能有效区分推理型模型与非推理型模型的核心差异,更真实反映模型的内在推理能力。
![]()
03.
测试结果:
顶尖LLM落后人类,推理模型优势凸显
团队对15款主流 LLM 进行全面测试,揭示了诸多关键发现:
![]()
各模型在ICPC-Eval不同算法领域及完整测试集上的Refine@5性能表现
- 与人类差距明显:即使表现最佳的 o3-mini High 模型,平均每场竞赛仅能解决 28.8% 的题目,远低于人类奖牌获得者水平(如图 1 所示),证明顶级编程竞赛仍是 LLM 的巨大挑战;
- 推理模型优势显著:DeepSeek R1、Gemini 2.5 Pro Exp 等推理型模型在 Refine@K 指标下表现突出,且随着尝试次数增加,性能持续提升。而非推理型模型即使增加尝试次数,优化空间也十分有限;
- 模型各有擅长领域:Gemini 2.5 Pro Exp 在基础算法、数据结构和数学领域表现均衡,o3-mini High 在计算几何和字符串算法上优势明显,而计算几何和搜索算法是所有模型的共同难点;
- Refine@K 更具区分度:相比 Pass@K,Refine@K 能更精准捕捉模型的迭代优化能力,同一基础模型的推理版本与非推理版本在该指标下差距显著。
04.
适用场景:
赋能LLM推理能力的精准迭代
ICPC-Eval 的设计特性使其在多个场景中具备重要应用价值:
- 模型研发评估:为 LLM 推理能力提供严苛的基准测试,帮助研究者精准定位模型短板,指导迭代优化;
- 推理机制研究:通过迭代优化过程的数据分析,深入探索 LLM “慢思考” 和反思修正的内在机制;
- 竞赛辅助训练:为编程竞赛参与者提供 AI 辅助训练工具,生成多样化测试用例,提升训练效率;
- 技术选型参考:为需要高阶推理能力的应用场景(如复杂系统开发、算法设计)提供模型选型依据。
无论是学术研究还是工业应用,ICPC-Eval 都能提供更真实、更全面的 LLM 推理能力评估支持。
ICPC-Eval 的推出,填补了顶级编程竞赛级 LLM 评估基准的空白。其真实的竞赛题目、创新的评估指标和便捷的本地测试工具,为 LLM 推理能力评估树立了新标杆。测试结果表明,尽管 LLM 在普通编程任务中表现出色,但在顶级算法竞赛场景中仍有巨大提升空间。
----- END -----
![]()
wisemodel相关:
系列模型:
关于wisemodel更多
1
欢迎持续关注和支持
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。
2
欢迎加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn
3
欢迎投稿优质内容
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。
4
关于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
向上滑动查看
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.