告别简单编程题，人大用ICPC难题重新定义LLM推理评估|算法|用例|正式版模型

告别简单编程题，人大用ICPC难题重新定义LLM推理评估

分享至

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。

随着大语言模型（LLMs）在复杂编码和推理任务中的飞速进步，传统编程基准已难以跟上其发展步伐。现有测试要么难度不足，要么评估方式脱离实际场景，无法精准衡量模型的 “慢思考” 和迭代优化能力。近日，中国人民大学高瓴人工智能学院团队推出 ICPC-Eval 基准测试，以顶级编程竞赛题目为核心，创新评估机制与本地测试工具，为 LLM 推理能力提供了更严苛、更真实的检验标准！已上线始智AI-wisemodel开源社区，欢迎体验。

代码和数据集地址

https://wisemodel.cn/codes/shiyixu45/ICPC-Eval

https://wisemodel.cn/datasets/shiyixu45/ICPC-Eval

01.

行业痛点：

传统编程基准的三大短板

当前 LLM 编程能力评估体系存在明显局限，难以满足高阶推理测试需求：

1. 难度不足，区分度低：现有基准多来自普通编程平台，难度远未达到顶级算法竞赛水平。随着LLM能力提升，这些测试已无法有效区分不同模型的推理上限；

2. 评估脱离实际：主流的 Pass@K 指标仅关注多次采样中是否有正确结果，忽略了人类解题时 “尝试-反馈-优化” 的迭代过程，也未体现模型的反思修正能力；

3. 测试条件受限：顶级竞赛的私有测试用例不公开，多数基准依赖在线判题平台，本地评估困难，给研究者带来诸多不便。

这些问题导致对 LLM 真实推理能力的评估存在偏差，难以支撑模型的精准迭代。

02.

技术革新：

ICPC-Eval的三大核心突破

ICPC-Eval 以 “真实竞赛场景 + 科学评估体系 + 便捷测试工具” 为核心，实现三大关键创新：

1. 顶级竞赛题库：118 道难题构建严苛测试

团队从 11 场近年国际大学生程序设计竞赛（ICPC）中精心筛选 118 道题目，涵盖世界总决赛、洲际总决赛及区域赛等不同级别赛事。题目覆盖八大算法领域：

基础算法（贪心、分治等）34 道
动态规划 38 道
数学（组合数学、数论等）48 道
数据结构 30 道
图论 26 道
计算几何 17 道
搜索算法 35 道
字符串算法 6 道

这些题目需将复杂数学逻辑转化为高效代码，部分还涉及特殊判题场景，难度与真实竞赛完全一致，能充分暴露模型的推理短板。

2. 本地测试工具：LLM 生成鲁棒测试用例

为解决私有测试用例难以获取的问题，团队创新提出基于 LLM 的测试用例生成方案：

为每道题生成两种 C++ 输入生成器：随机生成器（均匀覆盖数据范围）和边界用例生成器（针对极端场景和特殊结构）；
利用已知正确的 AC 代码生成对应输出，再通过错误代码（WA、TLE、RE 等）验证测试用例的有效性，确保零误判；
提供完整本地评估工具包，支持特殊判题（SPJ）场景，无需依赖在线平台，实现高效精准的离线评估。

3. 创新评估指标：Refine@K 衡量迭代推理能力

摒弃传统 Pass@K 指标，提出更贴合真实解题流程的 Refine@K 评估方法：

允许模型在 K 次尝试内迭代优化代码，每次错误后会收到具体执行反馈（编译错误、答案错误、超时等）；
首次尝试基于题目描述生成代码，后续尝试结合前序代码和反馈进行修正，模拟人类 “反思改进” 的解题过程；
该指标能有效区分推理型模型与非推理型模型的核心差异，更真实反映模型的内在推理能力。

03.

测试结果：

顶尖LLM落后人类，推理模型优势凸显

团队对15款主流 LLM 进行全面测试，揭示了诸多关键发现：

各模型在ICPC-Eval不同算法领域及完整测试集上的Refine@5性能表现

与人类差距明显：即使表现最佳的 o3-mini High 模型，平均每场竞赛仅能解决 28.8% 的题目，远低于人类奖牌获得者水平（如图 1 所示），证明顶级编程竞赛仍是 LLM 的巨大挑战；
推理模型优势显著：DeepSeek R1、Gemini 2.5 Pro Exp 等推理型模型在 Refine@K 指标下表现突出，且随着尝试次数增加，性能持续提升。而非推理型模型即使增加尝试次数，优化空间也十分有限；
模型各有擅长领域：Gemini 2.5 Pro Exp 在基础算法、数据结构和数学领域表现均衡，o3-mini High 在计算几何和字符串算法上优势明显，而计算几何和搜索算法是所有模型的共同难点；
Refine@K 更具区分度：相比 Pass@K，Refine@K 能更精准捕捉模型的迭代优化能力，同一基础模型的推理版本与非推理版本在该指标下差距显著。

04.

适用场景：

赋能LLM推理能力的精准迭代

ICPC-Eval 的设计特性使其在多个场景中具备重要应用价值：

模型研发评估：为 LLM 推理能力提供严苛的基准测试，帮助研究者精准定位模型短板，指导迭代优化；
推理机制研究：通过迭代优化过程的数据分析，深入探索 LLM “慢思考” 和反思修正的内在机制；
竞赛辅助训练：为编程竞赛参与者提供 AI 辅助训练工具，生成多样化测试用例，提升训练效率；
技术选型参考：为需要高阶推理能力的应用场景（如复杂系统开发、算法设计）提供模型选型依据。

无论是学术研究还是工业应用，ICPC-Eval 都能提供更真实、更全面的 LLM 推理能力评估支持。

ICPC-Eval 的推出，填补了顶级编程竞赛级 LLM 评估基准的空白。其真实的竞赛题目、创新的评估指标和便捷的本地测试工具，为 LLM 推理能力评估树立了新标杆。测试结果表明，尽管 LLM 在普通编程任务中表现出色，但在顶级算法竞赛场景中仍有巨大提升空间。

----- END -----

wisemodel相关：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.