网易首页 > 网易号 > 正文 申请入驻

开源大模型榜单,10个主流Benchmark一次讲清,附排名

0
分享至

开源大模型必会附上在不同 benchmark 上的刷分情况以及排名

SWE-bench、GPQA、HLE、Terminal-Bench……

很多同学看不明白,这些 benchmark 都具体考验的模型的哪些能力

刚在 HF 上看到一个动态 race 图展示最近一年开源大模型在不同 benchmark 上,不同大模型的排名

本文就逐个、详细介绍一下


地址:huggingface.co/spaces/davanstrien/benchmark-race 一、SWE-bench Verified —— 真实代码仓库的「修 bug 终极考」


  • 出品方 :OpenAI × Princeton(Preparedness 团队联合普林斯顿)

  • 测什么 :AI Agent 在 真实开源项目 里端到端解决 GitHub Issue 的能力

  • 数据形式 :500 道经过人工筛查的任务,全部来自 12 个主流 Python 开源仓库(Django、sympy、scikit-learn 等)

  • 怎么算对 :每道题自带两组单元测试—— FAIL_TO_PASS (修好后才该通过)+ PASS_TO_PASS (不能把别的功能改坏),全部通过才算解决

为啥叫 Verified?因为原版 SWE-bench 里有不少题目本身描述模糊、测试不靠谱,会冤枉模型。OpenAI 找了一批专业工程师把 2294 道题逐道筛选,留下 500 道描述清晰、测试合理、人类工程师能搞定的高质量题,作为业界公认的「干净版」SWE-bench

简单说就是:把 AI 当一个真实程序员丢进开源项目里,让它自己读 issue、自己改代码、自己跑测试,看它能不能把 bug 真的修掉

❝ 这是衡量「AI 编程 Agent」能力最权威的指标之一

目前最强:DeepSeek-V4-Pro

我没想到 DeepSeek-V4-Flash 居然也这么强,可以拍第三


SWE-bench Verified 二、SWE-bench Pro —— 工业级长链路代码工程考核


  • 出品方 :Scale AI

  • 测什么 :在 更大、更脏、更长链路 的工程任务上,Agent 能不能扛得住

  • 数据形式 :1865 道人工验证的任务,覆盖 41 个仓库,平均一个补丁要改 100+ 行代码、跨多个文件

  • 核心创新 :抗污染设计,专门用 GPL 强 copyleft 协议仓库 + 商业闭源仓库,降低被训练数据「背过」的可能

数据集分三块:

  • Public Set(731 题,11 个开源仓库,公开可评测)

  • Held-Out Set(858 题,12 个私有仓库,防过拟合)

  • Commercial Set(276 题,18 个商业仓库,仅放榜不放数据)

主指标叫 Resolve Rate——Agent 给出的补丁能否在 Docker 隔离环境里完整通过 build + test

为什么要搞 Pro 版?因为 SWE-bench Verified 任务相对短小,而真实工业代码动不动就几百行修改、跨多文件重构。SWE-bench Pro 就是冲着「长程任务(long-horizon)」去的,目前顶级模型 Pass@1 也就 25% 左右,区分度极强

目前最强:Kimi-K2.6


SWE-bench Pro 三、MMLU-Pro —— MMLU 的「加难版」,14 个学科混合推理


  • 出品方 :滑铁卢大学 TIGER-Lab,NeurIPS 2024 收录

  • 测什么 :跨学科知识 + 推理能力 (不再是单纯背知识)

  • 数据形式 :12000+ 道题,覆盖数学、物理、化学、生物、计算机、经济、法律、心理、哲学等 14 个学科

  • 关键改造 :选项从 4 个扩到 10 个 ,蒙对概率从 25% 直降到 10%;同时剔除 MMLU 里的噪声题、加入更多需要多步推理的难题

老牌的 MMLU 这两年已经被打榜打到「饱和」,顶级模型动辄 88-90%,区分不出谁更强。MMLU-Pro 一上来就把所有模型分数砍掉 16-33%,重新拉开差距

更关键的变化:在 MMLU 上「直接答」往往比 CoT(思维链)还好;但在 MMLU-Pro 上,**带 CoT 推理的提分能到 20%**,说明它真的在测推理而不是测记忆

❝ 简单理解:MMLU-Pro 是给 LLM 准备的「研究生综合考试」,知识面 + 推理力一起考

目前最强:Qwen3.5-397B-A17B

为何不是 Qwen3.6,因为它没开源呢


MMLU-Pro 四、GPQA Diamond —— 博士级别的「Google-Proof」科学推理


  • 出品方 :NYU + Cohere + Anthropic 联合研究团队

  • 测什么博士级 生物、物理、化学的硬核推理能力

  • 数据形式 :从原版 GPQA 448 道题里抽出 最难的 198 道 作为 Diamond 子集,全是 PhD 出题、PhD 复核

  • 核心特性 :Google-Proof—— 专家联网搜也搜不到答案 ,必须靠真理解

人类参考分数很有意思:

  • 学科内 PhD 专家:约 81% 准确率

  • 学科外的高水平非专家(联网答题):约 22%(基本等于瞎蒙的 25%)

题目长这样:核磁共振谱里某个化学位移的位置变化,对应的反应可能用了哪一族元素?4 选 1,但每个选项都精心设计成似是而非。这种题你想用搜索引擎走捷径基本没戏

GPQA Diamond 已经是开源/闭源大模型评测的「博士理科卷」标配,你看到的多数模型 GPQA 分数指的就是 Diamond 子集

目前最强:Kimi-K2.6


GPQA Diamond 五、HLE(Humanity's Last Exam)—— 人类的「最后一卷」


  • 出品方 :Center for AI Safety(CAIS)× Scale AI,2026 年 1 月 Nature 正刊发表

  • 测什么人类知识前沿 的封闭式考试,定位是「最后一份这种类型的学术 benchmark」

  • 数据形式 :2500 道公开题(另有私有集防过拟合),覆盖数学、理工、人文、医学、计算机等 100+ 学科;约 24% 是多选,其余是短答精确匹配;约 14% 题目带图(多模态)

参与出题的有近 1000 位贡献者,来自 50+ 国家、500+ 机构,绝大多数是科研一线的教授/博士

为啥叫「最后一卷」?因为 MMLU、GPQA 这种已经被顶级模型打到 90%+,区分度走到尽头。HLE 把难度往人类专家天花板推:

  • 人类领域专家:约 90%

  • 主流前沿模型(2026 年初):40-50% 上下

每道题答案都设计成可机器自动验证(精确匹配或单选),同时还能评估模型的「自信度校准」(calibration)——答错时它有没有自知之明

❝ 这是目前公认最难的封闭式学术 benchmark

目前最强:Kimi-K2.6


HLE 六、AIME 2026 —— 高中奥数级数学推理


  • 出品方 :题目源自 MAA(美国数学协会)每年举办的 American Invitational Mathematics Examination

  • 测什么奥数级 多步符号推理、代数/几何/数论/组合的硬核解题能力

  • 数据形式 :30 道题(AIME I 15 道 + AIME II 15 道,2026 年 2 月刚开考),每题答案是 0–999 的整数不给部分分

  • 评测方式 :Pass@1 精确匹配,闭卷做题,没有任何工具/搜索辅助

为什么社区都在用 AIME 当数学 benchmark?

  1. 新鲜不污染 :每年题目当年 2 月才公开,对任何 2025 年前训练完的模型都是「真盲考」

  2. 不可背答案 :30 道全是新题,没有题库可背

  3. 强逼 CoT :每道题平均 5-10 步推理,不写思维链根本做不出

  4. 难度足够 :高中竞赛级,比 GSM8K、MATH 都更硬

人类顶级 AIME 选手中位数也就 4-6 题(约 30-40%),现在顶级 LLM 已经能做到 95%+,是 LLM 数学能力近两年突飞猛进最直接的证据

目前最强:Step-3.5-Flash

这个模型我不太了解啊,不评价

这个榜单 DeepSeek-V4 没参与


AIME 2026 七、HMMT Feb 2026 —— 哈佛-MIT 数学竞赛 2 月赛


  • 出品方 :题目来自 Harvard-MIT Math Tournament(HMMT),评测平台主要是 ETH Zurich SRI Lab 的 MathArena

  • 测什么 :和 AIME 同类,但 整体更难 ——介于 AIME 和奥赛之间

  • 数据形式 :2026 年 2 月赛的题目,覆盖代数、几何、数论、组合,部分是开放式答案

  • 核心价值反污染 ——MathArena 的设计原则就是用「赛后第一时间发布」的新题来测 LLM,确保模型没在训练集里见过

HMMT 是和 Putnam、AMC、AIME 齐名的顶级高中/大学预科数学竞赛,难度比 AIME 高一档。这也是为啥同样一个模型在 AIME 上能 95+,在 HMMT 上往往就掉到 80-90

如果你看到一个开源模型只刷 AIME 不刷 HMMT,那就要警惕——很可能在 AIME 上有「专项训练」,但在更难、更新的 HMMT 上原形毕露

目前最强:Kimi-K2.6


HMMT Feb 2026 八、olmOCR-bench —— 文档 OCR 的「单元测试式」评测


  • 出品方 :Allen Institute for AI(AI2)

  • 测什么真实复杂文档 的 OCR / 文档理解能力(公式、表格、阅读顺序、扫描件、多栏排版……)

  • 数据形式 :1403 份真实/合成 PDF,附带 7000+ 单元测试 (pass/fail 二元判定)

  • 创新点 :不再用「整页字符串编辑距离」这种粗糙指标,而是把每道题做成 可机器验证的「事实断言」

具体来看,每个测试就是一条断言,比如:

  • 「这段文字必须出现,且顺序正确」

  • 「这个数学公式里 x 必须在分子位置」

  • 「表格 A1 单元格的值必须出现在 B1 之上」

  • 「页眉/页脚不该出现在正文里」

考点覆盖六大典型场景:arXiv 论文里的公式、复杂嵌套表格、多栏布局、老旧扫描件、密集小字、页眉页脚的去除

❝ 这是目前评测「VLM/OCR 模型在真实文档上能不能用」最严谨的开放 benchmark,国产 dots.ocr、PaddleOCR-VL、MinerU 等很多模型都在拿它打分

目前最强:不不熟悉的模型

眼熟的就拍第三的 dots


olmOCR-bench 九、Terminal-Bench 2.0 —— Agent 在真实命令行里搞工程

  • 出品方 :Stanford × Laude Institute,Anthropic 等前沿实验室深度参与

  • 测什么 :AI Agent 在 真实 Linux 终端 里完成端到端工程任务的能力

  • 数据形式 :80+ 道人工策划任务(2.0 版本),每道题在独立 Docker 容器里运行,自动化测试判定成败

  • 覆盖范围 :软件工程(构建/调试/部署)、系统管理(服务器配置/网络)、安全(漏洞评估/加密)、科学计算(蛋白质组装/数据流水线)、机器学习(模型训练/推理部署)

任务设计三原则:Solvable(人类有参考解法)、Realistic(真实工作场景)、Well-specified(成功标准明确可自动判定)

举几个真实题目你感受下:

  • 编译指定版本 Linux Kernel 并打补丁

  • 给内网服务配置自签 TLS 证书

  • 调试一段并发 bug 的 Python async 代码

  • 在显存/精度约束下跑完一次 ML 训练

评测框架叫 Harbor,统一管理 Agent 生命周期、命令交互、日志记录。这是目前 Anthropic、OpenAI、Google 都在卷的「Agentic 系统」实战考场,跟 SWE-bench 的「修代码」是互补的,更偏「在系统里干活」

目前最强:GLM-5.1


Terminal-Bench 2.0 十、EvasionBench —— 检测 LLM「答非所问、避而不答」


  • 出品方 :开源团队(IIIIQIIII),论文挂在 arXiv 2601.09142

  • 测什么 :模型在面对 敏感/尖锐问题 时,是否在用「话术绕过」「答非所问」这种隐性 evasion

  • 数据来源 :2270 万对 S&P Capital IQ 上市公司财报电话会议 Q&A,过滤后构建 84000 训练集 + 1000 道金标测试集(专家标注)

它把 evasion 分成三档:

| 等级 | 含义 | ||| | Direct | 完整、明确地正面回答了核心问题 | | Intermediate | 给出相邻信息、打太极、拐弯抹角不正面回答 | | Fully Evasive | 直接忽略问题、拒答,或彻底跑题 |

标注方法用了 Multi-Model Consensus(MMC):多个强 LLM 投票打标,分歧大的题反而被当作「高价值难题」重点人工裁决,最终一致性 Cohen's κ = 0.835,相当扎实

配套还有一个 4B 参数的分类器 Eva-4B(基于 Qwen3-4B 微调),在金标集 Macro-F1 跑到 84.9%,反而把 Claude 4.5、GPT-5.2、Gemini 3 Flash 这些前沿模型都甩在后面——说明这件事「难在数据,不难在参数」

❝ 大模型评测从「答得对不对」走向「答得真不真」、「躲没躲」,这是个有意思的方向

这个就不截图了,N 多模型厂商不在此榜单公布分数了

One More Thing

回头看这 10 个 benchmark,其实可以分成 5 个能力维度,方便你下次看榜单时心里有数:

| 能力维度 | 对应 Benchmark | ||-| | 代码工程能力 | SWE-bench Verified、SWE-bench Pro | | 综合知识 + 推理 | MMLU-Pro、GPQA Diamond、HLE | | 数学推理 | AIME 2026、HMMT Feb 2026 | | 多模态/文档理解 | olmOCR-bench | | Agent 实战 | Terminal-Bench 2.0 | | 诚实性/对齐 | EvasionBench |

下次再看到一张写满 benchmark 的开源模型海报,至少不会再被一堆缩写绕晕了

几个看榜单的小建议:

  • 别只看一个数 :每个 benchmark 测的是一个切面,编程强的不一定数学好,数学好的不一定 Agent 能力强

  • 警惕「专项过拟合」 :只刷 AIME 不刷 HMMT、只刷 Verified 不刷 Pro,往往有猫腻

  • HLE 是新天花板 :MMLU/GPQA 已经卷到 90+,HLE 这种 40-50% 段位的 benchmark 才是接下来一两年衡量「前沿能力」的真正标尺

  • Agent 类 benchmark 是下一个主战场 :Terminal-Bench、SWE-bench Pro 这种长链路、真实环境的考核,比传统 QA 更能反映「能不能真用」

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

健康之光
2026-03-23 20:10:05
陈思诚找小21岁阮巨不是瞎了眼:他比谁都精,要的是情绪稳定

陈思诚找小21岁阮巨不是瞎了眼:他比谁都精,要的是情绪稳定

小猫娱乐叭叭
2026-04-27 20:42:52
中国正式禁止美国收购Manus,美媒集体破防指责

中国正式禁止美国收购Manus,美媒集体破防指责

空间展示知识
2026-04-28 11:51:13
金正恩自己都没想到,下令出兵俄罗斯后,会给朝鲜带来这么多惊喜

金正恩自己都没想到,下令出兵俄罗斯后,会给朝鲜带来这么多惊喜

混沌录
2026-04-11 20:56:12
出大事了,联合国会场又吵翻,121国抱团力挺伊朗,美国当众翻脸

出大事了,联合国会场又吵翻,121国抱团力挺伊朗,美国当众翻脸

小小科普员
2026-04-28 19:36:37
孙杨与前空姐私生子曝光?13岁男孩练击剑 网友:两人一模一样

孙杨与前空姐私生子曝光?13岁男孩练击剑 网友:两人一模一样

念洲
2026-04-29 14:49:45
内马尔:我真的很想去踢世界杯;希望在世界杯决赛和梅西交手

内马尔:我真的很想去踢世界杯;希望在世界杯决赛和梅西交手

懂球帝
2026-04-29 14:33:20
伊朗官员:希望伊美谈判取得积极成果,伊方仍保留“底牌”

伊朗官员:希望伊美谈判取得积极成果,伊方仍保留“底牌”

界面新闻
2026-04-29 15:23:12
《妻子的浪漫旅行2026》孙杨回应与妻子张豆豆相处模式引争议:由于职业原因,像这样的旅行是第一次,看到了不足,有一个好老婆很重要

《妻子的浪漫旅行2026》孙杨回应与妻子张豆豆相处模式引争议:由于职业原因,像这样的旅行是第一次,看到了不足,有一个好老婆很重要

鲁中晨报
2026-04-28 09:53:07
61岁何智丽现状:从日本回老家上海,与老友聚餐,面色红润没发福

61岁何智丽现状:从日本回老家上海,与老友聚餐,面色红润没发福

以茶带书
2026-04-14 14:09:22
56岁桑切斯把贝索斯熬成爹?满眼都是宠溺

56岁桑切斯把贝索斯熬成爹?满眼都是宠溺

远山行客
2026-04-29 09:11:59
终于,一位接地气的专家说了大实话:中国老百姓的负担太重了

终于,一位接地气的专家说了大实话:中国老百姓的负担太重了

巢客HOME
2026-04-28 05:25:03
裁员裁到大动脉后果严重吗?网友:还真以为老板都是纱布吗

裁员裁到大动脉后果严重吗?网友:还真以为老板都是纱布吗

带你感受人间冷暖
2026-04-22 23:18:22
特斯拉新款Model Y大更新,细节改得是真良心

特斯拉新款Model Y大更新,细节改得是真良心

华庭讲美食
2026-04-29 10:54:42
95年我相亲碰大雨,丈母娘叫我和大姐住一屋,那夜我目睹难忘一幕

95年我相亲碰大雨,丈母娘叫我和大姐住一屋,那夜我目睹难忘一幕

白云故事
2025-03-04 05:45:02
伊朗战火烧向加油站 美最新民调:特朗普支持率跌至任内新低

伊朗战火烧向加油站 美最新民调:特朗普支持率跌至任内新低

财联社
2026-04-29 08:19:12
汪精卫后人回南京祭拜,看到父母的跪像,含泪说:做错事该受惩罚

汪精卫后人回南京祭拜,看到父母的跪像,含泪说:做错事该受惩罚

历史龙元阁
2026-04-28 11:40:16
南瓜子能不能天天吃?医生:过了60岁以后,吃坚果牢记4个关键

南瓜子能不能天天吃?医生:过了60岁以后,吃坚果牢记4个关键

宝哥精彩赛事
2026-04-29 12:56:14
5米大车越来越多,一个新问题藏不住了,很多燃油车已“受伤”

5米大车越来越多,一个新问题藏不住了,很多燃油车已“受伤”

小李车评李建红
2026-04-29 08:00:03
伊朗新任最高领袖伤情远超外部认知,难怪伊朗决策左右摇摆

伊朗新任最高领袖伤情远超外部认知,难怪伊朗决策左右摇摆

廖保平
2026-04-27 09:42:05
2026-04-29 16:07:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3360文章数 11142关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

媒体:阿联酋官宣要走 对欧佩克重重一击

头条要闻

媒体:阿联酋官宣要走 对欧佩克重重一击

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

配32寸升降屏 新款别克世纪CENTURY上市53.99万起

态度原创

教育
艺术
数码
旅游
军事航空

教育要闻

官宣!26年四川省高考各批次招生类型及投档规则出炉

艺术要闻

这些女神,竟然都是摄影师切尔尼亚季耶夫的复古作品!

数码要闻

所有PC配件全面涨价!内存、CPU、硬盘...... PCB价格1个月暴涨40%

旅游要闻

Club Med地中海俱乐部泰国首家奢华产品线度假村落子苏梅岛

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版