网易首页 > 网易号 > 正文 申请入驻

所有AI全军覆没!学者出2500道题,GPT-5得分25.3%,GPT-4o 2.7%

0
分享至

2 月 28 日,由全球近 1,000 名顶尖学者打造的 AI 新基准“人类最后一次考试”(HLE,Humanity's Last Exam)的相关论文发在 Nature。这套新试卷覆盖数学、物理、化学、历史、语言、医学,每一道题都来自专家自己的研究领域,每一道题都有唯一正确的答案,每一道题也都经过 AI 的经验,如果哪个 AI 能够答对,这道题就会作废。


图 | 相关论文(来源:Nature)

结果呢?GPT-4o 只拿了 2.7%,Claude 3.5 Sonnet 4.1%,OpenAI 最先进的 o1 模型,8%。发布之后,更强的 Gemini 2.5 Pro 和 GPT-5 也来挑战,一个 21.6%,一个 25.3%。可谓是全军覆没,没有一个能及格。


图 | 各个模型的得分(来源:Nature)

之所以出这套新卷子,是因为当前最聪明的大模型在那些曾难倒无数学生的考试里,已经能够考到 90 分以上。MMLU 这样一个包含 57 个学科、14,000 道题目的超难测试,AI 早就拿到了接近满分的成绩。


图 | “人类最后一次考试”的数据集创建流程(来源:Nature)

因此,“人类最后一次考试”的推出正是为了跟上和适应 AI 的发展。那么,这套题到底有多难?

有一道题是一张古罗马墓碑的照片,上面刻着帕尔米拉文字,要求 AI 把它翻译出来。帕尔米拉是古代叙利亚的一个城市,有自己的语言和文字,但是现在已经没人说了。翻译这种文字,需要懂古闪米特语、懂考古学、懂历史学。

另一道题问:蜂鸟身上有一块特殊的籽骨,位于某块肌肉的腱膜里,这块骨头支撑着几根肌腱?答案是数字。这就需要 AI 知道蜂鸟的解剖结构,知道那块骨头长在哪儿,知道它连着几根肌腱,差一点都不行。

还有一道题是数学,关于自然变换和余端,里面充满了 Σ、∞、Hom 这些符号。题目本身已经复杂到让大多数数学系学生直接跳过,但答案要求却是精确数字。

这套题的设计逻辑很残酷。每一道题提交之前,都要让 AI 先做一遍。如果 AI 做对了,这道题就不要。如果 AI 做错了,才会进入人工审核环节。审核要过两关,第一关是几个研究生水平的审稿人提意见,第二关是专家拍板。整个过程下来,1,000 个专家花费几个月,从几万道题里筛选出了这 2,500 道题。

如前所述,MMLU 已经无法满足当前 AI 的发展。2020 年,MMLU 刚出来的时候,AI 只能考三四十分。到了 2023 年,GPT-4 直接飙到 86 分。现在,随便一个开源模型都能考到 90 分以上。当考试分数都溢出来了,如何测量 AI 的聪明程度呢?因此,得换一套更难的新卷子。

“人类最后一次考试”这套基准测试名字听着吓人,但并不是字面意思,而是说这是 AI 最后一次可能考过的考试。等到 AI 哪天也在这套题上拿到 90% 的成绩,说明它已经具备了专家级的学术能力。

那么,AI 现在可以考多少分?前面提到,最厉害的 AI 也就考试 25% 左右,距离 90% 还有很大的差距。而且更有意思的是,AI 不知道自己不会。研究团队在让 AI 回答的同时给出信心分数,结果大多数 AI 明明答错了,却给出 80%、90% 的信心。这种过度自信非常危险,如果 AI 用在医疗和法律这些领域,而它不知道自己不知道,就会出现大问题。

还有一点值得注意。研究团队发现,推理模型在回答这套题的时候,思考时间越长,正确率越高。但当思考时间超过一定长度,正确率反而下降了。这说明不是想得越久就越好,当思考时间超过某个临界点,可能就是 AI 在瞎绕。这也给 AI 开发提了个醒,以后不能光拼推理时间,还得拼推理效率。

这套题现在已经在网上公开了一部分,网址是 lastexam.ai。任何人都可以去看看这些题目长什么样,也可以看看自己能不能答对几道。当然,大部分人可能不太能答对,因为题目本来就是给专家出的。


图 | 长长的论文作者名字,截图仅为部分论文作者(来源:Nature)

那么,这道题对于 AI 开发有什么用?

它就好比一面镜子,可以照出来 AI 到底有几斤几两。以后谁再宣称自己的 AI 多厉害,先拿这套题目考一下。考不过 25%,就谈不上超越人类。透过这套题也可以看清楚 AI 擅长什么和不擅长什么。比如,从目前的得分来看,AI 在数学和计算机上的表现稍好,但是在历史和语言上表现得惨不忍睹。

这说明 AI 的智能和我们想象得还不一样。论文里有一句话写得很克制,AI 在这些专家级问题上表现很差,说明真正的智能还需要深度、需要上下文、需要专业知识。那些觉得 AI 马上就要统治世界的人,通过尝试一下这套题目,可能就不再会那么悲观。


(来源:Nature)

美国德克萨斯 A&M 大学的助理教授阮东(Tung Nguyen,音译)参与了出题,他写了 73 道,是贡献第二多的作者。他告诉媒体,这套题是一种理解 AI 的方法。它就好比是 AI 的入学考试,通过设置这套门槛,我们可以知道 AI 强在哪里、弱在哪里,才能造出更安全、更可靠的技术。同时,也说明了人类的专业知识依然重要。

参考资料:

相关论文 https://www.nature.com/articles/s41586-025-09962-4

https://techxplore.com/news/2026-02-dont-panic-humanity-exam-begun.html#google_vignette

排版:胡巍巍

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湘江惨败后,毛主席在担架上幡然醒悟,一个“世界巨人”从此苏醒

湘江惨败后,毛主席在担架上幡然醒悟,一个“世界巨人”从此苏醒

老谢谈史
2026-03-01 17:07:26
美国被爆警告叙利亚别用中国电信技术 叙通信部回应

美国被爆警告叙利亚别用中国电信技术 叙通信部回应

财联社
2026-02-28 08:19:04
真动手了?156克拉钻石刷新纪录,美国向河南钻石出手:全面禁止

真动手了?156克拉钻石刷新纪录,美国向河南钻石出手:全面禁止

金哥说新能源车
2026-03-01 17:52:06
成都部分中小学已公布2026年春假放假时间

成都部分中小学已公布2026年春假放假时间

爱看头条
2026-03-01 16:42:03
1971年,陕西老光棍图便宜,娶了小自己10岁又坐过牢房的女大学生

1971年,陕西老光棍图便宜,娶了小自己10岁又坐过牢房的女大学生

南权先生
2026-02-26 15:38:59
国际金价飙升,国内品牌金饰突破1600元大关

国际金价飙升,国内品牌金饰突破1600元大关

现代快报
2026-03-01 18:41:07
椰树工厂开放参观,炸出一堆猛料。。

椰树工厂开放参观,炸出一堆猛料。。

4A广告网
2026-02-28 20:45:41
第94分钟绝杀!西蒙尼狂欢,1亿巨星立大功:终结14轮进球荒

第94分钟绝杀!西蒙尼狂欢,1亿巨星立大功:终结14轮进球荒

足球狗说
2026-03-01 05:58:12
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

通文知史
2026-02-26 22:00:04
伊朗终于发狠了,打击力度升级,关键时刻,掏出中国一王牌武器

伊朗终于发狠了,打击力度升级,关键时刻,掏出中国一王牌武器

史智文道
2026-02-28 16:27:37
哈梅内伊遇害,伊朗会怎么报复?

哈梅内伊遇害,伊朗会怎么报复?

红星新闻
2026-03-01 11:51:17
踏俄之土,充俄之军?俄罗斯要求18至65岁外国男性服兵役,到底意味着什么?

踏俄之土,充俄之军?俄罗斯要求18至65岁外国男性服兵役,到底意味着什么?

静夜史君
2026-02-27 23:56:22
好险!网友差点拿40万接盘小区超市,评论区高手仗义挽救一个家庭

好险!网友差点拿40万接盘小区超市,评论区高手仗义挽救一个家庭

另子维爱读史
2025-10-11 22:40:25
美专家:中国人不可怕,可怕的是他们买了光刻机,却不用来造芯片

美专家:中国人不可怕,可怕的是他们买了光刻机,却不用来造芯片

世界有奇事
2026-01-13 16:34:40
42岁王冠定居上海,住800平独栋别墅穿188拖鞋,老公手上纹她名字

42岁王冠定居上海,住800平独栋别墅穿188拖鞋,老公手上纹她名字

揽星河的笔记
2026-02-19 17:15:17
黄一鸣带小孩给爷爷奶奶拜年,嘴巴很甜,被怀疑是变相要红包

黄一鸣带小孩给爷爷奶奶拜年,嘴巴很甜,被怀疑是变相要红包

新游戏大妹子
2026-02-18 09:18:57
人到晚年才醒悟:跟兄弟姐妹断亲,是你这辈子最贵的一笔账

人到晚年才醒悟:跟兄弟姐妹断亲,是你这辈子最贵的一笔账

孤酒老巷QA
2026-03-01 09:55:04
大S终于没遗憾了!具俊晔清空账号返回韩国,小玥儿姐弟回北京

大S终于没遗憾了!具俊晔清空账号返回韩国,小玥儿姐弟回北京

娱塘主呱呱
2026-03-01 17:42:01
孙颖莎4比1战胜陈熠,前国手郭焱表示孙颖莎让球,要不然就是4比0

孙颖莎4比1战胜陈熠,前国手郭焱表示孙颖莎让球,要不然就是4比0

凤幻洋
2026-03-01 16:37:31
淡季不淡,2月吉利又卖了20.61万辆新车

淡季不淡,2月吉利又卖了20.61万辆新车

汽车公社
2026-03-01 19:09:03
2026-03-01 19:51:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16343文章数 514680关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

中国游客遭遇航班熔断 转机四趟耗时48小时回国

头条要闻

中国游客遭遇航班熔断 转机四趟耗时48小时回国

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

《江山为聘》:吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

家居
亲子
数码
旅游
公开课

家居要闻

素色肌理 品意式格调

亲子要闻

春日敏感肌自救指南,你get了吗?

数码要闻

小米首款追踪器!小米Tag海外正式发布 兼容iOS 120元起

旅游要闻

胶香灯影传非遗 文旅新春启新程——东阿文旅与非遗深度融合的新春实践

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版