网易首页 > 网易号 > 正文 申请入驻

所有AI全军覆没!学者出2500道题,GPT-5得分25.3%,GPT-4o 2.7%

0
分享至

来源:市场资讯

(来源:DeepTech深科技)

2 月 28 日,由全球近 1,000 名顶尖学者打造的 AI 新基准“人类最后一次考试”(HLE,Humanity's Last Exam)的相关论文发在 Nature。这套新试卷覆盖数学、物理、化学、历史、语言、医学,每一道题都来自专家自己的研究领域,每一道题都有唯一正确的答案,每一道题也都经过 AI 的经验,如果哪个 AI 能够答对,这道题就会作废。


图 | 相关论文(来源:Nature)

结果呢?GPT-4o 只拿了 2.7%,Claude 3.5 Sonnet 4.1%,OpenAI 最先进的 o1 模型,8%。发布之后,更强的 Gemini 2.5 Pro 和 GPT-5 也来挑战,一个 21.6%,一个 25.3%。可谓是全军覆没,没有一个能及格。


图 | 各个模型的得分(来源:Nature)

之所以出这套新卷子,是因为当前最聪明的大模型在那些曾难倒无数学生的考试里,已经能够考到 90 分以上。MMLU 这样一个包含 57 个学科、14,000 道题目的超难测试,AI 早就拿到了接近满分的成绩。


图 | “人类最后一次考试”的数据集创建流程(来源:Nature)

因此,“人类最后一次考试”的推出正是为了跟上和适应 AI 的发展。那么,这套题到底有多难?

有一道题是一张古罗马墓碑的照片,上面刻着帕尔米拉文字,要求 AI 把它翻译出来。帕尔米拉是古代叙利亚的一个城市,有自己的语言和文字,但是现在已经没人说了。翻译这种文字,需要懂古闪米特语、懂考古学、懂历史学。

另一道题问:蜂鸟身上有一块特殊的籽骨,位于某块肌肉的腱膜里,这块骨头支撑着几根肌腱?答案是数字。这就需要 AI 知道蜂鸟的解剖结构,知道那块骨头长在哪儿,知道它连着几根肌腱,差一点都不行。

还有一道题是数学,关于自然变换和余端,里面充满了 Σ、∞、Hom 这些符号。题目本身已经复杂到让大多数数学系学生直接跳过,但答案要求却是精确数字。

这套题的设计逻辑很残酷。每一道题提交之前,都要让 AI 先做一遍。如果 AI 做对了,这道题就不要。如果 AI 做错了,才会进入人工审核环节。审核要过两关,第一关是几个研究生水平的审稿人提意见,第二关是专家拍板。整个过程下来,1,000 个专家花费几个月,从几万道题里筛选出了这 2,500 道题。

如前所述,MMLU 已经无法满足当前 AI 的发展。2020 年,MMLU 刚出来的时候,AI 只能考三四十分。到了 2023 年,GPT-4 直接飙到 86 分。现在,随便一个开源模型都能考到 90 分以上。当考试分数都溢出来了,如何测量 AI 的聪明程度呢?因此,得换一套更难的新卷子。

“人类最后一次考试”这套基准测试名字听着吓人,但并不是字面意思,而是说这是 AI 最后一次可能考过的考试。等到 AI 哪天也在这套题上拿到 90% 的成绩,说明它已经具备了专家级的学术能力。

那么,AI 现在可以考多少分?前面提到,最厉害的 AI 也就考试 25% 左右,距离 90% 还有很大的差距。而且更有意思的是,AI 不知道自己不会。研究团队在让 AI 回答的同时给出信心分数,结果大多数 AI 明明答错了,却给出 80%、90% 的信心。这种过度自信非常危险,如果 AI 用在医疗和法律这些领域,而它不知道自己不知道,就会出现大问题。

还有一点值得注意。研究团队发现,推理模型在回答这套题的时候,思考时间越长,正确率越高。但当思考时间超过一定长度,正确率反而下降了。这说明不是想得越久就越好,当思考时间超过某个临界点,可能就是 AI 在瞎绕。这也给 AI 开发提了个醒,以后不能光拼推理时间,还得拼推理效率。

这套题现在已经在网上公开了一部分,网址是 lastexam.ai。任何人都可以去看看这些题目长什么样,也可以看看自己能不能答对几道。当然,大部分人可能不太能答对,因为题目本来就是给专家出的。


图 | 长长的论文作者名字,截图仅为部分论文作者(来源:Nature)

那么,这道题对于 AI 开发有什么用?

它就好比一面镜子,可以照出来 AI 到底有几斤几两。以后谁再宣称自己的 AI 多厉害,先拿这套题目考一下。考不过 25%,就谈不上超越人类。透过这套题也可以看清楚 AI 擅长什么和不擅长什么。比如,从目前的得分来看,AI 在数学和计算机上的表现稍好,但是在历史和语言上表现得惨不忍睹。

这说明 AI 的智能和我们想象得还不一样。论文里有一句话写得很克制,AI 在这些专家级问题上表现很差,说明真正的智能还需要深度、需要上下文、需要专业知识。那些觉得 AI 马上就要统治世界的人,通过尝试一下这套题目,可能就不再会那么悲观。


(来源:Nature)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
要么投降,要么死在洞里——内塔尼亚胡拒绝放走被困地道的哈马斯

要么投降,要么死在洞里——内塔尼亚胡拒绝放走被困地道的哈马斯

桂系007
2025-11-05 23:52:21
哈梅内伊遇害后,伊朗宣布全国放假七天,伊外长宣布:愿重启谈判

哈梅内伊遇害后,伊朗宣布全国放假七天,伊外长宣布:愿重启谈判

标体
2026-03-01 22:13:40
吴京再创票房神话!《镖人》逆袭夺冠,这“玄学”真绝了

吴京再创票房神话!《镖人》逆袭夺冠,这“玄学”真绝了

喜欢历史的阿繁
2026-02-27 16:02:55
“太恐怖,iPhone半夜自己给陌生人打47分钟电话!”

“太恐怖,iPhone半夜自己给陌生人打47分钟电话!”

都市快报橙柿互动
2026-02-25 11:28:41
5-2!独造3球,9500万欧先生踢疯了!4连胜,利物浦积分追平曼联

5-2!独造3球,9500万欧先生踢疯了!4连胜,利物浦积分追平曼联

体育世界
2026-03-01 01:20:40
1961年,周恩来看着节目单脸色大变,提起笔就把那个重头戏给划了

1961年,周恩来看着节目单脸色大变,提起笔就把那个重头戏给划了

鹤羽说个事
2026-03-01 18:39:56
《纯真年代》方穆扬父母平反,送费霓别墅做改口费,凌漪悔断肠

《纯真年代》方穆扬父母平反,送费霓别墅做改口费,凌漪悔断肠

阿废冷眼观察所
2026-03-01 17:39:35
56岁男子深夜脑梗瘫痪,再次提醒:中老年人晚饭后,要少做4件事

56岁男子深夜脑梗瘫痪,再次提醒:中老年人晚饭后,要少做4件事

医学原创故事会
2026-02-28 15:47:31
要拆了?!东莞全市最大体育馆来了!选址在这!

要拆了?!东莞全市最大体育馆来了!选址在这!

东莞好生活
2026-03-01 20:59:19
黄晓明新恋情仅3天,杨颖反手扔出重磅炸弹,网友:这波赢麻了

黄晓明新恋情仅3天,杨颖反手扔出重磅炸弹,网友:这波赢麻了

小娱乐悠悠
2026-03-01 10:40:43
又凉了一个

又凉了一个

求实处
2026-03-01 00:04:15
总奖金1063万!新加坡大满贯:单打冠军可获93万+2000点积分

总奖金1063万!新加坡大满贯:单打冠军可获93万+2000点积分

乒谈
2026-03-01 19:37:32
乾隆登基后,平反了诸多被雍正打压的叔伯,为何不愿平反其大伯?

乾隆登基后,平反了诸多被雍正打压的叔伯,为何不愿平反其大伯?

鹤羽说个事
2026-03-01 18:29:37
美伊开战,却被中国卫星盯死!“天眼”24小时扫描,美军零秘密

美伊开战,却被中国卫星盯死!“天眼”24小时扫描,美军零秘密

闻识
2026-03-01 05:05:41
近期散播大量不实指控,美国要在伊朗重演“伊拉克剧本”?

近期散播大量不实指控,美国要在伊朗重演“伊拉克剧本”?

齐鲁壹点
2026-02-28 09:32:02
11分逆转背后英雄曝光!这次不是胡金秋,两连胜郭士强要感谢他

11分逆转背后英雄曝光!这次不是胡金秋,两连胜郭士强要感谢他

残梦重生来
2026-03-01 22:56:33
伊朗总统发声!

伊朗总统发声!

占豪
2026-03-01 00:34:55
美军方称有3名美服役人员在对伊朗行动中丧生

美军方称有3名美服役人员在对伊朗行动中丧生

极目新闻
2026-03-01 23:08:33
伊朗否认总司令身亡

伊朗否认总司令身亡

澎湃新闻
2026-02-28 21:59:03
86岁哈梅刚死,伊朗突然迎来救兵,中国使领馆表态,多国已选边站

86岁哈梅刚死,伊朗突然迎来救兵,中国使领馆表态,多国已选边站

环球Talk
2026-03-01 22:38:25
2026-03-01 23:55:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2303112文章数 5624关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

媒体:美以能精准"斩首"背后 摩萨德的"手笔"令人咋舌

头条要闻

媒体:美以能精准"斩首"背后 摩萨德的"手笔"令人咋舌

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

数码
艺术
游戏
本地
公开课

数码要闻

古尔曼:苹果坚持Mac与iPad独立,触控版MacBook Pro定档2026年底

艺术要闻

2025年第二届少儿美术教师作品展 | 油画选刊

《宝可梦》新游热销登顶!模拟建造休闲风

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版