网易首页 > 网易号 > 正文 申请入驻

“为了全人类,提交你最难的问题”

0
分享至

跑分都满分则跑分无意义。

从AI刚刚面世,人们就执着于用各种各样的题库来测试AI到底有多聪明,不管是ChatGPT、Gemini、Grok,还是DeepSeek、Kimi、文心一言,它们发布的同时,几乎都会附上一个跑分成绩。

而事到如今,市面上流行的题库都快被AI做穿了,每一代新模型都要“霸榜碾压”,“满分横扫”,在MMLU这样的热门基准测试上,大部分模型的准确率已经超过 90%——换句话说,AI的聪明程度,人已经快评估不出来了

好怀念那些过去的好日子,AI只要显得像个人就能通过测试(现在图灵测试已经好久没人提了)|x @PhysInHistory

“人工智能能力的评估基于基准测试,然而基准测试正在迅速饱和,失去了作为衡量工具的效用……”人类最后的考试网站首页写道,“在MMLU和GPQA这样的测试中表现良好,已不再是取得进步的有力信号,因为前沿模型在这些基准测试中的表现已经达到或超过了人类水平。”

在MMLU基准测试上,前沿大模型的得分不相上下。吊诡的是,如果AI已经比人类更聪明了,那我们是否有足够的智慧去认知这一点?|bracai.eu

为了搞清楚高速进化的AI到底发展到哪一步了,也为了给它们排个名次,拉开差距,我们需要上点更难的题了。

作为目前人类最高智慧和最先进文明成果的代表,“人类最后的考试”(Humanity's Last Exam,以下简称HLE)就在这个背景下诞生了。

人类智识最后的堡垒,文科也在里面

“人类最后的考试”是一个基准测试,由Center for AI Safety和Scale AI联合创建,它的测试内容几经调整,最终在2025年3月4日确定为一套包含了2500个前沿学术难题的题库。

这些题分布在100多个不同的学科领域,可以粗略分为以下几大类:

数学(Mathematics):大量高难度数学题,包括高等代数、拓扑、范畴论、概率、图论、数论等,强调推理深度。

自然科学(Natural Sciences):物理、化学、生物、生态学、医学等。

计算机科学与人工智能(Computer Science & AI):算法、图论、马尔科夫链、程序推理等。

工程学(Engineering):复杂系统和应用性技术问题。

人文学科与社会科学(Humanities & Social Sciences):语言学、历史学、经济学、宗教研究、人类学、心理学、教育学、古典学、文化研究,应有尽有。

其他:冷门知识或小众学科(古文字、特定地方的风俗考证之类)。

具体的题库分布,其中数学题占了41%,人文领域题占了18%(可恶啊,输掉了)|HLE

HLE最让人印象深刻的是它的多模态,这些问题不只是基于文本,还包括图表、古文字、图像、公式,这意味着AI想要回答问题,就得先读懂问题。

HLE的官网上公开了其中一部分问题。

比如下面这道古典学领域的题,要求AI把一段在墓碑上发现的罗马铭文翻译成帕米拉亚兰语(还给了音译,多贴心啊)。

问题由牛津大学墨顿学院博士Henry Tang提交|HLE

还有这道考察AI对乱成一团的古希腊男女关系的了解程度的民俗小知识题:在希腊神话中,伊阿宋的曾姥爷是谁?

由墨西哥国立理工学院医学部的Darling D提交(我没有找到这个人,不知道为什么医学院的人会出这种题)|HLE

这道读起来像GRE考试题一样,每个词都似是而非,读着后面忘着前面的生物题,大概是问蜂鸟的籽骨支撑着多少对肌腱,明确要求用数字来回答。

由麻省理工大学计算机系的博士Edward Vendrow提交,真是一位很博学又很会针对AI的学者,至于为什么这道题针对了AI我们等下讲|HLE

还有这道考察图论+马尔可夫链的题:

由伦敦玛丽女王大学计算机系讲师Dr. Marc Roth提交|HLE

如果你还想做更多的题,或者对题库好奇,再或者想凭一人之力和AI决一高下,可以上HLE官网查看题库。

虽然这些问题已经公开发布,供开发者测试大模型用,但是HLE称,“为了应对训练数据污染和基准测试黑客攻击问题”,他们也保留了一个private set,用于定期测量模型与公共数据集的过拟合情况,不对外公布,而这一部分才是真正用于AI模型排行榜和最终评分的核心数据。

题库里的题主要有两种形式,选择题和简答题

选择题需要从五个以上的选项中进行选择(题库中24%的题目是多选题),而简答题需要模型输出和答案完全一致的字符串,不能语义模糊、不能不准确。在题库中,还有约14%的题目要求同时理解文字和图像。

可以说是全选C战术和谁字多谁得分战术都没用了。

“为了全人类,提交你最难的问题”

不得不说“人类最后的考试”这个名字起得真的很好,要不是这厉害中透着中二气息的名字,我可能永远也不会好奇一个冷冰冰的大模型的基准测试到底在考什么。

但HLE的发起人丹·亨德里克斯(Dan Hendrycks)一开始想的名字更厉害,叫“人类最后一战”(Humanity’s Last Stand),后来大家都觉得这个名字过分抓马,劝他放弃了。

丹·亨德里克斯,他还写了一篇文章叫《灾难性人工智能风险概述》,也还蛮有意思|The New York Times

丹·亨德里克斯也是一个神人。

25岁的时候,他联合编写了现在最热门的AI大模型基准测试MMLU,截至2024年7月,MMLU下载量已超过1亿次。30岁的时候,他发现目前AI的能力已经溢出了基准测试,MMLU已经不好使了,于是他决定做个新的测试(他还在一次采访中表示,他做HLE是因为马斯克觉得现在的基准测试都太简单了)。

目前,亨德里克斯在马斯克的人工智能公司xAI担任安全顾问,他同时也是Scale AI的顾问,为避免潜在的利益冲突,他每月只象征性地领一美元薪水,而且不持有任何公司股权。

再说回HLE。

HLE计划发起初期,也就是2024年9月,亨德里克斯公开发布文章,号召全世界的学者“为人类最后的考试交出你最难的问题”(这个说法相当有毒,因为人家并不知道HLE就是题库的名字,只看题目仿佛事关人类存亡)。

“未来的人工智能系统最终将超越所有能够创建的静态基准,因此突破基准和评估的界限至关重要。为了追踪人工智能系统距离专家级能力的差距,我们正在组建史上规模最大、范围最广的专家联盟。”在文章中他写道,“如果你觉得某个问题能被AI解答会让你印象深刻,欢迎你提交。”

为了全人类,提交你最难的问题|scale.com

交问题也不是白交的,亨德里克斯宣布,所出题目评分最高的研究者,可以瓜分50万美元的奖金——排名前50位的问题,每题可获得5000美元奖金,之后的500个问题,每题可获得500美元奖金。

关于问题本身,HLE则提出了更加严格的要求。

首先,问题的答案需要在网上搜不出来。其次,问题需要是原创的新问题,不能在以前的考试里出现过。再次,问题需要有明确的答案,而且答案应被相关领域的其他专家广泛接受,且不包含个人偏好、歧义或主观性。最后,问题应该有硕士级别以上难度,因为“根据经验,如果随机选择的本科生能够理解题目内容,那么对大模型来说这个问题可能过于简单”。

每道题提交时都必须包含题目本身、题目答案(精确的回答,或者选择题的正确选项)、详细的解题推理、所属学科,以及贡献者的姓名和机构信息。

对所有提交的问题,HLE会进行两步筛选:先把问题喂给最先进的AI去解答,如果AI无法回答,或者在多选题里的得分比随机猜的还差,那问题就会被交给人工审阅者,由他们审阅和验证答案。

在The New York Times的一次采访中,加州大学伯克利分校理论粒子物理学博士后研究员Kevin Zhou表示,他提交了一些题目,其中三道题目被选中,而这些题目“都达到了研究生考试的上限”。

最终HLE收到了来自50多个国家、500多家研究机构和企业的1000多位学者的回复,从中诞生了目前最难的AI基准测试HLE。

对AI来说,HLE难在哪?

费了这么大功夫,HLE真的难住AI了吗?

单看结果而言,是难住了。

目前为止,主流前沿模型纯文本模式下在HLE上的得分都还比较低,OpenAI最新的o3-mini(high)模型,准确率只有13%,而前阵子震撼美国的DeepSeek-R1的准确率也才9.4%。目前得分最高的是Grok4,正确率26.9%。

截止到今年一月论文发表时的数据,黑色柱形是HLE的准确率|HLE官网

这些题为什么这么难?

有一个原因是它们需要一定的推理深度,而且没法在网上找到答案,还有一个原因是问题已经经过了筛选,留下的全部是现有的前沿模型表现差的问题。

还有一个原因是在问题上给AI挖了坑。

比如上文提过的蜂鸟籽骨问题,看似简单,但是有人测试了ChatGPT5和Gemini,它们都给出了一篇论文似的长篇大论,而忽略了问题的最后一句话,“Answer with a number”,请直接用数字回答。

因此,所有不是“2”的答案都被算作是错的(尽管有些模型在长篇大论之后给出了正确答案),这可能是一个产品设计问题,而不是AI表现问题。

Threads@raystormfang

另外,有些问题连人类自己都还没达成一致呢。

最后的考试,可能也撑不了多久

最后的考试赏金很诱人,概念很科幻,目的很崇高,但是它带来的争议已经开始浮现。

今年7月,专注人工智能应用的非营利组织FutureHouse发布了一篇调查报告,称HLE里“化学生物领域的30%的答案可能是错的”。

他们组建了一个化学生物领域的专家评审团,并且详细研究了HLE题库,最终得出结论,“29±3.7%(95%置信区间)的纯文本化学和生物问题的答案与同行评审文献中的证据直接冲突”。

比如这个问题:截至 2002 年,在地球物质总量中所占比例最少的稀有气体是哪一种(What was the rarest noble gas on Earth as a percentage of all terrestrial matter in 2002)?

你不知道,我不知道,AI也不知道,答案是Oganesson

Oganesson,或者叫鿫,化学符号Og,原子序数118,是一种人工合成的放射性超重元素,位于元素周期表第七周期、稀有气体族(0族)的末端。2002年,鿫在俄罗斯的一座核反应堆中首次被合成并存在了几毫秒,迄今为止,只有五个Oganesson原子被合成。而且它更可能是固体或液体,而不是气体,还有一些学者认为它不是惰性气体,因为它的化学性质并不稳定。此外,还有多篇论文(包括2002年的论文)列出了地球上稀有气体的比例,而鿫没被算进去——总而言之,鿫可能不是气体,也可能不是惰性气体,而且大多数同行评议的论文觉得它也不是地球物质。

而AI答不答得出脑筋急转弯问题又能证明什么?

还有另外一个迷思,对大多数前沿模型来说,HLE都太难了。大家得分都很低,和大家得分都很高的状况是一样的,还是没拉开区分度,也没想明白得分高的模型好在哪。而且HLE覆盖的是学术考试可测内容——它专注于已知的学术题目和闭合答案,对开放式创造力、生成类问题或非常新颖的研究课题的思考仍然难以评估。

虽然千辛万苦花大价钱出了这么一套题,看来也要很快被打穿了。

HLE自己预测,虽然目前的AI在HLE上的准确率非常低,但到2025年底,模型在HLE上的准确率就有望超过50%。事实上,还没到年底,Grok4在使用工具的情况下(比如代码解释器)正确率已经升到了41.0%

各个AI模型在2024年和2025年的HLE得分,按照这个进步速度,HLE也很快被打穿了|Reddit

亨德里克斯说,HLE或许是我们需要对模型进行的最后一次学术考试,但它远非人工智能的最后一个基准。等HLE又被超越,我们还有什么题出给AI呢?

作者:翻翻

编辑:odette

封面图来源:Scale AI / CAIS

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

美国114页报告得出结论:若跟中国开战,战争将在1个月内结束

林子说事
2026-03-26 14:08:00
马上评|双双被罚,友谊赛不是“友尽赛”

马上评|双双被罚,友谊赛不是“友尽赛”

澎湃新闻
2026-03-25 16:16:26
电力人气股,涨停!9连板

电力人气股,涨停!9连板

新浪财经
2026-03-26 12:19:23
上海11连胜展最佳姿态!顶级外援激发本土球员效率,小偰成大赢家

上海11连胜展最佳姿态!顶级外援激发本土球员效率,小偰成大赢家

篮球资讯达人
2026-03-26 00:31:17
不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:32:21
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

杀不死的萨达姆:隐藏19年的秘密浮出水面,6个替身做到以假乱真

丞丞故事汇
2026-03-26 10:43:34
张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

苗苗情感说
2026-03-26 09:33:59
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
山东“老头乐”公司起诉小米汽车,当事企业称已和解

山东“老头乐”公司起诉小米汽车,当事企业称已和解

界面新闻
2026-03-26 16:30:03
A股:今天跌破3900点了,做好准备,明天周五走势提前分析!

A股:今天跌破3900点了,做好准备,明天周五走势提前分析!

明心
2026-03-26 15:15:16
多名大学校长炮轰机器人跳舞是哗众取宠

多名大学校长炮轰机器人跳舞是哗众取宠

上峰视点
2026-03-25 19:07:57
怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

南风不及你温柔
2026-03-26 14:07:38
张雪峰去世仅1天,办公室内景曝光,写真照被指像遗照,摆设奇怪

张雪峰去世仅1天,办公室内景曝光,写真照被指像遗照,摆设奇怪

180视角
2026-03-26 08:43:01
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

阿龙美食记
2026-03-25 10:38:40
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
朝鲜为何突然禁播部分中国影视作品

朝鲜为何突然禁播部分中国影视作品

东方不败然多多
2026-03-26 05:21:44
2026-03-26 18:07:00
果壳 incentive-icons
果壳
科技有意思
27405文章数 4149213关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
手机
亲子
本地
公开课

转头就晕的耳石症,能开车上班吗?

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版