网易首页 > 网易号 > 正文 申请入驻

人类的考试,考验不了AI了

0
分享至


撰文 | 李信马

题图 | 豆包AI

2017年5月,当时世界围棋排名第一的柯洁惨败于AlphaGo,在机器是否会比人类更聪明这个事关全人类尊严的问题上,我们第一次有了一个确定性的答案。

一年前尚且能赢一局的李世石,成为人类棋手在AI面前最后的夕阳。

不过,人类善于寻找理由,比如将智力转换为更复杂且难以解释的“智慧”,那就显得我们还在赢,还有是更“高级的”赢法。而且作为在智慧这条路径上的先行者,人类可以既做选手又做裁判,给出一套套的测试标准,美其名曰测试AI,AI超过了人类水平,那是人类推动的科技进步,AI没有超过人类,那人类再次赢赢赢。

但“青出于蓝而胜于蓝”这件事,虽然人类希望AI快点做到,可当快到像迎面而来的一阵冰雹猛地砸到脸上时,绝大多数人还是会不适应到懵逼。

最初,我们轻松地用游戏来测试AI,现在,人类能参与地最难的考试,也即将无法用来考验AI了。

在一个周前,马斯克发布了最新版的Grok-4,这款大模型,用老马的话来说,“比所有领域的博士都聪明”。

而其在各项考试中的成绩,可以说是怪物般的存在:

我们比较熟悉的SAT和GRE考试几乎满分,不太熟悉但更难的考试,GPQA(研究生水平问答)准确率为88.9%,AIME25(美国数学邀请赛)准确率为100%,USAMO25(美国数学奥林匹克竞赛)准确率为61.9%。

最引人注目的是“人类最后的考试”(Humanity’s Last Exam,简称“HLM”),听这个名字,大家就能知道它代表的意思。

这个考试是由 Scale AI 和 Center for AI Safety(CAIS)发布的,包含3000个高难度的问题,涉及超过100个学科,题目来自数百位不同领域的专家,可以说,这套试题涵盖了人类智力任务中最具挑战性的部分,足以用来衡量AI是否具备“类人智能”。

其中题目分为两类,一类是简答题(Exact-Match Questions),需要输出一个完全匹配的字符串作为答案,另一类是选择题(Multiple-Choice Questions),需要从五个或更多选项中选择一个正确答案。

不过,前者占到了80%,而且数学相关的题目占到了全部问题的42%,所以不要指望碰运气能刷出高分。


来自题库的题目之一,感受一下无知的痛苦吧

据说,以普通人的水平,大概能答对5%的题目,而当时的大模型也纷纷折戟,没有一个能超过10%。你问人类最多能打多少分?这不重要,反正题目也是人类出的。

但Grok-4的出现,却让AI通过“人类最后的考试”的时间大大缩短了,达到了50.7%的准确率,成为首个突破50%的大模型。

这个分数,高的惊人,但因为考试的难度过大,距离大家的生活又太远,所以很难直观的说明有多难得,不过好在,后来笔者找到了一个差不多所有中国人都能理解的参考系。

在Grok-4发布的差不多同一时间,上海交大联合深势科技团队,使用 DeepSeek-R1-0528 作为驱动智能体的推理模型,在“人类最后的考试”上拿下了32.1%的新纪录,可以说代表着国内大模型的最高水平。(虽然立刻就被赶超了)


而大概一两周之前,国内的大模型正在集体测试另一套“国民考试”——高考试题。

比如,字节跳动 Seed 团队就用最新推出的通用模型 Seed1.6 对2025年山东卷高考真题(题目源自网络)进行测试,语数外采用新课标全国Ⅰ卷,其余科目为山东省自主命题,满分750分,并找来了两位来自重点高中、有联考判卷经验的高中老师进行匿名评估和多轮质检。

最终, Seed1.6 在理科和文科分别考取了648和683的高分,这个分数在山东省分别是4005名和211名,理科成绩可以冲击武汉大学,稳妥些也能去华中科技大学;而文科成绩,更是有把握冲击清北,保底也能去上海交大和复旦大学。作为参照的 DeepSeek-R1-0528 ,理科和文科分别考取了615和631,上到985(个别名校除外)下到211也是选择多多。(排名信息及志愿推荐来源:中国教育在线)


也有媒体用国产大模型测试了下高考辽宁卷,显示腾讯元宝(混元T1)文科卷的分数还要更胜一筹,笔者查询了下,其文科成绩排到了全省第11名,属于是清北招生办争相打电话,理科成绩就逊色多了,但上个985还是没问题的。至于DeepSeek,大致是冲击985保底211的水平。


所以,以高考试卷为标准,那么DeepSeek和豆包、混元间几十分的差距,是考上985和考上清北的差距;而以HLM为标准,DeepSeek和 Grok-4 差了接近40%的分值……

“比所有领域的博士都聪明”的真假还不确定,但在刚刚高考完的这一届高三考生中,文科成绩能超过AI的真的不多了。也许下一年,大模型们的高考成绩,就要彻底吊打人类考生了,能考上清北的人被称为天才,但天才努力跨过的门槛,只是AI的保底志愿。

但我更倾向于认为,就像人们对AI在围棋领域对人类的碾压再无兴趣一般,高考,还有其他人类能参与的考试,包括“人类最后的考试”,最终都会呈现AI一边倒的绝对优势,以至于让人习以为常。

可能到时候,人类会制定新的考试,但不再考虑将人类和AI进行对比,而是AI之间纯粹的竞赛;也可能将不存在这样的考试或者变得很少,人们将更关注AI的应用落地和性价比,毕竟人类也好,AI也好,考试都只是过程之一,创造出价值才是最终的目的和结果。

不过到那时,人类在智慧上的优越感,又要靠什么来维持呢?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
进口头孢西力欣涨价30倍!国内已停供2年,医生称非理性囤货没必要

进口头孢西力欣涨价30倍!国内已停供2年,医生称非理性囤货没必要

红星资本局
2026-01-06 19:35:05
冬日泉:一场与寒冷的温柔和解

冬日泉:一场与寒冷的温柔和解

疾跑的小蜗牛
2026-01-07 20:15:38
多只小天鹅被冻在公园冰面上死亡?园方:已查看,将进一步反馈

多只小天鹅被冻在公园冰面上死亡?园方:已查看,将进一步反馈

半岛晨报
2026-01-06 19:46:12
国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

回旋镖
2026-01-01 21:00:24
给退休金设立上下限,不止关乎公平问题,更关乎国家的未来

给退休金设立上下限,不止关乎公平问题,更关乎国家的未来

百味朱砂
2025-08-14 11:54:35
有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

有人问及如何评价周总理,黄永胜回忆:外交上是一把好手,搞内政堪称八级泥瓦

源溯历史
2025-12-22 12:14:13
对越反击战期间,先前有 15 个国家明确站队支持越南,然而战争正式打响后,它们却不约而同地选择了缄口不言,这是为何?

对越反击战期间,先前有 15 个国家明确站队支持越南,然而战争正式打响后,它们却不约而同地选择了缄口不言,这是为何?

史海孤雁
2025-12-19 17:46:17
不到72小时,俄再次发动猛攻,普京新目标吓坏西方,释放信息量大

不到72小时,俄再次发动猛攻,普京新目标吓坏西方,释放信息量大

零听信聊
2026-01-06 17:22:30
深蹲,一个让人又爱又恨的动作!为什么推荐你多做深蹲?

深蹲,一个让人又爱又恨的动作!为什么推荐你多做深蹲?

增肌减脂
2025-10-25 16:58:44
中信证券:商务部加强两用物项对日本出口管制,看好氧化锆的投资机会

中信证券:商务部加强两用物项对日本出口管制,看好氧化锆的投资机会

证券时报
2026-01-07 08:43:07
事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

小玡说故事
2026-01-06 10:02:21
美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

碳基生物关怀组织
2026-01-03 23:30:35
西半球的暗影:从委内瑞拉到哥伦比亚,美国的战略野心与困境

西半球的暗影:从委内瑞拉到哥伦比亚,美国的战略野心与困境

南方都市报
2026-01-06 17:42:12
45岁仍拍三级片追求刺激?从亿万富豪再到烂片女王,她追求是什么

45岁仍拍三级片追求刺激?从亿万富豪再到烂片女王,她追求是什么

丰谭笔录
2026-01-03 07:50:06
台湾省境内几乎不产石油,大量依赖进口,为何油价比国内低?

台湾省境内几乎不产石油,大量依赖进口,为何油价比国内低?

史怌的生活科普
2025-12-28 13:13:36
随着日本5-0,乌兹别克3-2,韩国0-0伊朗,U23亚洲杯最新排名如下

随着日本5-0,乌兹别克3-2,韩国0-0伊朗,U23亚洲杯最新排名如下

侃球熊弟
2026-01-08 00:00:28
《不期而遇的生活》大结局:最圈粉的不是程心,是这两个小配角

《不期而遇的生活》大结局:最圈粉的不是程心,是这两个小配角

潇洒的怂熊
2026-01-07 20:25:26
马杜罗沦为阶下囚,西方质问中国有能力保护朋友吗?中方霸气反制

马杜罗沦为阶下囚,西方质问中国有能力保护朋友吗?中方霸气反制

健身狂人
2026-01-07 17:03:49
科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

徐德文科学频道
2026-01-06 19:51:55
“时速高达185公里”,外媒:日本演员广末凉子因“过失驾驶致人受伤”,被判罚款70万日元

“时速高达185公里”,外媒:日本演员广末凉子因“过失驾驶致人受伤”,被判罚款70万日元

环球网资讯
2026-01-06 15:37:19
2026-01-08 02:24:49
DoNews incentive-icons
DoNews
不局限于对互联网行业的追踪与探索,更要向未来、向未知的方向迈进。
105939文章数 26808关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

旅游
教育
亲子
家居
公开课

旅游要闻

嗨到凌晨3点!仙游一网红夜市即将启用!0成本即可当老板...

教育要闻

在AI时代,教育有三个基本原理不会变

亲子要闻

雀巢召回多国婴儿配方奶粉,涉及中国市场71个批次

家居要闻

宁静不单调 恰到好处的美

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版