网易首页 > 网易号 > 正文 申请入驻

伯克利测试揭穿AI神话,顶尖模型不及格,人类优势超3倍

0
分享至



这些年AI刷题刷疯了,传统考试早被摸透。可当伯克利甩出一份"无解之卷",顶尖模型当场傻眼——算法题人类平均95分,它们拼死只够到29分!

这份让GPT-5、Claude集体挂科的考卷,彻底撕开了AI"全能"的伪装。



斯坦福教授直摇头:MMLU这些题库早被玩坏了,就像高考真题泄露,谁还分得清学霸和书呆子?

于是纽约大学、伯克利联手搞事情。先是LiveCodeBench Pro,扒来全球编程奥赛真题,结果顶尖模型中等题才53分过关,难题直接交白卷。



但这帮教授觉得不过瘾:"要么满分要么零蛋,跟判断题有啥区别?"半年后杀出个程咬金——FrontierCS。

伯克利博士忙秋阳说得实在:"我们要的不是选择题,是那种没标准答案,但你能看出谁做得更好的题。"比如把俄罗斯方块往框里塞,谁摆得更密一目了然。

这卷子藏着156道狠活:算法赛道107题:改编自奥赛真题,但改成开放式(比如"不限工具,找出最优解")



研究赛道49题:真实科研难题,像设计数据库索引平衡速度与精度。

最绝的是防作弊设计——题目公开却无答案可背,逼AI动真脑子。更狡猾的是动态升级:人类破纪录就收紧规则,永远别想"刷熟"。

评分也颠覆认知。传统测试像判断题,FrontierCS却是量角器:多连块问题看填充密度,SAT难题数满足的约束条件。人类专家密度87%,GPT-5只做到47%——差一倍不止!



当算法赛道成绩单出炉,全场哗然:人类平均95.41分,接近满分。谷歌Gemini 3.0 Pro最高29.37分。

GPT-5、Claude等明星模型集体10-15分徘徊。哪怕给GPT-5五次机会取最高分,也只冲到52分——不到人类一半!

研究赛道稍缓和,Claude Opus 4.5以29.4分夺冠,但离人类水平仍遥远。为什么AI突然变"学渣"?三大死穴被扒光:



第二,"越想越糊涂"魔咒。团队调教GPT-5的思考强度:低强度7.9分→中强度15.3分→高强度反掉到12.6分!忙秋阳点破:"模型被训去找'正确答案',不是'更好答案'。"

第三,微优化陷阱。多连块问题中,GPT-5拼命优化输出格式,却忽略碰撞检测算法。后来研究员提示"先用二维数组模拟",分数立刻飙升——原来它总在细枝末节钻牛角尖。



反观人类选手,靠的是创造性策略。比如多连块问题,有人先旋转积木找缝隙,有人分区填充,没有固定套路却逼近87%密度。这正是AI缺失的"优化思维"——没有标准答案?那就创造更好的答案!



FrontierCS撕开一个残酷真相:AI刷题厉害,真动手就露馅。人类95分对29分的碾压,揭穿了"模型万能"的幻觉——它们精于应试,拙于创造。

老陈说句实在话,这记耳光打醒了行业:教会AI追求"更好"比"正确"更重要。毕竟现实世界哪有标准答案?从芯片设计到物流调度,处处是开放式优化。

当模型学会在迷雾中找路,才是真智能的开始。否则,再强的算力也只是高级计算器罢了。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成都丰田4s店爆燃原因公布!车辆配置纠纷引发,中年无业是爆点

成都丰田4s店爆燃原因公布!车辆配置纠纷引发,中年无业是爆点

火山詩话
2025-12-30 07:24:47
打虎!张世平被查

打虎!张世平被查

新京报政事儿
2025-12-30 14:43:01
永州已夺冠3天 美女老板静悄悄:承诺送车疑变口嗨 108万也是假的

永州已夺冠3天 美女老板静悄悄:承诺送车疑变口嗨 108万也是假的

风过乡
2025-12-30 07:43:09
林俊杰官宣文案惹争议!女方名字都不提,被吐槽不尊重母亲和女友

林俊杰官宣文案惹争议!女方名字都不提,被吐槽不尊重母亲和女友

萌神木木
2025-12-30 00:22:24
633元羽绒服女子回应:衣服只穿一次,网友晒铁证,不止穿过一次

633元羽绒服女子回应:衣服只穿一次,网友晒铁证,不止穿过一次

奇思妙想草叶君
2025-12-29 23:38:44
李连杰公开病情:没换心脏、肿瘤7厘米长,活着都是为了别人

李连杰公开病情:没换心脏、肿瘤7厘米长,活着都是为了别人

光影新天地
2025-12-29 14:57:05
全球首家市值突破 5万亿美元上市公司诞生

全球首家市值突破 5万亿美元上市公司诞生

证券时报
2025-12-30 06:31:05
网购羽绒服半个月后遭退货,口袋里还留着旅游的机票,商家怒斥:退回的衣服到处都是油渍,你是活不起了吗?

网购羽绒服半个月后遭退货,口袋里还留着旅游的机票,商家怒斥:退回的衣服到处都是油渍,你是活不起了吗?

观威海
2025-12-30 10:06:03
预判中国人的预判!特朗普级巨舰:走中国人的路,让中国无路可走

预判中国人的预判!特朗普级巨舰:走中国人的路,让中国无路可走

星辰大海路上的种花家
2025-12-29 11:54:17
顶级的公众表达力,台北市长蒋万安的发言,值得所有职场人学习

顶级的公众表达力,台北市长蒋万安的发言,值得所有职场人学习

爆角追踪
2025-12-30 14:01:04
飞行员举报“情人诈骗700多万”:从万米高空的情书,到以“一般朋友”报案

飞行员举报“情人诈骗700多万”:从万米高空的情书,到以“一般朋友”报案

红星新闻
2025-12-29 23:53:56
重复收取二次安葬费和安葬证工本费、扩大收费范围,西安凤栖山墓园被处罚

重复收取二次安葬费和安葬证工本费、扩大收费范围,西安凤栖山墓园被处罚

大风新闻
2025-12-30 15:24:04
被军演逼急了,台当局送大陆6个字,美日的反应果然如我们所料

被军演逼急了,台当局送大陆6个字,美日的反应果然如我们所料

千里持剑
2025-12-29 12:10:42
世界级峡谷悬索桥矮寨大桥3颗螺栓松了?管养单位:巡检已发现将维修,不影响结构安全

世界级峡谷悬索桥矮寨大桥3颗螺栓松了?管养单位:巡检已发现将维修,不影响结构安全

上游新闻
2025-12-30 12:40:06
吃相难看!闫学晶哭穷被喷后,再现狂傲言论,黑历史被扒后急眼了

吃相难看!闫学晶哭穷被喷后,再现狂傲言论,黑历史被扒后急眼了

阿纂看事
2025-12-30 11:00:06
砸50亿!广东惊现“全球最大烂尾医院”,连窗框都没装完

砸50亿!广东惊现“全球最大烂尾医院”,连窗框都没装完

GA环球建筑
2025-12-27 15:39:08
从辅助到自动,L3终于破冰

从辅助到自动,L3终于破冰

虎嗅APP
2025-12-27 18:04:01
35岁金晨近照曝光翻车了!肿胀的像发面馒头,越来越像网红了

35岁金晨近照曝光翻车了!肿胀的像发面馒头,越来越像网红了

娱圈小愚
2025-12-30 14:06:32
优质“蛋白质”排行榜!大豆排倒数第1,虾肉才排第4,第一名很多人都不知道

优质“蛋白质”排行榜!大豆排倒数第1,虾肉才排第4,第一名很多人都不知道

美食格物
2025-12-29 16:58:15
华为孟晚舟:鸿蒙5.0以上终端设备超3600万,鲲鹏已发展380万开发者

华为孟晚舟:鸿蒙5.0以上终端设备超3600万,鲲鹏已发展380万开发者

界面新闻
2025-12-30 10:17:58
2025-12-30 16:16:49
灿若银烂
灿若银烂
灿若银烂
254文章数 32关注度
往期回顾 全部

科技要闻

估值150亿的智元,开始批量"制造"小独角兽

头条要闻

普京通知特朗普自己官邸遇袭 泽连斯基:完全的捏造

头条要闻

普京通知特朗普自己官邸遇袭 泽连斯基:完全的捏造

体育要闻

这个59岁的胖子,还在表演“蝎子摆尾”

娱乐要闻

林俊杰官宣文案争议!女方名字都不提

财经要闻

朱光耀:美关税政策正使WTO名存实亡

汽车要闻

标配华为乾崑ADS 4 Pro 华境S明年上半年上市

态度原创

本地
时尚
教育
家居
公开课

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

“短大衣”今年冬天又火了,这4件怎么搭都好看!

教育要闻

看完一定有收获

家居要闻

当归之宅 三胎圆满居所

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版