网易首页 > 网易号 > 正文 申请入驻

伯克利测试揭穿AI神话,顶尖模型不及格,人类优势超3倍

0
分享至



这些年AI刷题刷疯了,传统考试早被摸透。可当伯克利甩出一份"无解之卷",顶尖模型当场傻眼——算法题人类平均95分,它们拼死只够到29分!

这份让GPT-5、Claude集体挂科的考卷,彻底撕开了AI"全能"的伪装。



斯坦福教授直摇头:MMLU这些题库早被玩坏了,就像高考真题泄露,谁还分得清学霸和书呆子?

于是纽约大学、伯克利联手搞事情。先是LiveCodeBench Pro,扒来全球编程奥赛真题,结果顶尖模型中等题才53分过关,难题直接交白卷。



但这帮教授觉得不过瘾:"要么满分要么零蛋,跟判断题有啥区别?"半年后杀出个程咬金——FrontierCS。

伯克利博士忙秋阳说得实在:"我们要的不是选择题,是那种没标准答案,但你能看出谁做得更好的题。"比如把俄罗斯方块往框里塞,谁摆得更密一目了然。

这卷子藏着156道狠活:算法赛道107题:改编自奥赛真题,但改成开放式(比如"不限工具,找出最优解")



研究赛道49题:真实科研难题,像设计数据库索引平衡速度与精度。

最绝的是防作弊设计——题目公开却无答案可背,逼AI动真脑子。更狡猾的是动态升级:人类破纪录就收紧规则,永远别想"刷熟"。

评分也颠覆认知。传统测试像判断题,FrontierCS却是量角器:多连块问题看填充密度,SAT难题数满足的约束条件。人类专家密度87%,GPT-5只做到47%——差一倍不止!



当算法赛道成绩单出炉,全场哗然:人类平均95.41分,接近满分。谷歌Gemini 3.0 Pro最高29.37分。

GPT-5、Claude等明星模型集体10-15分徘徊。哪怕给GPT-5五次机会取最高分,也只冲到52分——不到人类一半!

研究赛道稍缓和,Claude Opus 4.5以29.4分夺冠,但离人类水平仍遥远。为什么AI突然变"学渣"?三大死穴被扒光:



第二,"越想越糊涂"魔咒。团队调教GPT-5的思考强度:低强度7.9分→中强度15.3分→高强度反掉到12.6分!忙秋阳点破:"模型被训去找'正确答案',不是'更好答案'。"

第三,微优化陷阱。多连块问题中,GPT-5拼命优化输出格式,却忽略碰撞检测算法。后来研究员提示"先用二维数组模拟",分数立刻飙升——原来它总在细枝末节钻牛角尖。



反观人类选手,靠的是创造性策略。比如多连块问题,有人先旋转积木找缝隙,有人分区填充,没有固定套路却逼近87%密度。这正是AI缺失的"优化思维"——没有标准答案?那就创造更好的答案!



FrontierCS撕开一个残酷真相:AI刷题厉害,真动手就露馅。人类95分对29分的碾压,揭穿了"模型万能"的幻觉——它们精于应试,拙于创造。

老陈说句实在话,这记耳光打醒了行业:教会AI追求"更好"比"正确"更重要。毕竟现实世界哪有标准答案?从芯片设计到物流调度,处处是开放式优化。

当模型学会在迷雾中找路,才是真智能的开始。否则,再强的算力也只是高级计算器罢了。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
8级大风+降雨!新冷空气即将抵达广东!深圳未来天气......

8级大风+降雨!新冷空气即将抵达广东!深圳未来天气......

深圳晚报
2026-02-13 08:22:01
3吨电车成为道路的重大安全隐患,炮弹飞车,害人害己

3吨电车成为道路的重大安全隐患,炮弹飞车,害人害己

世界圈
2026-02-13 08:46:33
比尔·盖茨现身上海,一片冷清,再也没有鲜花掌声和崇拜目光

比尔·盖茨现身上海,一片冷清,再也没有鲜花掌声和崇拜目光

月满大江流
2026-02-13 08:58:45
莫德里奇被啃老贡献绝杀,AC米兰2-1升班马,静待尤文阻击国米

莫德里奇被啃老贡献绝杀,AC米兰2-1升班马,静待尤文阻击国米

钉钉陌上花开
2026-02-14 05:39:58
最新进展:日本放人

最新进展:日本放人

观察者网
2026-02-13 21:34:10
国务院发布同意河北雄安高新技术产业开发区升级为国家高新技术产业开发区的批复

国务院发布同意河北雄安高新技术产业开发区升级为国家高新技术产业开发区的批复

财联社
2026-02-13 17:08:07
重磅宣布!再见了,保罗!正式结束NBA生涯

重磅宣布!再见了,保罗!正式结束NBA生涯

篮球实战宝典
2026-02-14 02:45:23
李亚鹏估计懵了,就因为夸了董宇辉一句,直播间被“取关”刷屏了

李亚鹏估计懵了,就因为夸了董宇辉一句,直播间被“取关”刷屏了

小娱乐悠悠
2026-02-13 10:23:01
当电车渗透率再度跌穿四成,证实日本车没有反思是对的

当电车渗透率再度跌穿四成,证实日本车没有反思是对的

柏铭锐谈
2026-02-13 17:29:03
就在刚刚!官宣第7位主帅下课!广东更换主场,场均29分外援回CBA

就在刚刚!官宣第7位主帅下课!广东更换主场,场均29分外援回CBA

老吴说体育
2026-02-13 23:33:46
中药带头大哥,被美国退货了

中药带头大哥,被美国退货了

不正确
2026-02-13 15:51:18
狗血!中戏王鑫主动投案,共4位表演系主任落马,闫学晶的天塌了

狗血!中戏王鑫主动投案,共4位表演系主任落马,闫学晶的天塌了

壹月情感
2026-02-13 23:30:13
上海大动作!大都市圈规划刚公示!这5个地方身价即将暴涨!

上海大动作!大都市圈规划刚公示!这5个地方身价即将暴涨!

小怪吃美食
2026-02-12 10:31:02
闹大了!上海一家长哭诉,孩子刚上大学提出要把20多万压岁钱拿走

闹大了!上海一家长哭诉,孩子刚上大学提出要把20多万压岁钱拿走

火山詩话
2026-02-13 07:30:50
韩媒讥讽中国队冬奥或0金:离开主场优势不行,谷爱凌是唯一希望

韩媒讥讽中国队冬奥或0金:离开主场优势不行,谷爱凌是唯一希望

杨华评论
2026-02-13 19:04:46
原来iPhone信号差是没开对,这个隐藏设置一开,信号直接满格

原来iPhone信号差是没开对,这个隐藏设置一开,信号直接满格

小柱解说游戏
2026-02-13 12:20:15
惊天逆转!俄罗斯拟重返美元体系,全球格局彻底改写

惊天逆转!俄罗斯拟重返美元体系,全球格局彻底改写

老马拉车莫少装
2026-02-13 03:19:04
50国齐聚拉姆施泰因,380亿美元助力乌克兰抗战到底

50国齐聚拉姆施泰因,380亿美元助力乌克兰抗战到底

史政先锋
2026-02-13 15:53:03
女孩因神似敦煌壁画美人意外走红,家长回应:没有炒作,孩子还是要以学业为主

女孩因神似敦煌壁画美人意外走红,家长回应:没有炒作,孩子还是要以学业为主

大象新闻
2026-02-13 17:47:04
谢贤前女友爆料三胎生父,张柏芝体面尽失

谢贤前女友爆料三胎生父,张柏芝体面尽失

仙味少女心
2026-02-13 19:05:55
2026-02-14 06:23:00
灿若银烂
灿若银烂
灿若银烂
450文章数 41关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

艺术
本地
教育
健康
时尚

艺术要闻

100张照片,100年来的中国春节

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

教育要闻

成绩提升的关键,不是天赋而是策略

转头就晕的耳石症,能开车上班吗?

穿上这些鞋拥抱春天

无障碍浏览 进入关怀版