网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

伯克利测试揭穿AI神话，顶尖模型不及格，人类优势超3倍

2025-12-28 19:48:07　来源: 灿若银烂

四川举报

0

分享至

这些年AI刷题刷疯了，传统考试早被摸透。可当伯克利甩出一份"无解之卷"，顶尖模型当场傻眼——算法题人类平均95分，它们拼死只够到29分！

这份让GPT-5、Claude集体挂科的考卷，彻底撕开了AI"全能"的伪装。

斯坦福教授直摇头：MMLU这些题库早被玩坏了，就像高考真题泄露，谁还分得清学霸和书呆子？

于是纽约大学、伯克利联手搞事情。先是LiveCodeBench Pro，扒来全球编程奥赛真题，结果顶尖模型中等题才53分过关，难题直接交白卷。

但这帮教授觉得不过瘾："要么满分要么零蛋，跟判断题有啥区别？"半年后杀出个程咬金——FrontierCS。

伯克利博士忙秋阳说得实在："我们要的不是选择题，是那种没标准答案，但你能看出谁做得更好的题。"比如把俄罗斯方块往框里塞，谁摆得更密一目了然。

这卷子藏着156道狠活：算法赛道107题：改编自奥赛真题，但改成开放式（比如"不限工具，找出最优解"）

研究赛道49题：真实科研难题，像设计数据库索引平衡速度与精度。

最绝的是防作弊设计——题目公开却无答案可背，逼AI动真脑子。更狡猾的是动态升级：人类破纪录就收紧规则，永远别想"刷熟"。

评分也颠覆认知。传统测试像判断题，FrontierCS却是量角器：多连块问题看填充密度，SAT难题数满足的约束条件。人类专家密度87%，GPT-5只做到47%——差一倍不止！

当算法赛道成绩单出炉，全场哗然：人类平均95.41分，接近满分。谷歌Gemini 3.0 Pro最高29.37分。

GPT-5、Claude等明星模型集体10-15分徘徊。哪怕给GPT-5五次机会取最高分，也只冲到52分——不到人类一半！

研究赛道稍缓和，Claude Opus 4.5以29.4分夺冠，但离人类水平仍遥远。为什么AI突然变"学渣"？三大死穴被扒光：

第二，"越想越糊涂"魔咒。团队调教GPT-5的思考强度：低强度7.9分→中强度15.3分→高强度反掉到12.6分！忙秋阳点破："模型被训去找'正确答案'，不是'更好答案'。"

第三，微优化陷阱。多连块问题中，GPT-5拼命优化输出格式，却忽略碰撞检测算法。后来研究员提示"先用二维数组模拟"，分数立刻飙升——原来它总在细枝末节钻牛角尖。

反观人类选手，靠的是创造性策略。比如多连块问题，有人先旋转积木找缝隙，有人分区填充，没有固定套路却逼近87%密度。这正是AI缺失的"优化思维"——没有标准答案？那就创造更好的答案！

FrontierCS撕开一个残酷真相：AI刷题厉害，真动手就露馅。人类95分对29分的碾压，揭穿了"模型万能"的幻觉——它们精于应试，拙于创造。

老陈说句实在话，这记耳光打醒了行业：教会AI追求"更好"比"正确"更重要。毕竟现实世界哪有标准答案？从芯片设计到物流调度，处处是开放式优化。

当模型学会在迷雾中找路，才是真智能的开始。否则，再强的算力也只是高级计算器罢了。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

具身智能如何抵达 “ChatGPT时刻”？智源院长、清华教授和3位创始人聊了聊

36氪 2026-02-13 18:54:07
4 跟贴 4
5个月用AI做了120多个App，职高毕业的小伙在杭州上城开“一人公司” 火到了海外

都市快报橙柿互动 2026-02-13 12:48:31
1811 跟贴 1811

杭州男子开1人公司靠AI月入200万：“完全不需要员工，大脑指挥AI干活”

大象新闻 2026-02-13 19:43:06
540 跟贴 540

稚晖君最新机器人「凌空飞踢」震撼全网！智元远征 A3：我要一个打十个

爱范儿 2026-02-13 23:18:23
8 跟贴 8
“春节档”新品密集上新，给了AI应用“做多”的理由｜行业风向标

钛媒体APP 2026-02-13 23:29:06
0 跟贴 0

10个月完整配置经验全公开，冠军咋用Claude Code?

机器之心Pro 2026-01-22 12:34:29
0 跟贴 0

王慧文又招呼人创业了，但再做一个OpenClaw并不现实

虎嗅APP 2026-02-14 02:46:37
0 跟贴 0
血压高的速看！斯坦福大学研究：常吃2种水果，死亡风险可降40%

思思夜话 2026-02-11 23:10:56
109 跟贴 109

任贤齐6首金曲联唱，找回那份久违的感动！

湖南卫视 2026-02-12 01:48:26
289 跟贴 289
一旦你活明白了，你就再也回不去了

记忆承载 2026-02-13 16:51:08
0 跟贴 0
华裔研究生研发约会软件斯坦福超5000名学生"沦陷"

红星新闻 2026-02-11 14:15:36
396 跟贴 396
爆！3名华人学生在宿舍搞出870亿美金巨头，震惊全球！伯乐斯坦福前招生官亲临澳洲，最新录取内幕全公开

澳洲红领巾 2026-02-11 19:07:25
0 跟贴 0
斯坦福商学院将发布关于巴黎商业成功的研究，纳赛尔出席讲座

懂球帝 2026-02-13 05:39:08
1 跟贴 1
无人机杀疯了：人类第一次跟算法打仗

吕喆有话说 2026-02-10 16:01:20
4 跟贴 4
涠洲岛网红鲸鱼被撞，规则形同虚设，谁来护它周全？

记者田甜 2026-02-11 19:15:11
9 跟贴 9
这个春节，三亚彻底火了！游客8499元订的民宿被临时毁约，附近民宿涨到三四万，机票价同比翻倍！95后、00后也多起来了

每日经济新闻 2026-02-12 22:13:04
6923 跟贴 6923
中国未来最大敌人，不是特朗普，而是手握杀招、重构科技规则的他

世界有奇事 2026-02-14 04:10:09
0 跟贴 0
老牌军事网文平台铁血读书宣布关停

大风新闻 2026-02-12 20:17:04
7049 跟贴 7049
魔术空间+超低油耗，星光730把选择题做成了“我全要”

25度考场 2026-02-11 14:28:34
0 跟贴 0
DeepSeek更新后被吐槽变冷变傻？

每日经济新闻 2026-02-13 00:42:18
1290 跟贴 1290
为什么朱雨玲不能参加三大赛？这源自两条规则，看完瞬间明白了！

榻榻米搞笑 2026-02-11 09:19:46
1 跟贴 1
清华教授蒋国兵：移民加拿大刷油漆半年赚5千，宁愿自杀也不回国

纵拥千千晚星 2026-02-14 02:24:30
3 跟贴 3
1美元时薪？这才是打工人的「梦中情模」

机器之心Pro 2026-02-13 15:28:39
0 跟贴 0
孙龙夺得短道速滑男子1000米亚军

人民网-人民日报 2026-02-13 05:27:54
3947 跟贴 3947
知名大学教授，建议先结局留学生就业，大学生就业先把他发配非洲

爆笑趣世界 2026-02-12 09:20:00
4 跟贴 4
一道不给人活路的选择题

溜溜影视君 2026-02-12 15:04:22
3 跟贴 3
高中努力无效的人，都掉进了同样的坑

教育思享 2026-02-13 23:06:08
4 跟贴 4
成绩提升的关键，不是天赋而是策略

教育思享 2026-02-13 23:07:41
0 跟贴 0
闫妮这微醺感没谁了，演完了都没搞清楚规则，一举动全场都笑翻！

雅儿姐在遛弯 2026-02-10 01:18:50
1 跟贴 1
业界首个！蚂蚁开源万亿参数混合线性思考模型，IMO金牌水平

智东西 2026-02-13 21:16:22
0 跟贴 0
中方罕见评价日本选举发出“极其严厉的预警”

环球网 2026-02-13 14:17:34
94 跟贴 94
中央批准，蔚盛斌跨省履新

长安街知事 2026-02-13 18:20:43
9 跟贴 9
1413二年级：孩子看到题目就懵了，无从下手，妈妈有绝招

我服子佩 2026-02-10 11:34:23
1 跟贴 1
家长和儿子玩选择题游戏，孩子不懂套路，结局其实是能改的！

八九搞笑 2026-02-12 15:15:28
1 跟贴 1
美媒记者：在中国生活就像"生活在未来"

澎湃新闻 2026-02-13 22:43:01
270 跟贴 270
狂飙22℃再暴跌！江苏最新预测：雨雨雨！

江南晚报 2026-02-14 03:32:38
5 跟贴 5
知名演员中央戏剧学院表演系主任王鑫主动投案！曾出演多部热门剧

笙歌君独幽a 2026-02-14 01:54:34
11 跟贴 11
1394一年级：这道题做为附加题目，还是难度比较大的

我服子佩 2026-02-09 14:08:10
1 跟贴 1
美媒说美方第二艘航空母舰被派往中东

新华社 2026-02-13 12:54:04
3074 跟贴 3074
胖东来下架智利车厘子，工作人员：坏果太多、品质达不到要求，新上架了190元每斤的澳洲车厘子

观威海 2026-02-13 09:34:10
765 跟贴 765

8级大风＋降雨！新冷空气即将抵达广东！深圳未来天气......

8级大风＋降雨！新冷空气即将抵达广东！深圳未来天气......

深圳晚报

2026-02-13 08:22:01

3吨电车成为道路的重大安全隐患，炮弹飞车，害人害己

3吨电车成为道路的重大安全隐患，炮弹飞车，害人害己

世界圈

2026-02-13 08:46:33

比尔·盖茨现身上海，一片冷清，再也没有鲜花掌声和崇拜目光

比尔·盖茨现身上海，一片冷清，再也没有鲜花掌声和崇拜目光

月满大江流

2026-02-13 08:58:45

莫德里奇被啃老贡献绝杀，AC米兰2-1升班马，静待尤文阻击国米

莫德里奇被啃老贡献绝杀，AC米兰2-1升班马，静待尤文阻击国米

钉钉陌上花开

2026-02-14 05:39:58

最新进展：日本放人

观察者网

2026-02-13 21:34:10

国务院发布同意河北雄安高新技术产业开发区升级为国家高新技术产业开发区的批复

国务院发布同意河北雄安高新技术产业开发区升级为国家高新技术产业开发区的批复

财联社

2026-02-13 17:08:07

重磅宣布！再见了，保罗！正式结束NBA生涯

重磅宣布！再见了，保罗！正式结束NBA生涯

篮球实战宝典

2026-02-14 02:45:23

李亚鹏估计懵了，就因为夸了董宇辉一句，直播间被“取关”刷屏了

李亚鹏估计懵了，就因为夸了董宇辉一句，直播间被“取关”刷屏了

小娱乐悠悠

2026-02-13 10:23:01

当电车渗透率再度跌穿四成，证实日本车没有反思是对的

当电车渗透率再度跌穿四成，证实日本车没有反思是对的

柏铭锐谈

2026-02-13 17:29:03

就在刚刚！官宣第7位主帅下课！广东更换主场，场均29分外援回CBA

就在刚刚！官宣第7位主帅下课！广东更换主场，场均29分外援回CBA

老吴说体育

2026-02-13 23:33:46

中药带头大哥，被美国退货了

不正确

2026-02-13 15:51:18

狗血！中戏王鑫主动投案，共4位表演系主任落马，闫学晶的天塌了

狗血！中戏王鑫主动投案，共4位表演系主任落马，闫学晶的天塌了

壹月情感

2026-02-13 23:30:13

上海大动作！大都市圈规划刚公示！这5个地方身价即将暴涨！

上海大动作！大都市圈规划刚公示！这5个地方身价即将暴涨！

小怪吃美食

2026-02-12 10:31:02

闹大了！上海一家长哭诉，孩子刚上大学提出要把20多万压岁钱拿走

闹大了！上海一家长哭诉，孩子刚上大学提出要把20多万压岁钱拿走

火山詩话

2026-02-13 07:30:50

韩媒讥讽中国队冬奥或0金：离开主场优势不行，谷爱凌是唯一希望

韩媒讥讽中国队冬奥或0金：离开主场优势不行，谷爱凌是唯一希望

杨华评论

2026-02-13 19:04:46

原来iPhone信号差是没开对，这个隐藏设置一开，信号直接满格

原来iPhone信号差是没开对，这个隐藏设置一开，信号直接满格

小柱解说游戏

2026-02-13 12:20:15

惊天逆转！俄罗斯拟重返美元体系，全球格局彻底改写

惊天逆转！俄罗斯拟重返美元体系，全球格局彻底改写

老马拉车莫少装

2026-02-13 03:19:04

50国齐聚拉姆施泰因，380亿美元助力乌克兰抗战到底

50国齐聚拉姆施泰因，380亿美元助力乌克兰抗战到底

史政先锋

2026-02-13 15:53:03

女孩因神似敦煌壁画美人意外走红，家长回应：没有炒作，孩子还是要以学业为主

女孩因神似敦煌壁画美人意外走红，家长回应：没有炒作，孩子还是要以学业为主

大象新闻

2026-02-13 17:47:04

谢贤前女友爆料三胎生父，张柏芝体面尽失

谢贤前女友爆料三胎生父，张柏芝体面尽失

仙味少女心

2026-02-13 19:05:55

450文章数 41关注度

往期回顾全部

科技要闻

独家探访蔡磊：答不完的卷子死磕最后一程

头条要闻

8千元的迷你小马一夜爆火马主：1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火马主：1天排泄次数达十几次

体育要闻

这张照片背后，是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁，农村婚礼超朴素

财经要闻

华莱士母公司退市疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂居然是这个画风！

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

本地

教育

健康

时尚

艺术要闻

100张照片，100年来的中国春节

本地新闻

下一站是嘉禾望岗，请各位乘客做好哭泣准备

教育要闻

成绩提升的关键，不是天赋而是策略

转头就晕的耳石症，能开车上班吗？

穿上这些鞋拥抱春天

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版