![]()
这些年AI刷题刷疯了,传统考试早被摸透。可当伯克利甩出一份"无解之卷",顶尖模型当场傻眼——算法题人类平均95分,它们拼死只够到29分!
这份让GPT-5、Claude集体挂科的考卷,彻底撕开了AI"全能"的伪装。
![]()
斯坦福教授直摇头:MMLU这些题库早被玩坏了,就像高考真题泄露,谁还分得清学霸和书呆子?
于是纽约大学、伯克利联手搞事情。先是LiveCodeBench Pro,扒来全球编程奥赛真题,结果顶尖模型中等题才53分过关,难题直接交白卷。
![]()
但这帮教授觉得不过瘾:"要么满分要么零蛋,跟判断题有啥区别?"半年后杀出个程咬金——FrontierCS。
伯克利博士忙秋阳说得实在:"我们要的不是选择题,是那种没标准答案,但你能看出谁做得更好的题。"比如把俄罗斯方块往框里塞,谁摆得更密一目了然。
这卷子藏着156道狠活:算法赛道107题:改编自奥赛真题,但改成开放式(比如"不限工具,找出最优解")
![]()
研究赛道49题:真实科研难题,像设计数据库索引平衡速度与精度。
最绝的是防作弊设计——题目公开却无答案可背,逼AI动真脑子。更狡猾的是动态升级:人类破纪录就收紧规则,永远别想"刷熟"。
评分也颠覆认知。传统测试像判断题,FrontierCS却是量角器:多连块问题看填充密度,SAT难题数满足的约束条件。人类专家密度87%,GPT-5只做到47%——差一倍不止!
![]()
当算法赛道成绩单出炉,全场哗然:人类平均95.41分,接近满分。谷歌Gemini 3.0 Pro最高29.37分。
GPT-5、Claude等明星模型集体10-15分徘徊。哪怕给GPT-5五次机会取最高分,也只冲到52分——不到人类一半!
研究赛道稍缓和,Claude Opus 4.5以29.4分夺冠,但离人类水平仍遥远。为什么AI突然变"学渣"?三大死穴被扒光:
![]()
第二,"越想越糊涂"魔咒。团队调教GPT-5的思考强度:低强度7.9分→中强度15.3分→高强度反掉到12.6分!忙秋阳点破:"模型被训去找'正确答案',不是'更好答案'。"
第三,微优化陷阱。多连块问题中,GPT-5拼命优化输出格式,却忽略碰撞检测算法。后来研究员提示"先用二维数组模拟",分数立刻飙升——原来它总在细枝末节钻牛角尖。
![]()
反观人类选手,靠的是创造性策略。比如多连块问题,有人先旋转积木找缝隙,有人分区填充,没有固定套路却逼近87%密度。这正是AI缺失的"优化思维"——没有标准答案?那就创造更好的答案!
![]()
FrontierCS撕开一个残酷真相:AI刷题厉害,真动手就露馅。人类95分对29分的碾压,揭穿了"模型万能"的幻觉——它们精于应试,拙于创造。
老陈说句实在话,这记耳光打醒了行业:教会AI追求"更好"比"正确"更重要。毕竟现实世界哪有标准答案?从芯片设计到物流调度,处处是开放式优化。
当模型学会在迷雾中找路,才是真智能的开始。否则,再强的算力也只是高级计算器罢了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.