网易首页 > 网易号 > 正文 申请入驻

AI数方块都翻车!华中科大靠中学几何题,破了大模型空间死穴

0
分享至

你可能刷到过AI写论文、编代码的惊艳,但很少有人告诉你,那些号称“通才”的大模型,其实连小学生都会的题都能做错。

去年有个测试特别扎眼:让GPT-5-Thinking和Gemini2.5Pro这两款顶尖模型数方块,图里明明是10块白色、13块橙色方块,结果俩模型算出来的数没一个对的。



让 GPT5-Thinking 和 Gemini 2.5 Pro 数方块(正确答案是白色 10 块,橙色 13 块)

更让人意外的是,这种低级错误不是个例——李飞飞团队搞的VSIBench评估基准里,超过70%的模型错误,都不是因为“看不清楚”或“读不懂题”,而是压根儿没搞懂空间关系。

这事儿听起来有点反常识:能聊相对论的AI,怎么连“哪个物体在左边”都搞不清?其实这背后藏着个经典的“莫拉维克悖论”——机器搞定高阶推理容易,反而学不会人类与生俱来的感知技能。

就像你不用想就能接住抛来的球,但让AI算清球的运动轨迹得写上万行代码。如今的多模态大模型,正好卡在了这个悖论的死穴上。

越练越偏科的AI“特长生”

为了补空间智能的短板,学界不是没下过功夫。之前像Spatial-MLLM、SpaceVLM这些研究,都在走“专项训练”的路子:找一堆数方块、认方位的题目做成数据集,让模型反复刷题。

可练来练去,问题反而更突出了。这些专门的数据集就像“偏科习题册”,比如有的只练室内物体定位,有的专攻二维图形识别,覆盖的场景连现实世界的零头都不到。

模型在这些数据集上确实能刷出高分,但换个没练过的任务——比如从不同角度数同一个多面体的棱 ,立刻就露怯。

这就是行业里说的“过度特化”:模型变成了只会做特定题目的“特长生”,却没真正学会举一反三的空间思维。

就像有人背熟了一百道几何题答案,换个问法还是不会做,本质上没搞懂公理定理。要解决这个问题,得换个思路——不能再盯着零散的任务刷题,得从根上补空间知识。

从中学几何题里找答案

今年年初,华中科技大学、北京中关村学院和华东师范大学的团队,在论文《Euclid’sGift》里抛出了个让人眼前一亮的想法:别再搞专项训练了,让AI学几何吧。



这个思路乍看有点“复古”,细想却全是门道。几何这东西,说白了就是人类用几千年总结的“空间说明书”。从三角形内角和到球体体积公式,每一条公理、每一个定理都是对空间规律的精炼概括。

让模型学几何,不是让它当解题机器,而是逼着它把这些普适性的空间原理“刻”进脑子里。

更关键的是,解几何题需要的能力,和现实中的空间任务刚好对上了。你想啊,做一道立体几何题,得先看清图形里的棱、面、角(识别形状构型),再判断哪两条棱平行、哪个面和底面垂直(推断空间关系)。

最后一步步算体积、证全等(多步逻辑推理)。这些能力,恰恰是数方块、认方位、判断物体相对位置所必需的。

教育心理学早就证实,人类学几何能直接提升空间智力,现在这个团队发现,这规律对AI同样管用。

就像给学画画的人补透视原理,不是让他画透视图交作业,而是让他不管画什么都懂空间关系。这个逻辑一打通,之前的“偏科问题”就有了破解方向。

砸出来的数据集

想法再好,没有高质量的题也练不出来。团队调研时发现,市面上的几何数据集要么规模小,要么质量差,最要命的是“重平面、轻立体”——立体几何题连平面几何的零头都不到。

可立体几何里的视角变化、多面体截断、体积与面积关系,恰恰是AI最缺的3D空间认知训练。

没办法,团队只能自己动手做数据集。他们翻遍了开源数据库里的几何题,又找来K12阶段的数学教材、练习册,从里面筛选题目,最后凑出了近3万道题,起名叫“Euclid30K”(实际29695道)。

为了保证质量,他们还搞了套“双AI清洗”流程:先用GPT-4o和DeepSeek-V3.1这两个大模型分别核对答案,再把结果交叉比对,最后统一格式让MathVerify工具验证。



这么折腾下来,每个题目的答案都准确规范,不会出现“表述模糊导致模型学错”的问题。

值得一提的是,团队特意加重了立体几何的比例。毕竟AI在3D空间任务上栽跟头最多,而立体几何里的“从正面看有几个正方形、从侧面看有几个”这类问题,刚好能针对性训练视角不变性认知——这正是GPT-5-Thinking数方块出错的核心原因。

不搞花活,只练几何真能变强?

为了证明不是“算法作弊”,团队的训练方法搞得特别“朴素”:只用常规的GRPO算法,参考DAPO的设置把CLIP裁剪上界定在0.28,再加上Token-level策略梯度损失和动态采样,没加任何花里胡哨的技巧。



结果一出来,连研究人员都有点意外:练过几何的模型,在四个完全没接触过的空间基准测试里全涨分了。

VSIBench(空间推理)、SuperCLEVR(视觉问答)、Omni3DBench(3D场景理解)、MindCube(立方体推理),不管是2D还是3D任务,准确率都比没练几何的版本高一截。

这说明模型真的把几何里的空间原理迁移到了新任务上,不是死记硬背的“刷题机器”。

最有说服力的是那个“因果消融实验”。团队专门从非几何的Clevr-CoGenT数据集里,挑了个和Euclid30K一样大的样本,用完全相同的方法训练模型。

结果很明显:练几何的模型准确率,比练同等规模非几何数据的模型高不少。



这就彻底排除了“数据量堆出来的效果”这种质疑——不是练得多就厉害,关键是练的东西得“有用”。几何题作为“代理任务”的价值,在这个实验里被实打实地证明了。

AI的“基础教育”比“专项训练”更重要

这篇论文里藏着个很有意思的启示:现在大家总想着给AI喂更多数据、堆更大参数量,却忘了像人类教育一样,“打基础”可能比“刷难题”更管用。

Euclid30K里的题目,本质上就是AI的“空间基础教育课本”。那些我们中学时学的几何公理,看似简单,却是解开无数空间问题的钥匙。

就像微软最新的Magma模型,之所以能操控机器人、理解网页UI,核心也是掌握了通用的空间与时间智能,而不是背熟了操作步骤。

未来的AI要走进现实——不管是帮医生做3D影像分析,还是让机器人在家做家务,都离不开扎实的空间智能。



华中科大这个团队的尝试,相当于给AI指出了一条“返校补基础”的路。

或许用不了多久,当我们再让AI数方块时,它不会再算错;让它找“桌子左边最近的杯子”时,也不会再指错方向。而这一切的起点,可能就是那本我们曾经头疼过的几何课本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
29岁张玉宁当选国足新队长!为国效力10年45场7球 18强赛破门落泪

29岁张玉宁当选国足新队长!为国效力10年45场7球 18强赛破门落泪

我爱英超
2026-01-06 22:48:59
分房睡10年、不聊不黏:王菲谢霆锋的关系,戳中多少人痛点

分房睡10年、不聊不黏:王菲谢霆锋的关系,戳中多少人痛点

如安青何
2026-01-05 21:14:02
西方决定增兵乌克兰,俄方威胁:必捉默茨!紧张局势升级!

西方决定增兵乌克兰,俄方威胁:必捉默茨!紧张局势升级!

阿芒娱乐说
2026-01-07 18:04:19
被曝光后才明白,中国的钱,究竟去了哪里?

被曝光后才明白,中国的钱,究竟去了哪里?

复转这些年
2025-12-27 23:56:37
美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

碳基生物关怀组织
2026-01-03 23:30:35
丰田凯美瑞双擎光辉版上市,磨砂灰配色,L2级智驾+2.0L油电混动

丰田凯美瑞双擎光辉版上市,磨砂灰配色,L2级智驾+2.0L油电混动

红涛说車
2026-01-07 19:07:31
中方发布禁令,严厉惩罚高市早苗,日方强烈抗议,要中国撤回措施

中方发布禁令,严厉惩罚高市早苗,日方强烈抗议,要中国撤回措施

触摸史迹
2026-01-07 13:11:33
U16国足集训名单:鲁能足校5人,申花4人入选

U16国足集训名单:鲁能足校5人,申花4人入选

懂球帝
2026-01-07 17:27:25
高中生扶老人被讹50万,15年后老人孙子考上清华,在校门口跪下求饶

高中生扶老人被讹50万,15年后老人孙子考上清华,在校门口跪下求饶

红豆讲堂
2025-07-14 17:21:43
不顾家人反对,执意要嫁撒贝宁的富二代李白,如今才知道她有多赚

不顾家人反对,执意要嫁撒贝宁的富二代李白,如今才知道她有多赚

素衣读史
2025-12-30 15:45:13
一天只能吃一个鸡蛋的谎言,被彻底拆穿了,我们被骗了近百年

一天只能吃一个鸡蛋的谎言,被彻底拆穿了,我们被骗了近百年

小胡军事爱好
2025-12-27 17:38:58
别墅是中产返贫的最大陷阱!过来人血泪总结:别墅的四大硬伤

别墅是中产返贫的最大陷阱!过来人血泪总结:别墅的四大硬伤

流苏晚晴
2026-01-02 17:56:17
中央“点名”住房公积金,释放什么信号?

中央“点名”住房公积金,释放什么信号?

上观新闻
2026-01-07 18:30:07
《逍遥》大结局被骂烂尾?红烨献祭、秉烛黑化,观众气到弃剧!

《逍遥》大结局被骂烂尾?红烨献祭、秉烛黑化,观众气到弃剧!

草莓解说体育
2026-01-07 09:42:41
女模特被新加坡富商以80万邀请去度假,归来后抱头痛哭:我被当玩具

女模特被新加坡富商以80万邀请去度假,归来后抱头痛哭:我被当玩具

罪案洞察者
2025-08-22 15:07:45
CBA焦点战今夜打响!CCTV5直播表,广东拒连败,上海冲8连胜

CBA焦点战今夜打响!CCTV5直播表,广东拒连败,上海冲8连胜

老吴说体育
2026-01-07 10:27:28
婚变传闻不到2天,田朴珺不再沉默,二字回应,王石心里早有底了

婚变传闻不到2天,田朴珺不再沉默,二字回应,王石心里早有底了

李健政观察
2026-01-05 14:49:27
在家是斗不过老婆的受气包,出门是韩国总统,李在明综艺里太搞笑

在家是斗不过老婆的受气包,出门是韩国总统,李在明综艺里太搞笑

安宁007
2026-01-07 08:47:31
出狱9年,53岁申思亮相,新岗位曝光,年薪6位数,范志毅期待

出狱9年,53岁申思亮相,新岗位曝光,年薪6位数,范志毅期待

乐聊球
2026-01-07 13:10:43
“三资三化”最后谁买单?从淤泥拍卖看国有资源盘活的狂欢与隐忧

“三资三化”最后谁买单?从淤泥拍卖看国有资源盘活的狂欢与隐忧

细雨中的呼喊
2025-11-01 00:24:05
2026-01-07 19:51:00
楠楠自语
楠楠自语
非淡泊无以明志,非宁静无以致远。
1622文章数 73关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

三亚一游客被司机诱导就餐 点了4道海鲜花1868元

头条要闻

三亚一游客被司机诱导就餐 点了4道海鲜花1868元

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

手机
家居
健康
房产
军事航空

手机要闻

雷军解释新一代小米SU7发布前三个月开小订,称和YU7情况不同

家居要闻

宁静不单调 恰到好处的美

这些新疗法,让化疗不再那么痛苦

房产要闻

最新!海口二手房,涨价房源突然猛增30%

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版