网易首页 > 网易号 > 正文 申请入驻

AI数方块都翻车!华中科大靠中学几何题,破了大模型空间死穴

0
分享至

你可能刷到过AI写论文、编代码的惊艳,但很少有人告诉你,那些号称“通才”的大模型,其实连小学生都会的题都能做错。

去年有个测试特别扎眼:让GPT-5-Thinking和Gemini2.5Pro这两款顶尖模型数方块,图里明明是10块白色、13块橙色方块,结果俩模型算出来的数没一个对的。

让 GPT5-Thinking 和 Gemini 2.5 Pro 数方块(正确答案是白色 10 块,橙色 13 块)

更让人意外的是,这种低级错误不是个例——李飞飞团队搞的VSIBench评估基准里,超过70%的模型错误,都不是因为“看不清楚”或“读不懂题”,而是压根儿没搞懂空间关系。

这事儿听起来有点反常识:能聊相对论的AI,怎么连“哪个物体在左边”都搞不清?其实这背后藏着个经典的“莫拉维克悖论”——机器搞定高阶推理容易,反而学不会人类与生俱来的感知技能。

就像你不用想就能接住抛来的球,但让AI算清球的运动轨迹得写上万行代码。如今的多模态大模型,正好卡在了这个悖论的死穴上。

越练越偏科的AI“特长生”

为了补空间智能的短板,学界不是没下过功夫。之前像Spatial-MLLM、SpaceVLM这些研究,都在走“专项训练”的路子:找一堆数方块、认方位的题目做成数据集,让模型反复刷题。

可练来练去,问题反而更突出了。这些专门的数据集就像“偏科习题册”,比如有的只练室内物体定位,有的专攻二维图形识别,覆盖的场景连现实世界的零头都不到。

模型在这些数据集上确实能刷出高分,但换个没练过的任务——比如从不同角度数同一个多面体的棱 ,立刻就露怯。

这就是行业里说的“过度特化”:模型变成了只会做特定题目的“特长生”,却没真正学会举一反三的空间思维。

就像有人背熟了一百道几何题答案,换个问法还是不会做,本质上没搞懂公理定理。要解决这个问题,得换个思路——不能再盯着零散的任务刷题,得从根上补空间知识。

从中学几何题里找答案

今年年初,华中科技大学、北京中关村学院和华东师范大学的团队,在论文《Euclid’sGift》里抛出了个让人眼前一亮的想法:别再搞专项训练了,让AI学几何吧。

这个思路乍看有点“复古”,细想却全是门道。几何这东西,说白了就是人类用几千年总结的“空间说明书”。从三角形内角和到球体体积公式,每一条公理、每一个定理都是对空间规律的精炼概括。

让模型学几何,不是让它当解题机器,而是逼着它把这些普适性的空间原理“刻”进脑子里。

更关键的是,解几何题需要的能力,和现实中的空间任务刚好对上了。你想啊,做一道立体几何题,得先看清图形里的棱、面、角(识别形状构型),再判断哪两条棱平行、哪个面和底面垂直(推断空间关系)。

最后一步步算体积、证全等(多步逻辑推理)。这些能力,恰恰是数方块、认方位、判断物体相对位置所必需的。

教育心理学早就证实,人类学几何能直接提升空间智力,现在这个团队发现,这规律对AI同样管用。

就像给学画画的人补透视原理,不是让他画透视图交作业,而是让他不管画什么都懂空间关系。这个逻辑一打通,之前的“偏科问题”就有了破解方向。

砸出来的数据集

想法再好,没有高质量的题也练不出来。团队调研时发现,市面上的几何数据集要么规模小,要么质量差,最要命的是“重平面、轻立体”——立体几何题连平面几何的零头都不到。

可立体几何里的视角变化、多面体截断、体积与面积关系,恰恰是AI最缺的3D空间认知训练。

没办法,团队只能自己动手做数据集。他们翻遍了开源数据库里的几何题,又找来K12阶段的数学教材、练习册,从里面筛选题目,最后凑出了近3万道题,起名叫“Euclid30K”(实际29695道)。

为了保证质量,他们还搞了套“双AI清洗”流程:先用GPT-4o和DeepSeek-V3.1这两个大模型分别核对答案,再把结果交叉比对,最后统一格式让MathVerify工具验证。

这么折腾下来,每个题目的答案都准确规范,不会出现“表述模糊导致模型学错”的问题。

值得一提的是,团队特意加重了立体几何的比例。毕竟AI在3D空间任务上栽跟头最多,而立体几何里的“从正面看有几个正方形、从侧面看有几个”这类问题,刚好能针对性训练视角不变性认知——这正是GPT-5-Thinking数方块出错的核心原因。

不搞花活,只练几何真能变强?

为了证明不是“算法作弊”,团队的训练方法搞得特别“朴素”:只用常规的GRPO算法,参考DAPO的设置把CLIP裁剪上界定在0.28,再加上Token-level策略梯度损失和动态采样,没加任何花里胡哨的技巧。

结果一出来,连研究人员都有点意外:练过几何的模型,在四个完全没接触过的空间基准测试里全涨分了。

VSIBench(空间推理)、SuperCLEVR(视觉问答)、Omni3DBench(3D场景理解)、MindCube(立方体推理),不管是2D还是3D任务,准确率都比没练几何的版本高一截。

这说明模型真的把几何里的空间原理迁移到了新任务上,不是死记硬背的“刷题机器”。

最有说服力的是那个“因果消融实验”。团队专门从非几何的Clevr-CoGenT数据集里,挑了个和Euclid30K一样大的样本,用完全相同的方法训练模型。

结果很明显:练几何的模型准确率,比练同等规模非几何数据的模型高不少。

这就彻底排除了“数据量堆出来的效果”这种质疑——不是练得多就厉害,关键是练的东西得“有用”。几何题作为“代理任务”的价值,在这个实验里被实打实地证明了。

AI的“基础教育”比“专项训练”更重要

这篇论文里藏着个很有意思的启示:现在大家总想着给AI喂更多数据、堆更大参数量,却忘了像人类教育一样,“打基础”可能比“刷难题”更管用。

Euclid30K里的题目,本质上就是AI的“空间基础教育课本”。那些我们中学时学的几何公理,看似简单,却是解开无数空间问题的钥匙。

就像微软最新的Magma模型,之所以能操控机器人、理解网页UI,核心也是掌握了通用的空间与时间智能,而不是背熟了操作步骤。

未来的AI要走进现实——不管是帮医生做3D影像分析,还是让机器人在家做家务,都离不开扎实的空间智能。

华中科大这个团队的尝试,相当于给AI指出了一条“返校补基础”的路。

或许用不了多久,当我们再让AI数方块时,它不会再算错;让它找“桌子左边最近的杯子”时,也不会再指错方向。而这一切的起点,可能就是那本我们曾经头疼过的几何课本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
反转来了!美国批准向10家中国公司出售英伟达H200芯片,引发关注

反转来了!美国批准向10家中国公司出售英伟达H200芯片,引发关注

科技处长
2026-05-14 22:46:44
欢迎宴会企业家座位曝光:马斯克、黄仁勋与海信集团贾少谦、福耀玻璃曹晖等同桌吃饭,波音CEO和中国商飞董事长、国航董事长同席

欢迎宴会企业家座位曝光:马斯克、黄仁勋与海信集团贾少谦、福耀玻璃曹晖等同桌吃饭,波音CEO和中国商飞董事长、国航董事长同席

大风新闻
2026-05-15 08:42:09
再见火箭,再见申京,浓眉联手杜兰特,这让其他队怎么打

再见火箭,再见申京,浓眉联手杜兰特,这让其他队怎么打

阿晞体育
2026-05-15 21:55:45
大风+大雨!即将抵达镇江

大风+大雨!即将抵达镇江

镇江风情
2026-05-15 20:38:49
折叠屏狂降3000!今年618太卷了:国产机直接掀桌

折叠屏狂降3000!今年618太卷了:国产机直接掀桌

雷科技
2026-05-15 21:05:24
这个星座,终于要暴富了!

这个星座,终于要暴富了!

同道大叔
2026-05-15 22:04:37
刚离婚我便收拾行李飞美国,第二天前夫娶小三进门,敬茶时,女方长辈的一句话,前夫和婆婆瞬间都愣住

刚离婚我便收拾行李飞美国,第二天前夫娶小三进门,敬茶时,女方长辈的一句话,前夫和婆婆瞬间都愣住

麦子情感故事
2026-05-15 16:04:06
特朗普在北京用了三天两夜,看到了一个无法被战胜的中国

特朗普在北京用了三天两夜,看到了一个无法被战胜的中国

乡野小珥
2026-05-15 21:44:53
3大利空炸盘!光迅跌停长飞跌9%,29只光模块龙头集体重挫

3大利空炸盘!光迅跌停长飞跌9%,29只光模块龙头集体重挫

慧眼看世界哈哈
2026-05-15 11:24:33
美国防长:北约盟友需要做出改变,美国想要合作伙伴,不是依赖者

美国防长:北约盟友需要做出改变,美国想要合作伙伴,不是依赖者

旧窗老街
2026-05-15 20:24:19
黄仁勋在北京逛街喝8元蜜雪冰城,吃38元炸酱面,店员:面是我们请他品尝的,他说挺好吃

黄仁勋在北京逛街喝8元蜜雪冰城,吃38元炸酱面,店员:面是我们请他品尝的,他说挺好吃

深圳晚报
2026-05-15 19:30:01
阿森纳VAR争议再升级:加布里埃尔拉拽球衣画面曝光

阿森纳VAR争议再升级:加布里埃尔拉拽球衣画面曝光

温柔且自由
2026-05-15 01:57:29
颜值和天赋双在线!弗拉格女友身份揭晓,竟是前NBA球员妹妹

颜值和天赋双在线!弗拉格女友身份揭晓,竟是前NBA球员妹妹

篮球神吐槽
2026-05-14 21:00:27
河南“00后”新人将6.8万元彩礼捐慈善机构,双方家长得知后又各出一半资金凑够20万元,全力支持爱心捐赠

河南“00后”新人将6.8万元彩礼捐慈善机构,双方家长得知后又各出一半资金凑够20万元,全力支持爱心捐赠

大风新闻
2026-05-15 13:53:39
安徽省公安厅公布4起黑恶犯罪典型案例

安徽省公安厅公布4起黑恶犯罪典型案例

人民资讯
2026-05-15 15:33:32
菲律宾政坛惊天变局,弹劾大戏风云反转,权力博弈背后暗藏抉择

菲律宾政坛惊天变局,弹劾大戏风云反转,权力博弈背后暗藏抉择

三石记
2026-05-14 19:09:03
倒查10年!国家出手,全面整治医院这类问题

倒查10年!国家出手,全面整治医院这类问题

医脉圈
2026-05-15 20:39:55
美国历代总统访华都爱吃些啥?这几道菜,让他们放下刀叉拿筷子

美国历代总统访华都爱吃些啥?这几道菜,让他们放下刀叉拿筷子

青烟小先生
2026-05-14 19:26:33
黄仁勋在北京逛街,勇敢尝试了豆汁,喝完脸都皱了…

黄仁勋在北京逛街,勇敢尝试了豆汁,喝完脸都皱了…

微微热评
2026-05-15 15:31:59
樊振东被弃用不到24小时,正式官宣“新身份”,终于等到这一天

樊振东被弃用不到24小时,正式官宣“新身份”,终于等到这一天

做一个合格的吃瓜群众
2026-05-15 14:45:15
2026-05-15 22:36:49
楠楠自语
楠楠自语
非淡泊无以明志,非宁静无以致远。
3069文章数 128关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

生产成本疑不足40元 "童鞋界爱马仕"泰兰尼斯广告翻车

头条要闻

生产成本疑不足40元 "童鞋界爱马仕"泰兰尼斯广告翻车

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

健康
房产
教育
家居
军事航空

专家揭秘干细胞回输的安全风险

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

教育要闻

绵阳涪城区发布2026年义务教育招生公告(附划片范围、招生计划)

家居要闻

110㎡淡而有致的生活表达

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版