网易首页 > 网易号 > 正文 申请入驻

AI数方块都翻车!华中科大靠中学几何题,破了大模型空间死穴

0
分享至

你可能刷到过AI写论文、编代码的惊艳,但很少有人告诉你,那些号称“通才”的大模型,其实连小学生都会的题都能做错。

去年有个测试特别扎眼:让GPT-5-Thinking和Gemini2.5Pro这两款顶尖模型数方块,图里明明是10块白色、13块橙色方块,结果俩模型算出来的数没一个对的。



让 GPT5-Thinking 和 Gemini 2.5 Pro 数方块(正确答案是白色 10 块,橙色 13 块)

更让人意外的是,这种低级错误不是个例——李飞飞团队搞的VSIBench评估基准里,超过70%的模型错误,都不是因为“看不清楚”或“读不懂题”,而是压根儿没搞懂空间关系。

这事儿听起来有点反常识:能聊相对论的AI,怎么连“哪个物体在左边”都搞不清?其实这背后藏着个经典的“莫拉维克悖论”——机器搞定高阶推理容易,反而学不会人类与生俱来的感知技能。

就像你不用想就能接住抛来的球,但让AI算清球的运动轨迹得写上万行代码。如今的多模态大模型,正好卡在了这个悖论的死穴上。

越练越偏科的AI“特长生”

为了补空间智能的短板,学界不是没下过功夫。之前像Spatial-MLLM、SpaceVLM这些研究,都在走“专项训练”的路子:找一堆数方块、认方位的题目做成数据集,让模型反复刷题。

可练来练去,问题反而更突出了。这些专门的数据集就像“偏科习题册”,比如有的只练室内物体定位,有的专攻二维图形识别,覆盖的场景连现实世界的零头都不到。

模型在这些数据集上确实能刷出高分,但换个没练过的任务——比如从不同角度数同一个多面体的棱 ,立刻就露怯。

这就是行业里说的“过度特化”:模型变成了只会做特定题目的“特长生”,却没真正学会举一反三的空间思维。

就像有人背熟了一百道几何题答案,换个问法还是不会做,本质上没搞懂公理定理。要解决这个问题,得换个思路——不能再盯着零散的任务刷题,得从根上补空间知识。

从中学几何题里找答案

今年年初,华中科技大学、北京中关村学院和华东师范大学的团队,在论文《Euclid’sGift》里抛出了个让人眼前一亮的想法:别再搞专项训练了,让AI学几何吧。



这个思路乍看有点“复古”,细想却全是门道。几何这东西,说白了就是人类用几千年总结的“空间说明书”。从三角形内角和到球体体积公式,每一条公理、每一个定理都是对空间规律的精炼概括。

让模型学几何,不是让它当解题机器,而是逼着它把这些普适性的空间原理“刻”进脑子里。

更关键的是,解几何题需要的能力,和现实中的空间任务刚好对上了。你想啊,做一道立体几何题,得先看清图形里的棱、面、角(识别形状构型),再判断哪两条棱平行、哪个面和底面垂直(推断空间关系)。

最后一步步算体积、证全等(多步逻辑推理)。这些能力,恰恰是数方块、认方位、判断物体相对位置所必需的。

教育心理学早就证实,人类学几何能直接提升空间智力,现在这个团队发现,这规律对AI同样管用。

就像给学画画的人补透视原理,不是让他画透视图交作业,而是让他不管画什么都懂空间关系。这个逻辑一打通,之前的“偏科问题”就有了破解方向。

砸出来的数据集

想法再好,没有高质量的题也练不出来。团队调研时发现,市面上的几何数据集要么规模小,要么质量差,最要命的是“重平面、轻立体”——立体几何题连平面几何的零头都不到。

可立体几何里的视角变化、多面体截断、体积与面积关系,恰恰是AI最缺的3D空间认知训练。

没办法,团队只能自己动手做数据集。他们翻遍了开源数据库里的几何题,又找来K12阶段的数学教材、练习册,从里面筛选题目,最后凑出了近3万道题,起名叫“Euclid30K”(实际29695道)。

为了保证质量,他们还搞了套“双AI清洗”流程:先用GPT-4o和DeepSeek-V3.1这两个大模型分别核对答案,再把结果交叉比对,最后统一格式让MathVerify工具验证。



这么折腾下来,每个题目的答案都准确规范,不会出现“表述模糊导致模型学错”的问题。

值得一提的是,团队特意加重了立体几何的比例。毕竟AI在3D空间任务上栽跟头最多,而立体几何里的“从正面看有几个正方形、从侧面看有几个”这类问题,刚好能针对性训练视角不变性认知——这正是GPT-5-Thinking数方块出错的核心原因。

不搞花活,只练几何真能变强?

为了证明不是“算法作弊”,团队的训练方法搞得特别“朴素”:只用常规的GRPO算法,参考DAPO的设置把CLIP裁剪上界定在0.28,再加上Token-level策略梯度损失和动态采样,没加任何花里胡哨的技巧。



结果一出来,连研究人员都有点意外:练过几何的模型,在四个完全没接触过的空间基准测试里全涨分了。

VSIBench(空间推理)、SuperCLEVR(视觉问答)、Omni3DBench(3D场景理解)、MindCube(立方体推理),不管是2D还是3D任务,准确率都比没练几何的版本高一截。

这说明模型真的把几何里的空间原理迁移到了新任务上,不是死记硬背的“刷题机器”。

最有说服力的是那个“因果消融实验”。团队专门从非几何的Clevr-CoGenT数据集里,挑了个和Euclid30K一样大的样本,用完全相同的方法训练模型。

结果很明显:练几何的模型准确率,比练同等规模非几何数据的模型高不少。



这就彻底排除了“数据量堆出来的效果”这种质疑——不是练得多就厉害,关键是练的东西得“有用”。几何题作为“代理任务”的价值,在这个实验里被实打实地证明了。

AI的“基础教育”比“专项训练”更重要

这篇论文里藏着个很有意思的启示:现在大家总想着给AI喂更多数据、堆更大参数量,却忘了像人类教育一样,“打基础”可能比“刷难题”更管用。

Euclid30K里的题目,本质上就是AI的“空间基础教育课本”。那些我们中学时学的几何公理,看似简单,却是解开无数空间问题的钥匙。

就像微软最新的Magma模型,之所以能操控机器人、理解网页UI,核心也是掌握了通用的空间与时间智能,而不是背熟了操作步骤。

未来的AI要走进现实——不管是帮医生做3D影像分析,还是让机器人在家做家务,都离不开扎实的空间智能。



华中科大这个团队的尝试,相当于给AI指出了一条“返校补基础”的路。

或许用不了多久,当我们再让AI数方块时,它不会再算错;让它找“桌子左边最近的杯子”时,也不会再指错方向。而这一切的起点,可能就是那本我们曾经头疼过的几何课本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝卡里克中场激励曼联翻盘内幕!9场平英超纪录,拉爵恐唯有转正

曝卡里克中场激励曼联翻盘内幕!9场平英超纪录,拉爵恐唯有转正

罗米的曼联博客
2026-03-02 09:34:11
自称无法获得世界宽恕后,中央媒体对谷爱凌的称呼发生变化

自称无法获得世界宽恕后,中央媒体对谷爱凌的称呼发生变化

陈意小可爱
2026-03-01 13:17:13
继续北伐!小卡复出23+3+5刷新纪录!打爆鹈鹕,快船锋线两大奇兵

继续北伐!小卡复出23+3+5刷新纪录!打爆鹈鹕,快船锋线两大奇兵

Tracy的篮球博物馆
2026-03-02 12:33:52
比亚迪宋家族限时购车权益公布:首付3.98万起

比亚迪宋家族限时购车权益公布:首付3.98万起

IT之家
2026-03-02 10:12:07
县级媒体为何越难干?

县级媒体为何越难干?

吴女士
2026-02-28 14:16:14
真香预警 低价MacBook性价比无敌!降维打击Windows、等等党最终归宿

真香预警 低价MacBook性价比无敌!降维打击Windows、等等党最终归宿

快科技
2026-03-02 10:50:12
曼联2-1逆转十人水晶宫!11轮不败升英超第3 B费传射 谢什科3连杀

曼联2-1逆转十人水晶宫!11轮不败升英超第3 B费传射 谢什科3连杀

我爱英超
2026-03-02 00:01:06
不装了?特朗普登机启程前,美方直言不信任中国,访华只为一件事

不装了?特朗普登机启程前,美方直言不信任中国,访华只为一件事

议纪史
2026-03-02 12:40:08
伊朗最高国家安全委员会发布第1号公告

伊朗最高国家安全委员会发布第1号公告

界面新闻
2026-02-28 18:24:27
92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

92岁台湾老兵回重庆寻亲,下飞机后却怒斥子女:这不还是台北

海佑讲史
2026-02-28 21:19:37
刚上任就撕破脸?雷倩强硬表态:两岸终局就是一个中国,别无他路

刚上任就撕破脸?雷倩强硬表态:两岸终局就是一个中国,别无他路

也许明天死亡
2026-03-02 11:20:21
湖人大胜国王!东詹合砍52分,三配角齐贡献,艾顿依然黄油手!

湖人大胜国王!东詹合砍52分,三配角齐贡献,艾顿依然黄油手!

篮球资讯达人
2026-03-02 13:01:37
钱枫近照曝光,肥头大耳认不出,天天兄弟物是人非:还好退圈了

钱枫近照曝光,肥头大耳认不出,天天兄弟物是人非:还好退圈了

娱说瑜悦
2026-02-27 17:37:41
一年流出视频294部的小宝到底探过多少朵花?

一年流出视频294部的小宝到底探过多少朵花?

挪威森林
2026-01-25 17:18:42
比亚迪官宣大招,6 万的车又 “ 变相降价 ”

比亚迪官宣大招,6 万的车又 “ 变相降价 ”

新浪财经
2026-02-28 15:52:34
河北孟村杀妻案最新消息,堂哥说已经被执行

河北孟村杀妻案最新消息,堂哥说已经被执行

九方鱼论
2026-03-01 20:14:28
汪小菲吐槽小汪宝心眼太多,回应玥箖上学问题,筱梅或成了导火索

汪小菲吐槽小汪宝心眼太多,回应玥箖上学问题,筱梅或成了导火索

查尔菲的笔记
2026-02-28 13:39:27
破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

另子维爱读史
2026-01-16 21:03:12
周杰伦和田馥甄的瓜,冲上热搜第一

周杰伦和田馥甄的瓜,冲上热搜第一

背包旅行
2026-02-27 17:05:44
为什么越来越多的人不去洗车店洗车了?

为什么越来越多的人不去洗车店洗车了?

另子维爱读史
2026-02-16 23:19:21
2026-03-02 13:11:00
楠楠自语
楠楠自语
非淡泊无以明志,非宁静无以致远。
1984文章数 100关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

卡里克主场5连胜!队史第2人通过最大考验

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

预售11.28万起 狐全新阿尔法S5标配宁德时代

态度原创

游戏
时尚
本地
家居
健康

曝索尼用NS2内测《GT赛车7》或为新掌机测试

从每天只睡4小时到8小时:一个失眠者的自救指南

本地新闻

津南好·四时总相宜

家居要闻

万物互联 享科技福祉

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版