网易首页 > 网易号 > 正文 申请入驻

AI数方块都翻车!华中科大靠中学几何题,破了大模型空间死穴

0
分享至

你可能刷到过AI写论文、编代码的惊艳,但很少有人告诉你,那些号称“通才”的大模型,其实连小学生都会的题都能做错。

去年有个测试特别扎眼:让GPT-5-Thinking和Gemini2.5Pro这两款顶尖模型数方块,图里明明是10块白色、13块橙色方块,结果俩模型算出来的数没一个对的。



让 GPT5-Thinking 和 Gemini 2.5 Pro 数方块(正确答案是白色 10 块,橙色 13 块)

更让人意外的是,这种低级错误不是个例——李飞飞团队搞的VSIBench评估基准里,超过70%的模型错误,都不是因为“看不清楚”或“读不懂题”,而是压根儿没搞懂空间关系。

这事儿听起来有点反常识:能聊相对论的AI,怎么连“哪个物体在左边”都搞不清?其实这背后藏着个经典的“莫拉维克悖论”——机器搞定高阶推理容易,反而学不会人类与生俱来的感知技能。

就像你不用想就能接住抛来的球,但让AI算清球的运动轨迹得写上万行代码。如今的多模态大模型,正好卡在了这个悖论的死穴上。

越练越偏科的AI“特长生”

为了补空间智能的短板,学界不是没下过功夫。之前像Spatial-MLLM、SpaceVLM这些研究,都在走“专项训练”的路子:找一堆数方块、认方位的题目做成数据集,让模型反复刷题。

可练来练去,问题反而更突出了。这些专门的数据集就像“偏科习题册”,比如有的只练室内物体定位,有的专攻二维图形识别,覆盖的场景连现实世界的零头都不到。

模型在这些数据集上确实能刷出高分,但换个没练过的任务——比如从不同角度数同一个多面体的棱 ,立刻就露怯。

这就是行业里说的“过度特化”:模型变成了只会做特定题目的“特长生”,却没真正学会举一反三的空间思维。

就像有人背熟了一百道几何题答案,换个问法还是不会做,本质上没搞懂公理定理。要解决这个问题,得换个思路——不能再盯着零散的任务刷题,得从根上补空间知识。

从中学几何题里找答案

今年年初,华中科技大学、北京中关村学院和华东师范大学的团队,在论文《Euclid’sGift》里抛出了个让人眼前一亮的想法:别再搞专项训练了,让AI学几何吧。



这个思路乍看有点“复古”,细想却全是门道。几何这东西,说白了就是人类用几千年总结的“空间说明书”。从三角形内角和到球体体积公式,每一条公理、每一个定理都是对空间规律的精炼概括。

让模型学几何,不是让它当解题机器,而是逼着它把这些普适性的空间原理“刻”进脑子里。

更关键的是,解几何题需要的能力,和现实中的空间任务刚好对上了。你想啊,做一道立体几何题,得先看清图形里的棱、面、角(识别形状构型),再判断哪两条棱平行、哪个面和底面垂直(推断空间关系)。

最后一步步算体积、证全等(多步逻辑推理)。这些能力,恰恰是数方块、认方位、判断物体相对位置所必需的。

教育心理学早就证实,人类学几何能直接提升空间智力,现在这个团队发现,这规律对AI同样管用。

就像给学画画的人补透视原理,不是让他画透视图交作业,而是让他不管画什么都懂空间关系。这个逻辑一打通,之前的“偏科问题”就有了破解方向。

砸出来的数据集

想法再好,没有高质量的题也练不出来。团队调研时发现,市面上的几何数据集要么规模小,要么质量差,最要命的是“重平面、轻立体”——立体几何题连平面几何的零头都不到。

可立体几何里的视角变化、多面体截断、体积与面积关系,恰恰是AI最缺的3D空间认知训练。

没办法,团队只能自己动手做数据集。他们翻遍了开源数据库里的几何题,又找来K12阶段的数学教材、练习册,从里面筛选题目,最后凑出了近3万道题,起名叫“Euclid30K”(实际29695道)。

为了保证质量,他们还搞了套“双AI清洗”流程:先用GPT-4o和DeepSeek-V3.1这两个大模型分别核对答案,再把结果交叉比对,最后统一格式让MathVerify工具验证。



这么折腾下来,每个题目的答案都准确规范,不会出现“表述模糊导致模型学错”的问题。

值得一提的是,团队特意加重了立体几何的比例。毕竟AI在3D空间任务上栽跟头最多,而立体几何里的“从正面看有几个正方形、从侧面看有几个”这类问题,刚好能针对性训练视角不变性认知——这正是GPT-5-Thinking数方块出错的核心原因。

不搞花活,只练几何真能变强?

为了证明不是“算法作弊”,团队的训练方法搞得特别“朴素”:只用常规的GRPO算法,参考DAPO的设置把CLIP裁剪上界定在0.28,再加上Token-level策略梯度损失和动态采样,没加任何花里胡哨的技巧。



结果一出来,连研究人员都有点意外:练过几何的模型,在四个完全没接触过的空间基准测试里全涨分了。

VSIBench(空间推理)、SuperCLEVR(视觉问答)、Omni3DBench(3D场景理解)、MindCube(立方体推理),不管是2D还是3D任务,准确率都比没练几何的版本高一截。

这说明模型真的把几何里的空间原理迁移到了新任务上,不是死记硬背的“刷题机器”。

最有说服力的是那个“因果消融实验”。团队专门从非几何的Clevr-CoGenT数据集里,挑了个和Euclid30K一样大的样本,用完全相同的方法训练模型。

结果很明显:练几何的模型准确率,比练同等规模非几何数据的模型高不少。



这就彻底排除了“数据量堆出来的效果”这种质疑——不是练得多就厉害,关键是练的东西得“有用”。几何题作为“代理任务”的价值,在这个实验里被实打实地证明了。

AI的“基础教育”比“专项训练”更重要

这篇论文里藏着个很有意思的启示:现在大家总想着给AI喂更多数据、堆更大参数量,却忘了像人类教育一样,“打基础”可能比“刷难题”更管用。

Euclid30K里的题目,本质上就是AI的“空间基础教育课本”。那些我们中学时学的几何公理,看似简单,却是解开无数空间问题的钥匙。

就像微软最新的Magma模型,之所以能操控机器人、理解网页UI,核心也是掌握了通用的空间与时间智能,而不是背熟了操作步骤。

未来的AI要走进现实——不管是帮医生做3D影像分析,还是让机器人在家做家务,都离不开扎实的空间智能。



华中科大这个团队的尝试,相当于给AI指出了一条“返校补基础”的路。

或许用不了多久,当我们再让AI数方块时,它不会再算错;让它找“桌子左边最近的杯子”时,也不会再指错方向。而这一切的起点,可能就是那本我们曾经头疼过的几何课本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荷兰正式宣布!荷兰管制范围扩大,敏感领域的新合作都一刀切禁止

荷兰正式宣布!荷兰管制范围扩大,敏感领域的新合作都一刀切禁止

百态人间
2025-11-04 16:00:18
还会跳下去吗?全红婵愣了好一会:再说吧,应该吧,现在还不知道

还会跳下去吗?全红婵愣了好一会:再说吧,应该吧,现在还不知道

风过乡
2025-11-06 22:09:03
11月再穷也能富,逆袭翻身,这 3 大生肖,转运致富

11月再穷也能富,逆袭翻身,这 3 大生肖,转运致富

人閒情事
2025-11-06 16:28:25
近4场独造8球!巴萨超新星强势崛起 奥尔莫沦为铁板凳

近4场独造8球!巴萨超新星强势崛起 奥尔莫沦为铁板凳

球事百科吖
2025-11-06 18:11:12
张玉宁半场闪击!轰亚2处子球,反超巴坎布,独居队史射手榜次席

张玉宁半场闪击!轰亚2处子球,反超巴坎布,独居队史射手榜次席

奥拜尔
2025-11-06 21:23:36
克宫呼吁北约倾听普京发言以理解俄方立场

克宫呼吁北约倾听普京发言以理解俄方立场

国际在线
2025-11-06 23:25:07
李云迪再陷桃色风波,女主照片被扒疑似有两人视频流出

李云迪再陷桃色风波,女主照片被扒疑似有两人视频流出

挪威森林
2025-11-02 12:56:16
江苏电力回应张凌赫曾想求职:公子可愿至吾处体验一日

江苏电力回应张凌赫曾想求职:公子可愿至吾处体验一日

趣味萌宠的日常
2025-11-06 10:42:04
戴口罩的美女清纯靓丽,白色V领T恤搭粉色瑜伽裤,时尚清新有朝气

戴口罩的美女清纯靓丽,白色V领T恤搭粉色瑜伽裤,时尚清新有朝气

小乔古装汉服
2025-11-05 14:31:17
老婆出轨后,对方的妻子找到我,你老婆跟我老公好上了

老婆出轨后,对方的妻子找到我,你老婆跟我老公好上了

诡谲怪谈
2025-11-04 21:09:44
立冬不补阳,一年白忙,今日立冬,别忘吃这4样,清补护阳增免疫

立冬不补阳,一年白忙,今日立冬,别忘吃这4样,清补护阳增免疫

小茉莉美食记
2025-11-07 01:40:03
离开的何止是郑智化

离开的何止是郑智化

老唐有话说
2025-11-04 18:37:23
浙大才子周一超被执行注射死刑,被按执行床时,他却突然号啕大哭

浙大才子周一超被执行注射死刑,被按执行床时,他却突然号啕大哭

红豆讲堂
2024-10-21 09:30:24
势危!愈万军队被包围,俄罗斯拿下战略重镇红军城会怎样?

势危!愈万军队被包围,俄罗斯拿下战略重镇红军城会怎样?

文雅笔墨
2025-11-07 00:24:00
内陆首个国家级新区升格为行政区,两江新区坐拥36家上市公司,位居重庆第一

内陆首个国家级新区升格为行政区,两江新区坐拥36家上市公司,位居重庆第一

时代周报
2025-11-06 22:20:06
不识时务!郑丽文终于露出了狐狸尾巴!统一能寄望国民党吗?

不识时务!郑丽文终于露出了狐狸尾巴!统一能寄望国民党吗?

阿柒的讯
2025-11-05 22:05:25
女子在诊所拍下感人一幕,妻子输液时,像个孩子一样靠在丈夫怀里!

女子在诊所拍下感人一幕,妻子输液时,像个孩子一样靠在丈夫怀里!

张晓磊
2025-11-03 09:51:21
世界突然醒悟,中国打越南时的军事实力就是世界的顶流了!

世界突然醒悟,中国打越南时的军事实力就是世界的顶流了!

百态人间
2025-11-03 16:34:06
网友反映杭州一学校门口管理问题,教育部门:第一时间开展调查,要求立即整改

网友反映杭州一学校门口管理问题,教育部门:第一时间开展调查,要求立即整改

FM93浙江交通之声
2025-11-06 22:53:28
纽约剧变!34岁穆斯林市长崛起,中产与华人票仓集体失声

纽约剧变!34岁穆斯林市长崛起,中产与华人票仓集体失声

华人生活网
2025-11-06 03:16:42
2025-11-07 04:16:49
楠楠自语
楠楠自语
非淡泊无以明志,非宁静无以致远。
594文章数 20关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

美参议员提议:政府不“开门”国会议员就停薪

头条要闻

美参议员提议:政府不“开门”国会议员就停薪

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

房产
本地
数码
艺术
公开课

房产要闻

锚定居住新趋势!广佛新世界重构湾区“理想生活投资学”

本地新闻

这届干饭人,已经把博物馆吃成了食堂

数码要闻

苹果Apple TV全新开场动画幕后:相机结合玻璃Logo实拍

艺术要闻

惊人!一幅画拍出3.45亿,竟然他早已去世62年!真相令人震惊!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版