你有没有过这种经历?问智能音箱“客厅茶几上的钥匙在哪”,它支支吾吾说不出;看AI机器人打扫卫生,明明前方有个拖鞋,它却直愣愣撞过去——不是这些AI不够聪明,而是它们缺了项 “基本功”:空间感。
最近,华中科技大学连世杰、吴长提团队联合中关村研究院、华东师大,在arXiv 平台(论文编号:arXiv:2509.24473v2)发表了个有趣发现:让AI像中学生一样解几何题,居然能帮它快速补上“空间感” 短板,从此判断 “杯子比碗小”“从卧室到门口该走哪条路”都准多了。
一、先搞懂:AI为啥连“小学生题”都犯难?
咱们随便一个人,闭着眼都能摸回自己的床——这背后是多年积累的空间判断能力:知道床的位置、房间的大小,甚至能预判走路时会不会碰到衣柜。但对现在能看能说的多模态AI来说,这点“本事”却特别难。
团队做过测试:给AI看正方体展开图,问它“折叠后哪两个面相对”,正确率不到30%;让它算“桌子和椅子的实际距离”,误差能差出半米——就像没学过几何的孩子,面对“怎么拼魔方”“怎么叠被子” 这类需要空间思维的事,根本摸不着头绪。
“既然人类学几何能练空间感,AI为啥不行?” 团队灵光一闪:几何学本身就是“空间规律说明书”啊!平行线永远不相交、圆柱侧面展开是长方形…… 这些课本里的知识,本质上是在总结现实世界的空间逻辑。就像学了乐理能更好地唱歌,AI 学了几何,或许也能掌握理解三维世界的 “通用公式”。
![]()
二、给AI编“几何练习册”:补全29695道题的 “短板”
想让 AI 学几何,先得有本好“练习册”。可团队翻遍现有数据集发现一个大问题:平面几何题倒有2万道,但立体几何题只有7000道——要知道,立体几何才是练三维空间感的关键,就像学游泳不能只练憋气,还得练划水和换气。
为了补上这个缺口,团队开始 “编教材”:
第一步,“找题”:从开源的Geometry3K、SolidGeo数据集里挑高质量题,再从中小学课本、数学竞赛题里新挖了4500道题,重点加立体几何 —— 比如 “圆锥怎么切能得到三角形”“长方体的表面积怎么算” 这类直接关联三维空间的题目。
第二步,“三道质检关”:
- 去重:用图像识别技术比对题目,把“换了个数字但题型一样”的重复题删掉,避免AI“刷题刷重复”;
- 拆题:把“求长方体体积和表面积”这种“一题两问” 的复合题拆开,让 AI 一次只练一个技能,不会混淆;
- 统一答案格式:把所有公式转成LaTeX格式(比如“2πr”和“2rπ”,系统能认出是同一个答案),不会因为写法不同误判AI答错。
最后一步:这本包含29695道题的“几何练习册”——Euclid30K数据集就成了AI 的专属教材,从初中的“三角形内角和”到高中的“球的体积”,覆盖了所有和空间思维相关的几何知识点。
![]()
三、教AI“刷题”:不用死记硬背,用 “闯关奖励” 练本事
有了教材,怎么教才管用?团队没让 AI 死记硬背答案(这是传统的 “监督学习”,遇到新题就懵),而是用了 “强化学习”——就像玩闯关游戏:答对一题给 “加分”,答错了就分析 “错在哪”,调整思路再试,慢慢找到解题规律。
这套训练有两个 “人性化设计”:
- 判分不 “死板”:如果答案是公式(比如 “圆面积=πr²”),就用数学工具查 “是否等价”,哪怕AI写成 “r²π”,只要数学上对,就给分;如果是数字(比如 “体积 = 20立方厘米”),必须误差小于1%才算对,避免AI“蒙答案”。
- 多模型 “一起练”:团队选了Qwen2.5VL(3B、7B、72B参数)和RoboBrain2.0(7B、32B参数)两个系列的 AI,在64个GPU上同时训练,每道题让AI出 8 个候选答案,选最优的来优化解题策略——就像几个学生一起做题,互相 “借鉴” 好思路。
练完近3万道题后,AI的变化很明显:之前连“正方体展开图”都认不准,现在不仅能解复杂几何题,面对现实中的空间问题也“有思路”了。
![]()
四、AI的“期末考试”:四个测试,成绩提升超明显
团队找了4套“空间考题” 给AI做“期末考试”,结果超出预期:
1. 真实场景 “应用题”(VSI-Bench)
5130个视频题,比如 “视频里有几张椅子”“从门口到餐桌该走哪条路”——这是最贴近生活的测试。
- 所有模型平均准确率从34.5%升到40.5%;
- 其中RoboBrain2.0-Euclid-7B冲到49.6%,超过了专门练空间推理的Spatial-MLLM(48.4%),甚至比商业模型Gemini-1.5 Pro(48.8%)还高。
2. 2D 图形 “基础题”(Super-CLEVR)
5000 道题,比如 “图里蓝色圆柱体有几个”“哪个方块在最上面”。
- RoboBrain2.0-7B 的准确率从47.4%直接跳到85.2%,提升了37.8个百分点 ——差不多是从 “刚及格” 到 “接近满分” 的跨度。
3. 3D物体 “判断题”(Omni3D-Bench)
500道题,比如“两个盒子谁更大”“球离桌子有多远”。
- Qwen2.5VL-7B从28.3%升到31.1%,对三维物体的大小、距离判断更准了——之前可能把“大箱子”认成“小盒子”,现在很少出错。
4. 动态视角 “难题”(MindCube)
考AI “视角变化”:比如 “相机绕着杯子转,下一秒看到的画面是什么样”。
- 小参数的Qwen2.5VL-3B准确率达38.9%,超过了用12万条空间数据训练的Spatial-MLLM(32.1%)——要知道,Euclid30K才3万道题,性价比超高。
更关键的是对比实验:团队用同样多的 “空间专项数据” 训练AI,效果远不如学几何——这说明几何教给AI的是 “通用空间思维”,不是死记硬背某类题。
![]()
五、为啥学几何这么管用?三个“底层原因”
- 练的是 “综合基本功”:解一道立体几何题,AI得先认“这是正方体还是圆锥”(形状识别),再想 “哪个面和哪个面平行”(空间关系推理),最后算 “体积是多少”(数值计算)——就像练跑步时同时练耐力、步频、呼吸,一次能补多个短板。
- 知识能 “举一反三”:几何里的“比例”“相似”“平行”,在现实里处处能用:判断 “两条马路是否平行” 用得上 “平行线定理”,比较 “两个瓶子大小” 用得上 “相似图形”——AI学会了几何,遇到这些现实问题自然能 “套用知识”。
- 补了 “理论短板”:像RoboBrain2.0这类 AI,之前学过不少空间数据(比如 “桌子是方的”“球是圆的”),但没学过几何规律——就像会骑自行车却不懂 “平衡原理”,遇到新路况(比如窄路)就容易摔。几何正好帮它补了 “理论基础”,让空间判断更稳。
当然,这方法也有不足:几何讲的是“静态空间”,如果遇到 “判断杯子从桌子上掉下来的轨迹” 这类涉及时间的题,AI提升就不大——未来还得把几何训练和“时间推理” 结合起来。
六、AI 变 “空间高手”,能帮我们做啥?
这项研究不只是实验室里的突破,很快就能落地到生活里:
- 家庭机器人更 “聪明”:学过几何的扫地机器人,能准确绕开沙发腿、拖鞋,不会再把杯子撞翻;找东西时,能根据 “遥控器在茶几左边”“在书本下面” 这类空间描述精准定位。
- 自动驾驶更安全:汽车能更准判断 “和前车的距离”“行人会不会走到车前方”,遇到路口转弯时,也能更好预判 “旁边车道的车会不会并线”。
- VR/AR体验更真实:玩VR游戏时,虚拟的“桌子”不会再“穿”过现实的墙;用AR导航时,手机里显示的 “左转5米” 能和实际路线完全对齐,不会再 “指错路”。
- 数学辅导更精准:AI 能更懂学生解几何题的难点——比如 “不会找三角形的高”“算错圆锥体积”,然后针对性讲 “怎么画高”“为什么体积公式是1/3πr²h”,比单纯给答案管用。
更划算的是,不用为每个场景单独训练AI——一次学几何,多个空间任务都能提升,大大降低了AI开发的成本。
2000多年前,欧几里得写下《几何原本》,用几条公理总结了空间规律;今天,这套古老的知识成了AI理解三维世界的 “钥匙”。华中科大团队的研究告诉我们:有时候,解决复杂AI问题的办法,就藏在我们中学课本里。现在的 AI,空间感还只相当于“小学生水平”,未来要学的还有很多——比如结合时间理解 “物体怎么运动”,结合物理知识理解“杯子掉下来会碎”。如果你想看看 AI 是怎么解几何题的,可以精读一下这篇论文
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.