网易首页 > 网易号 > 正文 申请入驻

Gemini 3仅得33.6分!清华发布首个「约束流形」空间智能基准

0
分享至


新智元报道

编辑:LRST

【新智元导读】SSI-Bench是首个在约束流形中评估模型空间推理能力的基准,强调真实结构与约束条件,通过排序任务考察模型是否能准确理解三维结构的几何与拓扑关系,揭示当前大模型在空间智能上严重依赖2D信息,实际表现远低于人类。研究指出,模型需提升三维构型识别和约束推理能力,才能真正理解空间问题。

如果你把一个在空间理解榜单上刷分很高的多模态大模型,直接丢进真实世界,它很可能会在看起来很简单的问题上翻车。

不是因为它不会「看」,而是因为它从来没有被迫真正尊重三维结构的可行性——它可以靠2D相关性、外观先验、数据集套路,走捷径拿分。

而现实世界里,很多空间问题的本质恰恰相反:能怎么摆、怎么连、怎么受力,不是随意的;可行解往往只存在于一个被几何、拓扑、物理强约束「压扁」的空间里。

为此,清华大学的研究团队推出SSI-Bench,从AI与结构工程的交叉视角出发,为空间智能评估提供了一种新的场景化思路——将评测置于复杂三维结构的约束流形中,系统检验多模态大模型的空间智能表现。


项目主页:https://ssi-bench.github.io/

Arxiv论文:https://arxiv.org/abs/2602.07864

Hugging Face数据集:https://huggingface.co/datasets/cyang203912/SSI-Bench

Github代码库:https://github.com/ccyydd/SSI-Bench

论文将这种能力明确界定为Constrained-Manifold Spatial Reasoning(CMSR,约束流形空间推理):

在此类任务中,潜在三维状态并非可被任意「臆测」,而是受到显式约束的限定,仅能落在一个可行解集合内——既需要满足等式约束(如几何一致性、连接关系等),也需要满足不等式约束(如非相交条件、支撑条件与物理可行性等)。

更重要的是,强约束会显著收缩可行三维配置空间,使「高度、距离、最短路径」等空间关系在不同合理解释下更具稳定性,从而使评测结果具备更好的可量化性与可比性

SSI-Bench正是在这一背景下提出:它不再将模型置于约束较弱、可自由组合的日常场景中,而是面向复杂真实工程结构构建评测环境,要求模型形成约束一致的三维结构假设,并在此基础上完成空间推理。


聚焦复杂三维结构

纯人工硬核打造

任务形式:用排序题「逼出」真3D

SSI-Bench不再让模型做选择题,而是统一成排序任务:每题给出3或4个候选「构件/构件组」,要求在指定几何/拓扑准则下输出正确的全排列顺序。

覆盖能力:几何+拓扑+多视角一致性

全基准共1,000道排序题,任务分两大类:

  • 几何类(Geometric):Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume;

  • 拓扑类(Topological):Hop Distance / Cycle Length等图结构关系;

并额外引入多视角题目:以两张图配合,一张提供参考构件,一张给出待比较目标,重点考察跨视角构件对应与整体结构一致性。


构建过程:十位研究者耗费400+小时纯人工打磨

为了保证数据集的质量与多样性,同时也由于缺乏真实结构构件的标注数据,SSI-Bench的构建流程非常「硬核」——10位研究者投入超过400小时,从大量真实结构图片中进行人工筛选与题目设计:

  • 数据收集:研究中共计审阅约20,000张结构相关图片,结构形式包括空间网架、铁塔、斜拉桥、木竹结构、钢筋笼、管道等,最终保留2,000+候选;主要来自免版税来源(Unsplash / Pexels / Pixabay),多视角部分还补充了自采图像。

  • 任务设计:结合空间智能需求与结构工程专业知识,共精心设计2大类、10小类任务。

  • 元数据标注:判断每张图片适用的任务类型,使用Label Studio提供构件定位标注;

  • 问题生成:依据图片色彩自动选取标注颜色,并按构件位置自动布局标注文本;问题生成后,由人工复核清晰度与遮挡情况。

  • 质量检验:每题均由独立检查者复核,若存在分歧则交由第三人裁决。最终共获得1,000道有效题目。


模型仍在起跑线

人类领先近六成

SSI-Bench系统评测了31个主流VLM,结论非常直接:人类几乎「碾压式领先」。

人类平均91.6%,最强闭源33.6%(Gemini-3-Flash),最强开源22.2%(GLM-4.6V),随机猜测基线12.85%

也就是说,哪怕拿到当下最强大模型,人类仍然领先58个百分点(91.6 − 33.6)。


更为关键的是,即使鼓励模型生成更长的推理过程,整体提升也多停留在边际层面,难以触及问题的核心瓶颈。并且在部分高度依赖全局三维一致性的任务(如Multi-View、Volume)中,过度推理反而可能在错误的结构假设上持续累积偏差,使结果进一步偏离正确答案。


从结果到机制

关键瓶颈在哪里?

论文对代表模型做了人工复盘,归纳出四类高频错误:

  • 构件范围误判:仅观察到局部便误认为整体,或对端点位置产生错误「补全」;遮挡越多,问题越突出。

  • 构件/节点识别错误:混淆不同部件,方向判断失准(例如将倾斜构件误判为水平或垂直)。

  • 计算与比较逻辑错误:在Area/Volume等任务中计算方式错误(例如以2D投影替代3D体积),或采用不成立的简化假设。

  • 3D空间逻辑错误:深度关系混乱、跨视角对应失败、关系组合不稳定,进而导致整体结构假设不一致。

这也解释了SSI-Bench的「硬核」并不在于题目刻意刁钻,而在于它迫使模型直面并补齐两项关键短板:三维结构构型识别约束一致的空间推理


结语

SSI-Bench的价值,并不是再造一个「更难的VQA」,而是把空间智能评估拉回一个更接近现实的坐标系:

当场景是复杂真实结构、当可行解被强约束收缩、当2D捷径不再可靠——模型是否还能稳定地构建约束一致的3D结构假设并完成推理?

从目前结果看,答案仍然很残酷:模型还在起跑线,人类已在终点线附近。

但也正因如此,SSI-Bench给出了一个非常明确的研究方向:

让空间智能体从「会看图说话」,走向「会在结构里思考」。

参考资料:

https://ssi-bench.github.io/

Yang, C. (杨晨), Lin, G., He, Y., Chen, P., Liu, G., Mo, Y., Xu, Z., Wang, L., Zhang, G., Zhang, Z., Zeng, S., Wang, C. (王琛), & Fan, J. (樊健生) (2026). Thinking in structures: Evaluating spatial intelligence through reasoning on constrained manifolds. arXiv. https://arxiv.org/abs/2602.07864.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

牛锅巴小钒
2026-02-25 15:15:15
NB!神级大交易!谢谢你,勇士!

NB!神级大交易!谢谢你,勇士!

技巧君侃球
2026-02-25 17:49:45
郑钦文新教练敲定?与里巴分道扬镳被球迷炮轰:眼露凶光薄情寡义

郑钦文新教练敲定?与里巴分道扬镳被球迷炮轰:眼露凶光薄情寡义

搏击江湖
2026-02-25 19:51:44
中华人民共和国和德意志联邦共和国联合新闻声明

中华人民共和国和德意志联邦共和国联合新闻声明

新华社
2026-02-25 21:46:25
杨某(男,46岁)被抓获,移交上海警方!还有人开价15万元打包干这事儿

杨某(男,46岁)被抓获,移交上海警方!还有人开价15万元打包干这事儿

新民晚报
2026-02-25 10:34:02
春节旅行,看完三亚账单我沉默了:一家三口10天,烧掉一年血汗钱

春节旅行,看完三亚账单我沉默了:一家三口10天,烧掉一年血汗钱

夜深爱杂谈
2026-02-24 22:41:54
65岁男对10岁继女做不雅之事:36岁妻子目睹全过程,豪横身份被扒

65岁男对10岁继女做不雅之事:36岁妻子目睹全过程,豪横身份被扒

博士观察
2026-02-25 22:30:18
圣地亚哥海滩丢人一幕:中国游客纵容熊孩子砸海狮,全家被赶出海滩

圣地亚哥海滩丢人一幕:中国游客纵容熊孩子砸海狮,全家被赶出海滩

大洛杉矶LA
2026-02-26 01:08:26
香港自杀女警手机中发现遗书

香港自杀女警手机中发现遗书

现代快报
2026-02-25 20:33:04
美参议员称未来6个月这三国政府或被亲美政权取代,外交部回应

美参议员称未来6个月这三国政府或被亲美政权取代,外交部回应

澎湃新闻
2026-02-25 15:24:28
紧急预警!81款耳机全沦陷,你戴的不是耳机,是“慢性毒药”?

紧急预警!81款耳机全沦陷,你戴的不是耳机,是“慢性毒药”?

戗词夺理
2026-02-23 15:20:41
多地4S店关闭!宝马开年“大跳水”:7系降超40万,销量跌回7年前

多地4S店关闭!宝马开年“大跳水”:7系降超40万,销量跌回7年前

新浪财经
2026-02-25 15:28:38
四周年:欧盟领导人访问基辅,三重支持乌克兰,欧尔班反对无效

四周年:欧盟领导人访问基辅,三重支持乌克兰,欧尔班反对无效

鹰眼Defence
2026-02-25 18:34:56
打人时有多狂,求和解时就有多怂!看完太解气!

打人时有多狂,求和解时就有多怂!看完太解气!

风起见你
2026-02-25 18:54:43
德国总理应邀访华,因出言不逊行程被压缩!

德国总理应邀访华,因出言不逊行程被压缩!

谈芯说科技
2026-02-24 23:51:25
网传甘肃一中学超长作息表:早5点35读书,晚11点20放学,早晚餐25分钟;当地教育局:参考外地制订,未执行

网传甘肃一中学超长作息表:早5点35读书,晚11点20放学,早晚餐25分钟;当地教育局:参考外地制订,未执行

大风新闻
2026-02-25 19:49:04
平顶山“夫妻打人事件”,最狠毒者是老太

平顶山“夫妻打人事件”,最狠毒者是老太

方清云
2026-02-25 17:44:53
李小璐的新瓜,信息量有点大啊…

李小璐的新瓜,信息量有点大啊…

美芽
2026-02-25 18:13:04
比尔·盖茨道歉!承认与两俄女子有婚外关系,“从未前往爱泼斯坦的私人岛屿”

比尔·盖茨道歉!承认与两俄女子有婚外关系,“从未前往爱泼斯坦的私人岛屿”

上观新闻
2026-02-25 15:37:09
41.3万!特斯拉官宣:新车正式亮相

41.3万!特斯拉官宣:新车正式亮相

高科技爱好者
2026-02-25 23:02:39
2026-02-26 05:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14589文章数 66642关注度
往期回顾 全部

数码要闻

1399元起售!三星Buds4/Pro正式发布:搭载SWB超清晰通话

头条要闻

医生被指未完成创收指标被待岗 官方通报

头条要闻

医生被指未完成创收指标被待岗 官方通报

体育要闻

勇士爆冷惜败鹈鹕 梅尔顿28分赛季新高

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

科技要闻

“机器人只跳舞,没什么用”

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

房产
亲子
游戏
时尚
手机

房产要闻

海南楼市春节热销地图曝光!三亚、陵水又杀疯了!

亲子要闻

产后性生活冷淡?找回“高潮”,是修复夫妻关系的第一步

《如龙极3》中文配音访谈:中文配音与本地化并非易事

“复古甜心”穿搭突然大火!春天穿时髦又减龄

手机要闻

美国配件商发布iPhone长焦增距镜:iPhone 17 Pro系列支持24倍变焦

无障碍浏览 进入关怀版