网易首页 > 网易号 > 正文 申请入驻

初探空间智能尺度效应:商汤开源SenseNova-SI-1.3,八大空间智能榜单综合评分登顶

0
分享至


商汤科技正式开源空间智能模型日日新SenseNova-SI-1.3,在空间测量、视角转换、综合推理等核心任务中展现出显著提升,另外对比之前的版本增强了回答简答题的能力。在集成多项权威空间智能榜单的综合评测平台EASI上,SenseNova-SI-1.3综合性能超越Gemini-3-Pro,均分斩获EASI-8(八个权威空间智能榜单的混合评测)标准第一,在多个高难度空间任务(尤其是视角转换)中表现优异。


刁钻考题验证:SenseNova-SI-1.3精准突破空间智能核心难点

EASI-8包含一系列专门考察空间理解能力的高难度测试题,让Gemini-3-Pro等模型都频频踩坑。那么SenseNova-SI-1.3表现如何呢?(下列问题在测试模型时使用的原题为英文,为便于读者理解翻译为中文)。


题目要求统计两张照片中建筑模型的总数量,核心难点是理解两张图的对应关系,以此避免遮挡漏数和重复多数。图2视角下显现出图 1 中被遮挡的深灰色建筑,且部分模型在两图中重复出现。Gemini-3-Pro未完全去重,误数为 6 个;SenseNova-SI-1.3则给出 “4 个”的准确答案。


题目给出两张书房局部照片,已知 iMac 位于房间北部,询问学生写作业区域的方位。需先理解两张图片属于同一空间,再通过视觉线索拼接场景。Gemini-3-Pro误判学习区在西侧;SenseNova-SI-1.3精准定位 “西北角”,完全符合空间逻辑。


题目要求以 “未戴眼镜男士的自身视角” 判断身旁戴眼镜男士的方位,考察 “参照系转换” 能力,模型很容易以“观察者视角”来判断方向。Gemini-3-Pro就误选了 “右边”;SenseNova-SI-1.3则能正确给出 “左边” 的正确答案。


题目给出粉色瓶子前、后、左、右 4 张照片,询问图 4 角度下瓶子左边物体。这道题需整合多视角线索重构房间全局布局,再切换至目标视角判断方位 —— 第 4 张照片中瓶子左侧完全处于视觉盲区,仅能通过前 3 张图中的窗户、床、衣柜等线索还原空间关系。Gemini-3-Pro误选 “窗户和蓝色窗帘”,SenseNova-SI-1.3精准锁定正确答案 “衣柜和门”。


以双层巴士与公交站的场景为题,需避免陷入“英国巴士靠左行驶,因此靠站的是左侧”的常识陷阱,而是通过实际的视觉画面判断方位。Gemini-3-Pro误判 “左侧” 为答案;而 SenseNova-SI-1.3 则准确理解 “右侧” 为正确答案。

空间智能是极其独特的多模态能力


Core Knowledge Deficits in Multi-Modal Language Models (2025)发现视角转换任务与其它多模态任务的相关性(红框内)呈蓝色,即代表相关性较低

一篇2025年发表于机器学习顶会ICML的论文《Core Knowledge Deficits in Multi-Modal Language Models》揭示了一个有趣的发现:视角转换(Perspective)和所有传统多模态模型的能力的相关性均异常得低,这代表主流算法路径可能不是空间智能的形成的有效路径,这也解释了为什么领先的多模态大模型在空间智能相关的任务上表现不佳。


Core Knowledge Deficits in Multi-Modal Language Models (2025)发现增大模型尺寸对提升视角转换任务效果不佳

这篇论文也发现,空间智能似乎存在反尺度效应的现象:更大的模型并不能更好地解决空间智能任务。另外,在EASI的官方报告中也可以找到相似的描述,指出视角转换任务(Perspective-taking)依然是最具挑战的基础能力之一。

空间智能需要全新的学习范式。

从3D世界数据匮乏到空间智能的尺度效应


空间智能的核心——视角转换任务被拆解成了三个关键步骤:建立跨视角关联、理解视角移动、想象视角变换,并围绕着解决这三个基础能力构造大量训练数据

学术界现有数据集多着重于目标识别与场景理解,模型往往停留在图像模式匹配阶段,难以形成稳定的空间理解能力。基于这一洞察,想要解决空间智能尤其是视角转换任务,简单扩充相关数据规模是不够的。为了解决这一根本问题,我们将视角转换看作从二维视觉信息迈向三维空间关系理解的关键桥梁,并将其拆解为递进的能力阶段,由易到难、难度递增的三个任务层级(建立跨视角关联、理解视角移动、想象视角变换),并构造大量且层次分明的训练数据,使模型建立完备的空间理解能力。

同时,在数据规模持续扩大的过程中,SenseNova-SI团队挖掘并重组多视角学术数据资源,将许多过去未被充分利用的标注转化为视角转换训练数据。例如,多目关联数据集 MessyTable提供了高物体复杂度场景,其中跨视角物体一致性信息与精确的相机位姿标注,可用于训练物体对应与相机运动推理能力;而部分室内场景扫描数据如CA-1M中包含物体自身朝向标注的样本,则被用于补充模型进行视角转换与想象所需的稀缺数据。这种跨数据源的重组与再利用,使积累大量丰富而系统的空间理解数据成为可能。


空间智能的尺度效应:SenseNova-SI在视角转换任务上超越GPT-5

大规模高质量的空间智能数据在SenseNova-SI团队的手中最终验证了空间智能的尺度效应:SenseNova-SI的8B参数基模型最终超越了强闭源模型如GPT-5,而2B参数的小模型也表现不俗,在相同数据规模下,甚至超越了纽约大学的Cambrian-S和字节的VST两个7B参数的模型。


只在Ego-Exo4D上训练第一/第三人称视角匹配的模型可以大幅提升(+90.4%)在MMSI的2D迷宫导航问题上的表现

更有趣的是,团队在研究中似乎发现了一些智能涌现的先兆:一些看起来毫无关联的但也许细想之下有底层能力联系的任务可以协同发展。另外,团队也发现在视角转换任务上训练的模型也可以增强如心智重建(Mental Reconstruction)、综合空间推理(Comprehensive Reasoning)等能力。

商汤引领空间智能普惠生态

SenseNova-SI-1.3模型的升级发布背后,是商汤科技始终致力于打破技术壁垒,让顶尖空间智能技术惠及更多开发者与企业。对科研人员而言,SenseNova-SI-1.3通过在空间智能上验证数据尺度效应提供了一个与现有基座模型完全兼容,但又长于空间智能的强力预训练模型和基线(SenseNova-SI已被VSI-Bench, MMSI-Bench等权威榜单官方收录),可以直接在其之上设计创新算法或者续训,推动空间智能向人类水平迈进;对企业来说,可直接基于 SenseNova-SI-1.3快速落地应用,缩短研发周期、降低技术门槛;对普通用户而言,未来将有更多搭载先进空间智能的产品走进生活 —— 从智能家电到自动驾驶,从工业机器人到教育设备,都将更懂 “空间逻辑”、更贴合实际需求。


SenseNova-SI在具身任务上的探索了空间智能的重要性开源地址

SenseNova-SI模型家族:https://huggingface.co/collections/sensenova/sensenova-si

SenseNova-SI开源代码:https://github.com/OpenSenseNova/SenseNova-SI

Discord 社区邀请码:https://discord.gg/WBzH62bk

SenseNova-SI入群码:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为啥软包香烟又薄又易坏,售价却远超硬盒?老烟民看完恍然大悟

为啥软包香烟又薄又易坏,售价却远超硬盒?老烟民看完恍然大悟

复转这些年
2026-04-28 12:14:39
“中国本来能整死我们!”特朗普话风突变,承认美国有求于中国

“中国本来能整死我们!”特朗普话风突变,承认美国有求于中国

阿绐聊社会
2026-04-29 14:15:01
100个能救命的冷知识!关键时刻能保命,建议收藏

100个能救命的冷知识!关键时刻能保命,建议收藏

诗词天地
2026-04-22 14:06:22
英伟达要慌了?一家中国GPU通过微软WHQL认证,是全球第4家

英伟达要慌了?一家中国GPU通过微软WHQL认证,是全球第4家

互联网.乱侃秀
2026-04-28 14:49:09
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
巨亏125亿还敢诱多?76亿减值炸雷变ST,10万股民一夜跌懵

巨亏125亿还敢诱多?76亿减值炸雷变ST,10万股民一夜跌懵

慧眼看世界哈哈
2026-04-29 10:21:30
学医后才知道,高血脂最危险信号,不是头晕,是频繁出现这5异常

学医后才知道,高血脂最危险信号,不是头晕,是频繁出现这5异常

垚垚分享健康
2026-04-29 15:10:11
预计19.98万起!比亚迪新车官宣今日上市,纯电755km+9分钟闪充!

预计19.98万起!比亚迪新车官宣今日上市,纯电755km+9分钟闪充!

沙雕小琳琳
2026-04-29 16:05:54
医生提醒:早期心梗不是胸闷,而是频繁出现这5个症状,一定警惕

医生提醒:早期心梗不是胸闷,而是频繁出现这5个症状,一定警惕

垚垚分享健康
2026-04-18 12:41:45
记者:穆里尼奥已不似当年那么好勇斗狠;他适合现在这支皇马

记者:穆里尼奥已不似当年那么好勇斗狠;他适合现在这支皇马

懂球帝
2026-04-29 14:47:09
曝球球退出陈翔六点半!疑细节原因曝光,否认与“蘑菇头”是夫妻

曝球球退出陈翔六点半!疑细节原因曝光,否认与“蘑菇头”是夫妻

裕丰娱间说
2026-04-26 19:04:43
父母一旦跨过80岁大关,无关孝顺与否,立刻抓紧办8件急事

父母一旦跨过80岁大关,无关孝顺与否,立刻抓紧办8件急事

辉哥说动漫
2026-04-27 13:00:49
电商平台能买到的丁二醇,被指控为毒品直接前体,淘宝、拼多多已搜索不到

电商平台能买到的丁二醇,被指控为毒品直接前体,淘宝、拼多多已搜索不到

红星资本局
2026-04-28 13:23:52
重磅通知!5月1日全面落地,体制内、公职人员这9条红线千万别碰

重磅通知!5月1日全面落地,体制内、公职人员这9条红线千万别碰

鬼菜生活
2026-04-29 15:16:14
1-4!汤姆斯杯爆大冷 上届亚军印尼队小组赛出局 国羽冲冠获利好

1-4!汤姆斯杯爆大冷 上届亚军印尼队小组赛出局 国羽冲冠获利好

我爱英超
2026-04-29 06:06:08
张雪机车出征匈牙利!首次被限制 17弯+5重刹区赛道 第3冠再封神?

张雪机车出征匈牙利!首次被限制 17弯+5重刹区赛道 第3冠再封神?

画夕
2026-04-29 14:52:15
北美当个宝,国内没人鸟,投资13.7亿的好莱坞大片被国人上了一课

北美当个宝,国内没人鸟,投资13.7亿的好莱坞大片被国人上了一课

八卦南风
2026-04-28 14:39:59
他是吴宜泽父亲,卖房子住地下室陪读,难怪能战胜世界冠军进8强

他是吴宜泽父亲,卖房子住地下室陪读,难怪能战胜世界冠军进8强

以茶带书
2026-04-28 16:10:22
泰国司法部:他信获准于5月11日假释出狱

泰国司法部:他信获准于5月11日假释出狱

新华社
2026-04-29 15:35:09
第一夫人扛不住了!布丽吉特开口谈婚姻:9年没有正常夫妻生活

第一夫人扛不住了!布丽吉特开口谈婚姻:9年没有正常夫妻生活

白露文娱志
2026-04-29 14:05:20
2026-04-29 18:03:00
猎云网
猎云网
聚焦科技创业创新,钻研产业趋势,用心服务创业者。
58984文章数 327140关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

俄首富超级游艇穿越霍尔木兹海峡:6层甲板 25米长泳池

头条要闻

俄首富超级游艇穿越霍尔木兹海峡:6层甲板 25米长泳池

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

曾经的新能源首富,希望又破了!

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

游戏
本地
房产
手机
公开课

《卡片魔王:只剩个头!》评测:手快动两下"/> 主站 商城 论坛 自运营 登录 注册 《卡片魔王:只剩个头!》评测:手快动两下 Haine 2026-0...

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

手机要闻

6.32 英寸塞下双2亿 + 7025mAh!! OPPO Find X9s Pro全面评测:新王小Ultra 影像续航手感全维封神

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版