同样一张图,GPT-4V说"杯子在桌子左边",字节跳动的SpatialTree却说"杯子在书的右边、离桌子30厘米"。12.4个百分点的差距,暴露了多模态大模型在空间推理上的集体短板。
SpatialTree是字节跳动Seed团队联合北京大学等高校提交给CVPR 2026的论文成果。核心思路粗暴但有效:把"杯子在书的左边吗"这种空间问题拆成一棵树,每个子问题由一个专门训练的视觉编码器解决,最后在根节点汇总答案。这思路反而更像人类——先判断谁挨着谁,再判断谁在谁边上,最后拼出完整的空间关系图。
![]()
实测数据让差距变得刺眼。SEAL-Bench基准上,SpatialTree干到79.8%,GPT-4V只拿了67.4%。论文消融实验还暴露了一个细节:标准MLLM注意力机制在处理位置编码时有37%的误差,而SpatialTree的"空间锚点注意力"机制把这个坑填了一部分。树里每个节点代表一种空间基础关系——包含、相邻、朝向——层层聚合后得出最终判断。
部署效率上也有说法。一个10节点的树在单颗Intel Xeon上的推理延迟只有210毫秒。字节在2026年6月购买了数万颗Iluvatar CoreX AI处理器用于云端部署,同时在为推理负载自研数据中心CPU。SpatialTree轻量到可以直接跑在这些CPU上,给TikTok量级的代理工作负载留下了想象空间。开源也没藏着掖着——Apache 2.0协议,模型权重和推理代码全放出来,跟5月发布的BAGEL 7B一个路子。
但翻到论文的局限性部分就不那么好看了。物体数超过15个,注意力树会二次增长,性能直接滑坡。SEAL-Bench这种通用空间推理基准也不测动态场景和3D空间理解——而这两项恰恰是机器人和自动驾驶的死穴。目前框架只能吃2D图像输入。
从技术路线看,SpatialTree打的是多模态LLM的一个老病灶。GPT-4V、Gemini Pro能描述物体,但一到相对位置、距离、空间逻辑就磕巴。机器人抓取、自动驾驶、AR/VR全卡在这个环节。字节这次没用更大的模型硬堆参数,而是回到问题本身做结构化拆解。方向上没什么新鲜的,但12.4个点的提升幅度说明,这个病灶可能比外界想象的更严重。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.