CVPR 2026爆冷：字节Seed用树状拆解把GPT-4V甩出12分，但超过15个物体就崩|推理|大模型|cvpr|seed|gpt-4

CVPR 2026爆冷：字节Seed用树状拆解把GPT-4V甩出12分，但超过15个物体就崩

2026-06-23 01:48:11　来源: 固件更新中

北京举报

分享至

同样一张图，GPT-4V说"杯子在桌子左边"，字节跳动的SpatialTree却说"杯子在书的右边、离桌子30厘米"。12.4个百分点的差距，暴露了多模态大模型在空间推理上的集体短板。

SpatialTree是字节跳动Seed团队联合北京大学等高校提交给CVPR 2026的论文成果。核心思路粗暴但有效：把"杯子在书的左边吗"这种空间问题拆成一棵树，每个子问题由一个专门训练的视觉编码器解决，最后在根节点汇总答案。这思路反而更像人类——先判断谁挨着谁，再判断谁在谁边上，最后拼出完整的空间关系图。

实测数据让差距变得刺眼。SEAL-Bench基准上，SpatialTree干到79.8%，GPT-4V只拿了67.4%。论文消融实验还暴露了一个细节：标准MLLM注意力机制在处理位置编码时有37%的误差，而SpatialTree的"空间锚点注意力"机制把这个坑填了一部分。树里每个节点代表一种空间基础关系——包含、相邻、朝向——层层聚合后得出最终判断。

部署效率上也有说法。一个10节点的树在单颗Intel Xeon上的推理延迟只有210毫秒。字节在2026年6月购买了数万颗Iluvatar CoreX AI处理器用于云端部署，同时在为推理负载自研数据中心CPU。SpatialTree轻量到可以直接跑在这些CPU上，给TikTok量级的代理工作负载留下了想象空间。开源也没藏着掖着——Apache 2.0协议，模型权重和推理代码全放出来，跟5月发布的BAGEL 7B一个路子。

但翻到论文的局限性部分就不那么好看了。物体数超过15个，注意力树会二次增长，性能直接滑坡。SEAL-Bench这种通用空间推理基准也不测动态场景和3D空间理解——而这两项恰恰是机器人和自动驾驶的死穴。目前框架只能吃2D图像输入。

从技术路线看，SpatialTree打的是多模态LLM的一个老病灶。GPT-4V、Gemini Pro能描述物体，但一到相对位置、距离、空间逻辑就磕巴。机器人抓取、自动驾驶、AR/VR全卡在这个环节。字节这次没用更大的模型硬堆参数，而是回到问题本身做结构化拆解。方向上没什么新鲜的，但12.4个点的提升幅度说明，这个病灶可能比外界想象的更严重。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.