网易首页 > 网易号 > 正文 申请入驻

PixelRefer :让AI从“看大图”走向“看懂每个对象”

0
分享至



多模态大模型(MLLMs)虽然在图像理解、视频分析上表现出色,但多停留在整体场景级理解。

而场景级理解 ≠ 视觉理解的终点,现实任务(如自动驾驶、机器人、医疗影像、视频分析)需要的是细粒度、对象级(object-level)详细理解

然而,当下的研究工作,如英伟达的Describe Anything Model (DAM)局限于单个物体的描述,难以深入理解多对象属性、交互关系及其时序演变,且牺牲了模型本身的通用理解能力。

针对这一问题,浙江大学、达摩院、香港理工大学联合提出了一种创新的解决方案PixelRefer:一个统一的时空像素级区域级理解框架,可实现任意粒度下的精细视觉指代与推理,在多项像素级细粒度理解任务取得领先性能表现。和DAM-3B相比,轻量版的2B模型推理时间加快了4倍,显存占用减半,且训练数据量大大少于已有方法。



PixelRefer能够对任意目标实现准确语义理解以及时空物体区域理解。









  • 论文标题:
  • PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
  • 论文链接:
  • https://arxiv.org/abs/2510.23603
  • 项目网站链接:
  • https://circleradon.github.io/PixelRefer/
  • 代码链接:
  • https://github.com/DAMO-NLP-SG/PixelRefer

先验分析:大模型“如何看懂区域”?

为了探索解决以上问题,作者基于通用视觉基础模型采用最直接的设计:将全局视觉token+像素级区域token+文本token一起喂给 LLM。当无物体指代区域时,模型则退化成通用视觉理解任务,从而实现区域理解的同时,保留通用模型本身的通用理解能力。

作者对LLM内从浅层到深层中分析视觉token、区域token以及其他类型token进行可视化分析。本文可以发现从浅层到深层,答案(Ans)优先关注像素级区域token,其attention分数一直很高,说明物体token表征对于模型的回答起到重要的作用。此外,全局图像token(vision)则仅在浅层中(第一层)表现出较高的attention分布(Answer-to-image token attention),LLM的深层则表现较弱,甚至没有影响,这个在通用视觉基础模型研究中也被讨论到。



浅层到深层的attention可视化

基于此分析,作者得出两种设计方案:

  1. 高质量像素级物体表征很重要:对于像素级区域的表达,语义丰富的区域表征直接决定像素级语义理解的质量;
  2. 全局信息的冗余可以通过“预融合”优化:在 LLM 深层阶段,全局视觉标记的作用显著减弱,在深层阶段反而变得冗余,说明其信息可提前注入对象标记中,以大幅减少计算开销。

方法设计

为此,作者针对像素级细粒度理解定义了两种框架,Vision-Object Framework (a)与Object-Only Framework (b):



PixelRefer(Vision-Object Framework)

对于PixelRefer,作者把全局视觉token+像素级区域token+文本token一起送入 LLM,既保留场景语境,又在对象级上精细推理。关键在于像素级区域表征token质量足够高。为此,作者提出尺度自适应对象分词器(Scale-Adaptive Object Tokenizer, SAOT) 来生成精确、紧凑、语义丰富的对象表示。

SAOT 围绕两个设计:(i)小目标容易在patch化后丢失细节;(ii)大目标的特征冗余严重

核心做法分三步:

  1. 动态尺度处理(Dynamic Object Processing)。按像素级区域大小自适应地放大小物体、缩小大物体,并进行上下文扩展(在目标周围留出一定背景),保证既不丢细节也不过度冗余。随后通过共享视觉编码器取到区域级特征。
  2. 位置感知的掩码特征抽取(Mask Feature + Relative Positional Encoding)。对区域内的有效特征做掩码并叠加相对坐标投影,形成位置感知的对象token,为后续推理提供“这片语义在图像哪里”的线索。作者还为被裁剪/扩展后的区域加入相对位置编码来缓解对齐歧义,使对象token具备空间感知。
  3. 冗余聚合(Abundant Feature Aggregation)。对大/同质区域里高度相似的token,采用k-means 聚类合并,只保留n 个代表性token,既压缩冗余又保留多视角细节。这一步实证上显著降低了对象内部token的相似度,提高了表示“紧致度”。




PixelRefer-Lite (Object-Only Framework)

该变体仅使用对象标记进行 LLM 推理,借助对象中心信息融合模块(Object-Centric Infusion Module, OCI)将全局特征在前处理阶段融合入对象表示中。通过 Local-to-Object 和 Global-to-Object Attention,使目标的表征同时具备细节感知与全局语义,从而实现更完整的上下文融合。这样一来,推理阶段无需再使用全局视觉标记,显著降低显存与时间消耗,同时保持语义一致性与理解精度。



PixelRefer-Lite 实现了一个高效的推理框架,在保持高性能的同时将推理速度提升约 2–3 倍。

数据集

作者收集并开源了用于训练的两类数据集,分别是Foundational Object Perception(140万样本):涵盖物体、部件、时序关系的识别与描述以及Visual Instruction Tuning(80万样本):覆盖区域QA、视频QA、多对象关系与未来事件预测QA。



性能结果

  • 对于图像像素级细粒度理解benchmark



PixelRefer在多个图像理解benchmark上已达到SOTA水平,不论是简单的区域识别还是详细理解,已成为最先进的模型,特别是在reasoning场景下,更是展现出了突出优势。

  • 对于视频像素级细粒度理解benchmark



在经典的VideoRefer-Bench上,不论是视频区域的caption还是QA,均取得了领先性能,展现了通用而又全面的能力。

  • 对于推理时间与效率的计算



在基于图片的benchmark DLC-Bench和基于视频的benchmark上HC-STVG上均进行了测评,轻量版的PixelRefer-Lite-2B模型有较大的领先优势,特别是在视频上,相较于DAM-3B,推理时间缩短了约4倍,显存占用减少了2倍。

  • 消融实验:Scale-adaptive Object TokenizervsMaskPooling



  • 相较于之前简单maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模块有明显的提升,特别是在小目标理解上,在LVIS和DLC-Bench上均提升了十几个点。

  • 消融实验:对于区域token的表征个数



研究意义与总结

PixelRefer的出现,标志着AI视觉理解从“看懂一张图”迈向“理解世界的细节动态”,为多模态大模型的精细化视觉理解提供了新的方向。应用前景包括:

  • 自动驾驶的时序场景识别
  • 医疗影像的病灶级理解
  • 智能视频剪辑与监控
  • 多模态对话与人机交互

未来的多模态AI,不仅会“看见世界”,更会理解世界的关系。PixelRefer的提出,正是通向通用视觉智能的一块关键拼图。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世体:马竞新大股东注资13亿欧元,目标缩小与顶级豪门差距

世体:马竞新大股东注资13亿欧元,目标缩小与顶级豪门差距

懂球帝
2025-11-11 18:33:15
地表最难乒乓球赛!全运会卫冕冠军王曼昱差点输了比赛

地表最难乒乓球赛!全运会卫冕冠军王曼昱差点输了比赛

澎湃新闻
2025-11-11 14:02:29
多次光顾同一家店会发生啥?网友:我进去了让我自己盛饭菜

多次光顾同一家店会发生啥?网友:我进去了让我自己盛饭菜

解读热点事件
2025-11-09 00:05:13
张小婉和小酒窝合拍等于“拥有9岁的管乐”!网友:不夸张,简直是一模一样

张小婉和小酒窝合拍等于“拥有9岁的管乐”!网友:不夸张,简直是一模一样

动物奇奇怪怪
2025-11-11 13:15:25
郑丽文的发言人牛煦庭,因“秋祭”陷左右为难。或辞或换让她头疼

郑丽文的发言人牛煦庭,因“秋祭”陷左右为难。或辞或换让她头疼

李博世财经
2025-11-11 17:05:18
演员童瑶:我这辈子最正确的决定,就是因为一句话嫁给了丈夫王冉

演员童瑶:我这辈子最正确的决定,就是因为一句话嫁给了丈夫王冉

白面书誏
2025-11-10 19:22:46
《四喜》直到下雨天产检被困医院,才知沈明珠为何愿意生下遗腹子

《四喜》直到下雨天产检被困医院,才知沈明珠为何愿意生下遗腹子

小七追剧站
2025-11-11 14:22:13
区划调整后,原两江新区管委会主任许宏球调任永川区委副书记

区划调整后,原两江新区管委会主任许宏球调任永川区委副书记

澎湃新闻
2025-11-11 15:14:38
4千吨对10万吨,南海爆发激烈对峙!美航母迫近黄岩岛,054A立功

4千吨对10万吨,南海爆发激烈对峙!美航母迫近黄岩岛,054A立功

文史旺旺旺
2025-11-10 21:16:04
茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

阿纂看事
2025-10-13 15:36:03
”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

张晓磊
2025-11-07 11:34:05
金华金东区新任委副书记已明确!

金华金东区新任委副书记已明确!

浙中在线
2025-11-11 18:17:47
辽宁队总冠军!主力全缺赛,受伤球员做替补,8人打球狂胜58分

辽宁队总冠军!主力全缺赛,受伤球员做替补,8人打球狂胜58分

宗介说体育
2025-11-11 09:50:23
广州地铁这回摊上大事了!遭人民网发文痛批,网友:真是一点不冤

广州地铁这回摊上大事了!遭人民网发文痛批,网友:真是一点不冤

徐醇老表哥
2025-11-10 11:20:54
经济专家黄奇帆建议:死后房子归国家,活着的时候发钱,可行吗?

经济专家黄奇帆建议:死后房子归国家,活着的时候发钱,可行吗?

博览历史
2025-11-11 06:35:03
住建部新定调:房龄满22年的老破小,一律按新规处理!业主迎利好

住建部新定调:房龄满22年的老破小,一律按新规处理!业主迎利好

巢客HOME
2025-11-10 10:50:03
瑞士商界齐发力!美国将把对瑞士关税降至15%?特朗普:正在研究

瑞士商界齐发力!美国将把对瑞士关税降至15%?特朗普:正在研究

第一财经资讯
2025-11-11 20:41:20
德国1.19万家企业破产,默茨急了,绝不能让中美决定技术未来

德国1.19万家企业破产,默茨急了,绝不能让中美决定技术未来

寻途
2025-11-10 16:11:30
你只是来体验生命的,不是来害怕的

你只是来体验生命的,不是来害怕的

青苹果sht
2025-11-01 05:52:54
你所不知道的,全面抗战时期,国民政府为中共提供超过3000万军费

你所不知道的,全面抗战时期,国民政府为中共提供超过3000万军费

老谢谈史
2025-11-09 04:34:28
2025-11-11 21:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11694文章数 142501关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

媒体:高市早苗接连触碰中国底线 日本贼心不死

头条要闻

媒体:高市早苗接连触碰中国底线 日本贼心不死

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

艺术
亲子
手机
公开课
军事航空

艺术要闻

田英章日常书信曝光,字迹开阔惊艳人心!

亲子要闻

守护流感季儿童呼吸健康,科学应对感染后咳嗽

手机要闻

双11首发即破发!华为Mate 70 Air为销量拼了?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

空军发布重磅视频 多款新型战机亮相

无障碍浏览 进入关怀版