网易首页 > 网易号 > 正文 申请入驻

PixelRefer :让AI从“看大图”走向“看懂每个对象”

0
分享至



多模态大模型(MLLMs)虽然在图像理解、视频分析上表现出色,但多停留在整体场景级理解。

而场景级理解 ≠ 视觉理解的终点,现实任务(如自动驾驶、机器人、医疗影像、视频分析)需要的是细粒度、对象级(object-level)详细理解

然而,当下的研究工作,如英伟达的Describe Anything Model (DAM)局限于单个物体的描述,难以深入理解多对象属性、交互关系及其时序演变,且牺牲了模型本身的通用理解能力。

针对这一问题,浙江大学、达摩院、香港理工大学联合提出了一种创新的解决方案PixelRefer:一个统一的时空像素级区域级理解框架,可实现任意粒度下的精细视觉指代与推理,在多项像素级细粒度理解任务取得领先性能表现。和DAM-3B相比,轻量版的2B模型推理时间加快了4倍,显存占用减半,且训练数据量大大少于已有方法。



PixelRefer能够对任意目标实现准确语义理解以及时空物体区域理解。









  • 论文标题:
  • PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
  • 论文链接:
  • https://arxiv.org/abs/2510.23603
  • 项目网站链接:
  • https://circleradon.github.io/PixelRefer/
  • 代码链接:
  • https://github.com/DAMO-NLP-SG/PixelRefer

先验分析:大模型“如何看懂区域”?

为了探索解决以上问题,作者基于通用视觉基础模型采用最直接的设计:将全局视觉token+像素级区域token+文本token一起喂给 LLM。当无物体指代区域时,模型则退化成通用视觉理解任务,从而实现区域理解的同时,保留通用模型本身的通用理解能力。

作者对LLM内从浅层到深层中分析视觉token、区域token以及其他类型token进行可视化分析。本文可以发现从浅层到深层,答案(Ans)优先关注像素级区域token,其attention分数一直很高,说明物体token表征对于模型的回答起到重要的作用。此外,全局图像token(vision)则仅在浅层中(第一层)表现出较高的attention分布(Answer-to-image token attention),LLM的深层则表现较弱,甚至没有影响,这个在通用视觉基础模型研究中也被讨论到。



浅层到深层的attention可视化

基于此分析,作者得出两种设计方案:

  1. 高质量像素级物体表征很重要:对于像素级区域的表达,语义丰富的区域表征直接决定像素级语义理解的质量;
  2. 全局信息的冗余可以通过“预融合”优化:在 LLM 深层阶段,全局视觉标记的作用显著减弱,在深层阶段反而变得冗余,说明其信息可提前注入对象标记中,以大幅减少计算开销。

方法设计

为此,作者针对像素级细粒度理解定义了两种框架,Vision-Object Framework (a)与Object-Only Framework (b):



PixelRefer(Vision-Object Framework)

对于PixelRefer,作者把全局视觉token+像素级区域token+文本token一起送入 LLM,既保留场景语境,又在对象级上精细推理。关键在于像素级区域表征token质量足够高。为此,作者提出尺度自适应对象分词器(Scale-Adaptive Object Tokenizer, SAOT) 来生成精确、紧凑、语义丰富的对象表示。

SAOT 围绕两个设计:(i)小目标容易在patch化后丢失细节;(ii)大目标的特征冗余严重

核心做法分三步:

  1. 动态尺度处理(Dynamic Object Processing)。按像素级区域大小自适应地放大小物体、缩小大物体,并进行上下文扩展(在目标周围留出一定背景),保证既不丢细节也不过度冗余。随后通过共享视觉编码器取到区域级特征。
  2. 位置感知的掩码特征抽取(Mask Feature + Relative Positional Encoding)。对区域内的有效特征做掩码并叠加相对坐标投影,形成位置感知的对象token,为后续推理提供“这片语义在图像哪里”的线索。作者还为被裁剪/扩展后的区域加入相对位置编码来缓解对齐歧义,使对象token具备空间感知。
  3. 冗余聚合(Abundant Feature Aggregation)。对大/同质区域里高度相似的token,采用k-means 聚类合并,只保留n 个代表性token,既压缩冗余又保留多视角细节。这一步实证上显著降低了对象内部token的相似度,提高了表示“紧致度”。




PixelRefer-Lite (Object-Only Framework)

该变体仅使用对象标记进行 LLM 推理,借助对象中心信息融合模块(Object-Centric Infusion Module, OCI)将全局特征在前处理阶段融合入对象表示中。通过 Local-to-Object 和 Global-to-Object Attention,使目标的表征同时具备细节感知与全局语义,从而实现更完整的上下文融合。这样一来,推理阶段无需再使用全局视觉标记,显著降低显存与时间消耗,同时保持语义一致性与理解精度。



PixelRefer-Lite 实现了一个高效的推理框架,在保持高性能的同时将推理速度提升约 2–3 倍。

数据集

作者收集并开源了用于训练的两类数据集,分别是Foundational Object Perception(140万样本):涵盖物体、部件、时序关系的识别与描述以及Visual Instruction Tuning(80万样本):覆盖区域QA、视频QA、多对象关系与未来事件预测QA。



性能结果

  • 对于图像像素级细粒度理解benchmark



PixelRefer在多个图像理解benchmark上已达到SOTA水平,不论是简单的区域识别还是详细理解,已成为最先进的模型,特别是在reasoning场景下,更是展现出了突出优势。

  • 对于视频像素级细粒度理解benchmark



在经典的VideoRefer-Bench上,不论是视频区域的caption还是QA,均取得了领先性能,展现了通用而又全面的能力。

  • 对于推理时间与效率的计算



在基于图片的benchmark DLC-Bench和基于视频的benchmark上HC-STVG上均进行了测评,轻量版的PixelRefer-Lite-2B模型有较大的领先优势,特别是在视频上,相较于DAM-3B,推理时间缩短了约4倍,显存占用减少了2倍。

  • 消融实验:Scale-adaptive Object TokenizervsMaskPooling



  • 相较于之前简单maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模块有明显的提升,特别是在小目标理解上,在LVIS和DLC-Bench上均提升了十几个点。

  • 消融实验:对于区域token的表征个数



研究意义与总结

PixelRefer的出现,标志着AI视觉理解从“看懂一张图”迈向“理解世界的细节动态”,为多模态大模型的精细化视觉理解提供了新的方向。应用前景包括:

  • 自动驾驶的时序场景识别
  • 医疗影像的病灶级理解
  • 智能视频剪辑与监控
  • 多模态对话与人机交互

未来的多模态AI,不仅会“看见世界”,更会理解世界的关系。PixelRefer的提出,正是通向通用视觉智能的一块关键拼图。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川女富商程海燕因杀夫被注射死刑,临刑前绝望挣扎

四川女富商程海燕因杀夫被注射死刑,临刑前绝望挣扎

知否否
2024-03-13 08:34:16
哈马斯来算账了,领导人死因公布:正打着电话,以色列导弹就来了

哈马斯来算账了,领导人死因公布:正打着电话,以色列导弹就来了

通文知史
2025-11-10 16:40:03
卓荣泰模糊回应台美关税谈判进度,赖士葆讽民进党当局谈判牛步

卓荣泰模糊回应台美关税谈判进度,赖士葆讽民进党当局谈判牛步

海峡导报社
2025-11-11 16:11:03
常州多校取消期中考试!

常州多校取消期中考试!

中吴网
2025-11-10 19:45:03
双赢?皇马利物浦达成交换协议,罗德里戈圆梦,维尔茨转投皇马

双赢?皇马利物浦达成交换协议,罗德里戈圆梦,维尔茨转投皇马

夜白侃球
2025-11-10 14:11:59
亏惨了!即将退市,已连续20个跌停,股民买在跌停前一天,出不来

亏惨了!即将退市,已连续20个跌停,股民买在跌停前一天,出不来

风风顺
2025-11-11 03:00:03
太难了!网传某设计院水专业总工,自己成光杆司令,工资拖欠数月

太难了!网传某设计院水专业总工,自己成光杆司令,工资拖欠数月

火山诗话
2025-11-10 15:06:22
谍战剧《隐锋》开播!看完2集后,我要说:央视这回又押对了宝

谍战剧《隐锋》开播!看完2集后,我要说:央视这回又押对了宝

秋姐居
2025-11-11 14:22:25
很多人低估了30年房贷的威力

很多人低估了30年房贷的威力

深蓝夜读
2025-11-11 14:00:07
确认了,会影响上海!下周气温骤跌,台风“凤凰”最新动态→

确认了,会影响上海!下周气温骤跌,台风“凤凰”最新动态→

鲁中晨报
2025-11-11 13:43:03
四中两近,苏57内置弹舱终于高清亮相

四中两近,苏57内置弹舱终于高清亮相

三叔的装备空间
2025-11-09 21:52:05
美国30年为何没下死手?奥巴马揭开真相:是中国人没给机会

美国30年为何没下死手?奥巴马揭开真相:是中国人没给机会

普览
2025-11-10 00:34:31
快船5连败后,哈登要求很明确,泰伦卢提出希望,祖巴茨比较悲观

快船5连败后,哈登要求很明确,泰伦卢提出希望,祖巴茨比较悲观

体坛大辣椒
2025-11-11 15:24:25
两战16中1!烂,太烂了!威少有望篡位成功

两战16中1!烂,太烂了!威少有望篡位成功

篮球实战宝典
2025-11-10 19:06:10
哈登尽力了!快船102-105老鹰5连败:他是头号罪人!

哈登尽力了!快船102-105老鹰5连败:他是头号罪人!

运筹帷幄的篮球
2025-11-11 12:42:28
官媒发文,63岁何超琼再破天花板,让许晋亨和整个豪门圈沉默了

官媒发文,63岁何超琼再破天花板,让许晋亨和整个豪门圈沉默了

小鬼头体育
2025-11-10 04:33:10
重庆区划调整后,原区委书记、区长新职务明确!

重庆区划调整后,原区委书记、区长新职务明确!

上观新闻
2025-11-11 15:18:05
如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

风信子的花
2025-10-24 23:59:39
华中农业大学一学生溺亡,武汉警方通报

华中农业大学一学生溺亡,武汉警方通报

界面新闻
2025-11-10 20:01:57
蔡正元怒批郑丽文,声称中国国民党以后应该改名为“中国国民投降党”

蔡正元怒批郑丽文,声称中国国民党以后应该改名为“中国国民投降党”

流年拾光
2025-11-10 18:38:11
2025-11-11 17:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11692文章数 142501关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

欧委会要求欧盟成员排除中兴、华为设备 外交部回应

头条要闻

欧委会要求欧盟成员排除中兴、华为设备 外交部回应

体育要闻

维金斯0.4秒空接暴扣绝杀 热火险胜骑士

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

时尚
房产
数码
手机
本地

火遍全网的这件外套太好穿,我总结了几个实用搭配公式

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

数码要闻

小米憋大招!10000mAh超大电池方案可量产,充电宝要被淘汰了

手机要闻

中国折叠屏手机市场最新份额:华为稳居第一 68.9%断层式领先

本地新闻

这届干饭人,已经把博物馆吃成了食堂

无障碍浏览 进入关怀版