网易首页 > 网易号 > 正文 申请入驻

PixelRefer :让AI从“看大图”走向“看懂每个对象”

0
分享至



多模态大模型(MLLMs)虽然在图像理解、视频分析上表现出色,但多停留在整体场景级理解。

而场景级理解 ≠ 视觉理解的终点,现实任务(如自动驾驶、机器人、医疗影像、视频分析)需要的是细粒度、对象级(object-level)详细理解

然而,当下的研究工作,如英伟达的Describe Anything Model (DAM)局限于单个物体的描述,难以深入理解多对象属性、交互关系及其时序演变,且牺牲了模型本身的通用理解能力。

针对这一问题,浙江大学、达摩院、香港理工大学联合提出了一种创新的解决方案PixelRefer:一个统一的时空像素级区域级理解框架,可实现任意粒度下的精细视觉指代与推理,在多项像素级细粒度理解任务取得领先性能表现。和DAM-3B相比,轻量版的2B模型推理时间加快了4倍,显存占用减半,且训练数据量大大少于已有方法。



PixelRefer能够对任意目标实现准确语义理解以及时空物体区域理解。









  • 论文标题:
  • PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
  • 论文链接:
  • https://arxiv.org/abs/2510.23603
  • 项目网站链接:
  • https://circleradon.github.io/PixelRefer/
  • 代码链接:
  • https://github.com/DAMO-NLP-SG/PixelRefer

先验分析:大模型“如何看懂区域”?

为了探索解决以上问题,作者基于通用视觉基础模型采用最直接的设计:将全局视觉token+像素级区域token+文本token一起喂给 LLM。当无物体指代区域时,模型则退化成通用视觉理解任务,从而实现区域理解的同时,保留通用模型本身的通用理解能力。

作者对LLM内从浅层到深层中分析视觉token、区域token以及其他类型token进行可视化分析。本文可以发现从浅层到深层,答案(Ans)优先关注像素级区域token,其attention分数一直很高,说明物体token表征对于模型的回答起到重要的作用。此外,全局图像token(vision)则仅在浅层中(第一层)表现出较高的attention分布(Answer-to-image token attention),LLM的深层则表现较弱,甚至没有影响,这个在通用视觉基础模型研究中也被讨论到。



浅层到深层的attention可视化

基于此分析,作者得出两种设计方案:

  1. 高质量像素级物体表征很重要:对于像素级区域的表达,语义丰富的区域表征直接决定像素级语义理解的质量;
  2. 全局信息的冗余可以通过“预融合”优化:在 LLM 深层阶段,全局视觉标记的作用显著减弱,在深层阶段反而变得冗余,说明其信息可提前注入对象标记中,以大幅减少计算开销。

方法设计

为此,作者针对像素级细粒度理解定义了两种框架,Vision-Object Framework (a)与Object-Only Framework (b):



PixelRefer(Vision-Object Framework)

对于PixelRefer,作者把全局视觉token+像素级区域token+文本token一起送入 LLM,既保留场景语境,又在对象级上精细推理。关键在于像素级区域表征token质量足够高。为此,作者提出尺度自适应对象分词器(Scale-Adaptive Object Tokenizer, SAOT) 来生成精确、紧凑、语义丰富的对象表示。

SAOT 围绕两个设计:(i)小目标容易在patch化后丢失细节;(ii)大目标的特征冗余严重

核心做法分三步:

  1. 动态尺度处理(Dynamic Object Processing)。按像素级区域大小自适应地放大小物体、缩小大物体,并进行上下文扩展(在目标周围留出一定背景),保证既不丢细节也不过度冗余。随后通过共享视觉编码器取到区域级特征。
  2. 位置感知的掩码特征抽取(Mask Feature + Relative Positional Encoding)。对区域内的有效特征做掩码并叠加相对坐标投影,形成位置感知的对象token,为后续推理提供“这片语义在图像哪里”的线索。作者还为被裁剪/扩展后的区域加入相对位置编码来缓解对齐歧义,使对象token具备空间感知。
  3. 冗余聚合(Abundant Feature Aggregation)。对大/同质区域里高度相似的token,采用k-means 聚类合并,只保留n 个代表性token,既压缩冗余又保留多视角细节。这一步实证上显著降低了对象内部token的相似度,提高了表示“紧致度”。




PixelRefer-Lite (Object-Only Framework)

该变体仅使用对象标记进行 LLM 推理,借助对象中心信息融合模块(Object-Centric Infusion Module, OCI)将全局特征在前处理阶段融合入对象表示中。通过 Local-to-Object 和 Global-to-Object Attention,使目标的表征同时具备细节感知与全局语义,从而实现更完整的上下文融合。这样一来,推理阶段无需再使用全局视觉标记,显著降低显存与时间消耗,同时保持语义一致性与理解精度。



PixelRefer-Lite 实现了一个高效的推理框架,在保持高性能的同时将推理速度提升约 2–3 倍。

数据集

作者收集并开源了用于训练的两类数据集,分别是Foundational Object Perception(140万样本):涵盖物体、部件、时序关系的识别与描述以及Visual Instruction Tuning(80万样本):覆盖区域QA、视频QA、多对象关系与未来事件预测QA。



性能结果

  • 对于图像像素级细粒度理解benchmark



PixelRefer在多个图像理解benchmark上已达到SOTA水平,不论是简单的区域识别还是详细理解,已成为最先进的模型,特别是在reasoning场景下,更是展现出了突出优势。

  • 对于视频像素级细粒度理解benchmark



在经典的VideoRefer-Bench上,不论是视频区域的caption还是QA,均取得了领先性能,展现了通用而又全面的能力。

  • 对于推理时间与效率的计算



在基于图片的benchmark DLC-Bench和基于视频的benchmark上HC-STVG上均进行了测评,轻量版的PixelRefer-Lite-2B模型有较大的领先优势,特别是在视频上,相较于DAM-3B,推理时间缩短了约4倍,显存占用减少了2倍。

  • 消融实验:Scale-adaptive Object TokenizervsMaskPooling



  • 相较于之前简单maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模块有明显的提升,特别是在小目标理解上,在LVIS和DLC-Bench上均提升了十几个点。

  • 消融实验:对于区域token的表征个数



研究意义与总结

PixelRefer的出现,标志着AI视觉理解从“看懂一张图”迈向“理解世界的细节动态”,为多模态大模型的精细化视觉理解提供了新的方向。应用前景包括:

  • 自动驾驶的时序场景识别
  • 医疗影像的病灶级理解
  • 智能视频剪辑与监控
  • 多模态对话与人机交互

未来的多模态AI,不仅会“看见世界”,更会理解世界的关系。PixelRefer的提出,正是通向通用视觉智能的一块关键拼图。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

健康科普365
2025-12-18 10:01:25
外媒:卢卡申科首次访问朝鲜

外媒:卢卡申科首次访问朝鲜

参考消息
2026-03-25 19:37:47
这辈子走不出牢门,尹锡悦报复李在明的手段,就只剩下折磨狱警了

这辈子走不出牢门,尹锡悦报复李在明的手段,就只剩下折磨狱警了

奥字侃剧
2026-03-26 11:07:34
青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

林子说事
2026-03-26 13:57:35
开火之日就是全军覆灭之时!万万没想到,菲律宾导弹已经瞄准台海

开火之日就是全军覆灭之时!万万没想到,菲律宾导弹已经瞄准台海

黑翼天使
2026-03-24 07:50:52
1971年,陈毅在病房拍了照片,49岁的张茜,一脸憔悴和忧伤

1971年,陈毅在病房拍了照片,49岁的张茜,一脸憔悴和忧伤

抽象派大师
2026-03-26 10:57:02
事发48小时,日方终于表态了,中国小题大做,设套让日本往里钻?

事发48小时,日方终于表态了,中国小题大做,设套让日本往里钻?

我不叫阿哏
2026-03-26 16:46:00
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

阿凫爱吐槽
2026-03-25 15:24:29
《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

阿纂看事
2026-03-26 16:03:34
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
800亿!泉州首富家族,太可怕了

800亿!泉州首富家族,太可怕了

深蓝财经
2026-03-26 18:58:45
7000 家央国企春招,本科却成废纸?门槛高到离谱求职者彻底破防

7000 家央国企春招,本科却成废纸?门槛高到离谱求职者彻底破防

眼界看视野
2026-03-24 11:00:18
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

林轻吟
2026-03-25 19:25:45
勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

司峰阿道
2026-03-26 14:45:09
伊朗伊斯兰革命卫队海军指挥官身亡

伊朗伊斯兰革命卫队海军指挥官身亡

财联社
2026-03-26 16:23:15
张雪峰离世不到48小时,治丧组曝光追悼会内幕,女儿成了“心病”

张雪峰离世不到48小时,治丧组曝光追悼会内幕,女儿成了“心病”

丁丁鲤史纪
2026-03-26 14:49:19
第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

健身狂人
2026-03-26 10:14:34
“能劝一个是一个,海肠捞饭就是智商税”

“能劝一个是一个,海肠捞饭就是智商税”

风味人间
2026-03-26 13:32:37
真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

金山话体育
2026-03-26 08:29:20
伊朗武装部队向以色列发射新一轮导弹

伊朗武装部队向以色列发射新一轮导弹

财联社
2026-03-26 19:42:42
2026-03-26 21:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
房产
亲子
艺术
公开课

手机要闻

15年经典落幕!MIUI正式停更,澎湃OS全面接棒

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

亲子要闻

你好,我是馒头,快开门!

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版