网易首页 > 网易号 > 正文 申请入驻

颜水成团队等联合发布PaDT多模态大模型:实现真正多模态表征输出

0
分享至



近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时,现有模型却常常「力不从心」。其根本原因在于:当前主流 MLLMs 仍依赖将视觉目标「翻译」成文本坐标(如 [x1, y1, x2, y2] )的方式进行输出。

这种方式不仅存在格式混乱、解析困难,还容易因数字被拆分成多个独立文本 token(如 489 -> 4, 8, 9),导致语义丢失、图文脱节,从而出现重复生成甚至「幻觉」现象。

针对这一核心瓶颈,新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 颜水成带队,携同华南理工大学、新加坡科技研究局(A*STAR)I2R 研究所、腾讯 WeChat Vision 等机构的研究团队,提出了一种全新的统一范式 —— Patch-as-Decodable Token(PaDT)。

PaDT 的核心思想很简单但颠覆性:

  1. 把图像划分成多个视觉小块(patch),并让模型可以直接生成这些小块对应的视觉令牌(Visual Reference Tokens, VRTs)。
  2. 在 MLLMs 的输入和输出端中,实现文本令牌与视觉令牌的无缝交替出现,让模型「说」图像内容就像「说」文字一样自然。
  3. 从而使模型不再「猜坐标」,而能在生成句子中直接指出图像目标。

凭借这一设计,PaDT 在检测、分割、指代表达等任务上全面刷新 SOTA,甚至以仅 3B 参数的小模型超越了 78B 的 InternVL3!



  • 论文链接:https://huggingface.co/papers/2510.01954
  • 代码地址:https://github.com/Gorilla-Lab-SCUT/PaDT
  • 模型权重:https://huggingface.co/PaDT-MLLM
  • PaperScope 解读:https://www.paperscope.ai/hf/2510.01954

PaDT 的核心思想:从「说坐标」到「指图像」

传统 MLLMs(如 Qwen2.5-VL、InternVL3)在处理视觉任务时,通常将检测框的坐标以字符串形式输出。例如,模型可能会生成 「 [489, 120, 600, 300] 」。然而,这种做法存在三大痛点:

  1. 格式不一致:同一 Prompt 作为输入,不同样本可能生成绝对坐标、归一化坐标、甚至非结构化文本格式,极大地增加目标解析难度;
  2. 语义断裂:数字「489」会被拆成「4」「8」「9」三个独立 token,破坏了空间连续性;
  3. 图文关联弱:坐标数字 token 本身不含语义,难以与图像内容建立深层关联,从而容易导致重复或幻觉生成。



图 1:(a) 传统方法输出格式混乱;(b) Qwen2.5-VL 的 Token Activation Map 显示坐标 token 与图像区域关联弱;(c) PaDT 的 VRTs 与目标区域高度对齐;(d) 单个 VRT 的热力图显示其预测具有空间连续性。

PaDT 的突破在于:不再让模型「描述」位置,而是让它「指向」图像中的具体区域。

具体而言,PaDT 引入了Visual Reference Tokens(VRTs)—— 这些令牌直接来源于输入图像的视觉 patch 嵌入。在每次前向传播中,模型会动态地将当前图像的 patch 特征扩展进文本词表,形成一个「图文一体」的动态嵌入表。这样,模型在生成过程中,既可以输出文字(如类别名),也可以插入 VRT(如

),后者直接对应图像中的某个局部区域。



图 2:PaDT 实现了文本 token 与视觉 patch token 的统一预测,使 MLLM 能同时输出语义描述与空间定位。

这种设计巧妙地避开了传统方法依赖全局视觉码本(如 ClawMachine)的缺陷 —— 后者容易混淆相似物体,且可能生成图像中根本不存在的 patch。而 PaDT 的 VRTs仅来自当前图像,天然具备唯一性和空间一致性。

轻量解码器 + 鲁棒训练:让 VRTs 真正「生效」

仅有 VRTs 还不够,如何将其转化为具体的检测框或分割掩码?PaDT 设计了一个轻量级的 PaDT Decoder,仅由三个双向注意力块组成。该解码器接收 LLM 输出的 VRT 隐藏状态,通过注入任务特定的可学习 token(如 box token、mask token 和 score token),即可统一解码出 bounding box、segmentation mask 和置信度分数。

更关键的是,PaDT 提出了一套鲁棒的训练策略。传统方法往往要求模型预测目标区域内的所有前景 patch,但这会导致训练偏差和过拟合。PaDT 则在每次训练时随机采样少量(如 5 个)前景 VRTs 作为监督信号,并通过一种掩码交叉熵损失,动态屏蔽未选中的 VRT logits,从而鼓励模型探索多样化的有效视觉参考。

这种「少而精」的监督方式,不仅提升了模型泛化能力,还显著降低了推理时的 token 消耗 —— 每个目标仅需 5 个 VRTs,远少于逐字符生成坐标的开销。



图 3:PaDT 整体框架。图像 patch 特征经动态嵌入模块扩展为 VRTs,与文本 token 一同输入 LLM;输出序列中的 VRTs 被轻量解码器转换为结构化视觉结果。

性能炸裂:3B 模型干翻 78B 巨无霸

PaDT 的实验结果堪称惊艳。在RefCOCO/+/g的指代表达理解(REC)任务上,PaDT Pro(3B)以 93.6 的平均准确率,超越了参数量高达 78B 的 InternVL3(91.4)。而在指代表达分割(RES)任务中,PaDT 同样大幅领先,即便对比使用 SAM 等强大分割基础模型的方法(如 Text4Seg+SAM),依然保持优势。

更令人震撼的是在COCO 开放词汇检测任务上的表现。传统 MLLMs 在此任务上 mAP 普遍低于 20,而PaDT Pro(3B)一举将 mAP 推高至 38.2,几乎翻倍! 7B 版本更是达到 39.0 mAP,展现出极强的可扩展性。



图 4:PaDT 在 RefCOCO/+/g 的指代表达理解(REC)任务结果。PaDT Pro (3B) 以 93.6 的平均准确率,超越了参数量高达 78B 的 InternVL3(91.4)。



图 5:PaDT 在 RefCOCO/+/g 的指代表达分割(RES)任务结果。PaDT 依靠自带的轻量 decoder 轻松超越借助 SAM 强大分割基础模型的方法。



图 6:PaDT 在 COCO 开放词汇检测上的结果。PaDT Pro (3B) 一举将 mAP 推高至 38.2。

此外,团队还构建了一个新的Referring Image Captioning(RIC)数据集,要求模型在生成描述时显式关联对象 ID。PaDT 在此任务上同样大幅领先,CIDEr-D 分数从基线的 0.386 提升至 1.450,同时检测指标(GreedyPrecision 达 82.3%)也证明其生成的 caption 具备极强的视觉 grounding 能力。



图 7:Referring Image Captioning (RIC) 数据集。

为什么 PaDT 如此有效?

PaDT 的成功,源于其对 MLLM 视觉能力瓶颈的深刻洞察。它没有试图在文本空间内「拟合」视觉信息,而是将视觉 patch 本身作为可生成的 token,实现了模态间的原生对齐。

首先,动态嵌入机制确保了 VRTs 与当前图像的强绑定,避免了跨图像混淆;其次,统一的 token 空间让 LLM 能以相同的方式处理语言和视觉信息,简化了训练;最后,轻量解码器将复杂的 dense prediction 任务从 LLM 中解耦,既保留了 LLM 的语义推理能力,又赋予了其精准的空间输出能力。

值得一提的是,PaDT 还展现出强大的多任务泛化能力。通过联合训练 REC、RES、OVD 和 RIC 任务得到的PaDT Pro模型,仅通过切换 prompt 即可无缝切换任务,且性能普遍优于单任务模型,证明了该范式的通用性。

结语:迈向真正的通用多模态智能

PaDT 的提出,标志着 MLLMs 在细粒度视觉理解上迈出了关键一步。它不再满足于「看图说话」,而是能够「指图说话」—— 精准地指出图像中的每一个相关区域,并生成对应的结构化输出。

这项工作不仅在技术上实现了突破,更在理念上启发我们:未来的通用人工智能,或许不应强行将一切信息压缩到文本空间,而应允许不同模态以其最自然的形式共存与交互。

目前,PaDT 的代码和 checkpoints(模型权重)已开源。对于关注多模态、计算机视觉与大模型融合的研究者和工程师而言,这无疑是一个值得关注和尝试的新范式。

作者信息

苏永怡 (第一作者)



华南理工大学博四研究生,A*STAR I2R 访问学者,主要研究多模态大语言模型、基础视觉模型、测试时领域适应课题。

  • 作者个人主页:https://yysu.site/

张浩杰 (共同一作)



华南理工大学三年级研究生,微信视觉团队实习生。主要研究多模态大模型、视频生成模型、基础视觉模型。

  • 作者个人主页:https://zhang-haojie.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西方国家领导人为何密集访华?BBC记者解读很到位

西方国家领导人为何密集访华?BBC记者解读很到位

潇湘晨报
2026-01-31 22:11:12
随着克雷莫内塞0-2国际米兰,赛后评分出炉:国米7号排第一

随着克雷莫内塞0-2国际米兰,赛后评分出炉:国米7号排第一

侧身凌空斩
2026-02-02 02:56:06
DO:利物浦认为雅凯比格伊更有长期价值,所以努力签下他

DO:利物浦认为雅凯比格伊更有长期价值,所以努力签下他

懂球帝
2026-02-02 06:50:39
俄媒:美国为何恢复对乌供应“海马斯”?

俄媒:美国为何恢复对乌供应“海马斯”?

参考消息
2026-02-01 14:45:16
山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了

山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了

静若梨花
2026-02-01 16:39:42
雷克萨斯急了!ES“偷偷摸摸”降10万,网友:你早干嘛去了?

雷克萨斯急了!ES“偷偷摸摸”降10万,网友:你早干嘛去了?

少数派报告Report
2026-02-01 07:21:08
山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

观察鉴娱
2026-02-01 15:02:49
辞职看世界女老师11年后现状:黯然回乡,老公已分手

辞职看世界女老师11年后现状:黯然回乡,老公已分手

咸鱼金脑袋
2026-01-17 07:06:46
爆大冷!埃梅里耻辱一战:多踢1人主场落败,争冠形势迅速恶化

爆大冷!埃梅里耻辱一战:多踢1人主场落败,争冠形势迅速恶化

足球狗说
2026-02-02 00:19:11
100元纸币,这种麒麟号码,1张价值58000元!

100元纸币,这种麒麟号码,1张价值58000元!

小陈收藏社
2026-02-01 14:14:44
边防哨所里站了个插兜的兵,印军凑近又退缩,沉默比喊话更让人记住

边防哨所里站了个插兜的兵,印军凑近又退缩,沉默比喊话更让人记住

网络易不易
2026-02-01 06:05:19
骇人听闻!网传莱州一工厂规定工人1天2次集体如厕,每次5-8分钟

骇人听闻!网传莱州一工厂规定工人1天2次集体如厕,每次5-8分钟

火山诗话
2026-02-01 17:25:12
回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

阿纂看事
2026-01-09 09:48:35
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

来科点谱
2026-01-13 08:54:22
赵露思现身上海恒隆广场,这美貌直接鲨疯了,美到让人窒息!

赵露思现身上海恒隆广场,这美貌直接鲨疯了,美到让人窒息!

东方不败然多多
2026-02-01 19:18:19
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
难怪咸丰帝31岁暴毙,你看他逃往热河干了啥?每天都做4件致命事

难怪咸丰帝31岁暴毙,你看他逃往热河干了啥?每天都做4件致命事

百年历史老号
2024-06-14 01:27:29
自斯帕莱蒂上任以来,尤文意甲积分和进球数仅次于国米

自斯帕莱蒂上任以来,尤文意甲积分和进球数仅次于国米

懂球帝
2026-02-02 06:18:09
亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

亲家有没有钱,一看便知:没钱的亲家,大多有以下4个坏习惯

千秋文化
2025-12-03 10:05:36
郑爽彻底垮了!抱娃与张恒当街互撕,穿搭邋遢状态诡异疑精神失常

郑爽彻底垮了!抱娃与张恒当街互撕,穿搭邋遢状态诡异疑精神失常

八卦王者
2026-02-01 21:14:07
2026-02-02 07:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
时尚
本地
手机
数码

教育要闻

语不惊人死不休,立刚反对学英语有些着魔了,又出新谬论

“多巴胺风”又又又火了!这样穿时髦又减龄

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

手机要闻

首发2nm芯片 三星S26系列还会是安卓机皇吗?

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

无障碍浏览 进入关怀版