网易首页 > 网易号 > 正文 申请入驻

3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务

0
分享至



多模态大语言模型(MLLM)在目标定位精度上被长期诟病,难以匹敌传统的基于坐标回归的检测器。近日,来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni,打破了这一僵局。



该模型将所有视觉感知任务统一为「下一个点预测」,并结合高效的 4-Token 坐标编码和两阶段 GRPO 强化学习后训练。在 COCO、LVIS 等核心检测基准的零样本评估下,Rex-Omni 的性能超越了 Grounding DINO,DINO 等基于坐标回归模型的。它系统解决了 MLLM 的定位和行为缺陷,在目标检测、指代、点选、GUI 定位、OCR、版面分析等 10 多项任务上实现 SOTA 的性能,预示着下一代强语言理解的感知系统的到来。



  • 主页:https://rex-omni.github.io/
  • 论文链接:https://arxiv.org/pdf/2510.12798
  • 开源代码:https://github.com/IDEA-Research/Rex-Omni

目标检测的「金杯」与两大模型范式核心困境



传统模型与 MLLM 模型在目标检测上各自的困境

目标检测领域的一个长远目标,就是构建一个能够根据任意自然语言提示,检测任意物体或概念,且无需任何微调的通用模型,这便是目标检测的「金杯」。长期以来,目标检测一直由基于回归的模型主宰,例如 DETR 和 Grounding DINO 等。这类模型的优势在于极高的定位精确度,但其本质受限于相对较浅的语言理解能力。例如,当用户提示 Grounding DINO 检测「红苹果」时,它仍然只能检测出图像中的所有苹果。简单地依赖这种基于类别级别的开放集检测方法,无法满足对复杂语义和精细描述的理解要求,难以实现真正的「金杯」。

另一方面,MLLM(如 Qwen2.5-VL, SEED1.5-VL) 因其底层的 LLM 具有强大的语言理解和推理能力,为实现这一目标带来了希望。它们将坐标视为离散的 Token,用交叉熵进行分类预测。然而,这种概念上优雅的方法在实践中面临两大根本挑战,导致其定位能力远未达到传统回归检测器的水平,并容易出现低召回率、坐标偏移和重复预测等问题:

  • 几何离散化挑战: MLLM 将连续的像素坐标视为离散分类任务,并依赖交叉熵损失。这与空间几何的连续性本质不符。即使离散坐标预测中存在微小偏差,也可能导致巨大的交叉熵损失,极大地阻碍了精确定位。
  • SFT 行为调控缺陷: MLLM 通常采用 Teacher-Forcing 的 SFT 训练方式。这种范式导致模型在推理时,缺乏对自身输出结构的有效调控,无法自主决定对象数量或避免冗余输出,从而引发重复预测或漏检等行为缺陷。

要推动 MLLM 成为下一代检测模型,就必须系统性地克服这两个相互交织的根本挑战。

Rex-Omni 核心突破:三大设计重塑 MLLM 定位范式

Rex-Omni 的建立在三项相互支撑的设计之上,包括任务设计,数据设计,训练 pipeline 设计,它们系统性地解决了 MLLM 的定位精度和行为缺陷,实现了「强大的语言理解」与「精确的几何感知」的融合:

1. 输出形式与任务设计: 量化坐标 + 特殊 Token 形式



Rex-Omni 采用了量化坐标 + 特殊 token 的坐标表征形式

首先,为了解决「几何离散化挑战」,Rex-Omni 提出了一个统一的「下一个点预测」框架,将所有视觉感知任务(包括检测、点选、多边形输出)都转化为坐标序列的生成。



专有 Token + 量化相对坐标: Rex-Omni 采用量化相对坐标,将图像坐标值(0 到 999)离散化,并为这 1000 个值在 LLM 词汇表中分配了专用的特殊 Token(如 <0> 到 <999>)。



在模型结构上,Rex-Omni 采用了标准的 Qwen2.5-VL-3B 的架构。唯一的改动是把 Qwen2.5-VL-3B 词表中最后 1000 个不常用的 token 转换为了代表坐标的特殊 token <0> 到 <999>。



Rex-Omni 模型结构示意图

2. 多种数据引擎:Grounding,Referring,Pointing 等



接下来,为确保模型能够将离散 Token 精确映射到连续像素,并具备鲁棒的语言理解能力,团队构建了多个定制化数据引擎(包括 Grounding、Referring、Pointing 和 OCR 数据引擎),以自动化方式生成了大规模、高质量的训练监督信号。

  • 丰富语义信息: 数据引擎不仅生成类别标签,还提供语义丰富的指代表达式和点级监督,为模型提供了深层次、实例级别的语义富含的监督信号。
  • 规模与质量: 通过整合公共数据集和定制引擎生成的数据,Rex-Omni 共在 2200 万张高标注质量的图像样本上进行了训练,为精细的空间推理能力奠定了数据基础。

3. SFT + GRPO 两阶段训练方法



这是 Rex-Omni 达成高精度定位和克服行为调控缺陷的关键。它采用了 SFT + GRPO 的两阶段训练范式:

  • SFT(第一阶段): 在 2200 万数据上进行基本的监督微调,赋予模型基础的坐标预测技能。
  • GRPO(第二阶段): 在 66K 数据上采用基于 GRPO 的强化学习后训练。

GRPO 通过引入几何感知奖励函数(如 IoU 奖励、点在掩码内奖励等)和行为感知优化,直接在模型自主生成的序列上进行反馈学习,从而系统性地解决了 SFT 阶段遗留的两大挑战:

  • 行为缺陷的终结: GRPO 有力地抑制了 SFT 训练带来的重复预测、漏检和大框预测等「坏习惯」,让模型学会自主决定对象数量并生成连贯、高质量的输出序列。
  • 几何精度的精炼: 强化学习奖励直接与连续的几何指标(如 IoU)挂钩,弥合了离散 Token 预测与连续几何精度之间的差距,实现了对 SFT 所获定位能力的进一步提炼。

实验结果表明,GRPO 并非简单的额外训练,而是解锁了 SFT 模型中强大的潜在能力,仅用少量训练步骤就带来了性能的快速、大幅提升,成为 Rex-Omni 超越传统检测器的重要推手。

4. 实验结果:零样本检测性能首度「超车」,全能感知力 SOTA

1)通用以及长尾目标检测性能评估

在通用目标检测 COCO 和 LVIS 等核心检测基准的零样本评估(不在评估 benchmark 的训练集上进行训练)设置下,Rex-Omni 的性能出色:Rex-Omni 的 F1-score(特别是 F1@IoU=0.5)首次展现出超越 Grounding DINO等开放集专家模型的能力,并与 DINO 等传统封闭集模型持平或更高。这有力证明了离散预测的 MLLM,在精确的定位能力上完全可以与回归专家模型正面竞争。



COCO 评估结果



LVIS 评估结果



可视化结果可以看到,Rex-Omni 无论是定位框的精准度还是分类精准度都与传统模型如 Grounding DINO 不相上下。

2)密集以及小物体检测性能评估

密集场景是 MLLM 的传统弱项,极度依赖于模型的精细坐标预测和输出调控能力。在 VisDrone 和 Dense200 等极具挑战的密集 / 微小目标检测任务上,Rex-Omni 取得了 MLLM 中的最高性能: Rex-Omni 的 F1@mIoU 性能在 MLLM 中居于榜首。GRPO 强化学习后训练为模型带来了实质性的性能飞跃,解决了 SFT 阶段容易产生的结构化重复预测等问题,使模型能够精准识别和定位大量微小对象。如下图所示,Rex-Omni 能够准确地检测出大量密集物体,且得益于其 4-Token 坐标编码,相比于 SEED1.5-VL 等模型,Rex-Omni 在输出相同数量目标时,耗费的 Token 数减少了 90% 以上,极大保障了在密集场景下的推理速度和效率。





3)全能制霸:统一框架下实现对多任务的通用处理

Rex-Omni 在一个统一的「下一个点预测」框架内,实现了对各种视觉感知任务的通用处理,并展现出强大的竞争力:

  • 对象指代(Referring Object Detection): 在 RefCOCOg 和 HumanRef 等指代表达理解任务上,MLLM 普遍优于传统开放集检测器。Rex-Omni 取得了领先的高度竞争性性能,再次印证了 MLLM 在语义理解和视觉对齐上的天然优势。





  • 对象点选(Object Pointing): 该任务评估模型对精确点坐标的预测能力。Rex-Omni 在 COCO、LVIS、VisDrone 等所有测试数据集上均取得 F1-Score 领先成绩(MLLM 中最高),充分展示了其强大的精细空间定位能力。



  • 复杂空间指代(RefSpatial-Bench): 在要求模型进行推理来定位对象或自由空间(如「在桌上、键盘左侧」)的任务中,Rex-Omni 在 MLLM 中表现突出,其泛化能力更胜一筹。
  • GUI 与 OCR: 在 GUI 定位和布局分析任务中,Rex-Omni 表现出卓越的跨场景泛化能力。在 OCR 的 BBOX 输出上,Rex-Omni 性能也与专用专家模型 PaddleOCRv5 具有高度竞争力。





深度分析:GRPO 如何「解锁」MLLM 的定位潜能?

为什么仅用少量数据进行 GRPO 后训练,就能带来如此显著的性能飞跃?论文通过深入分析揭示了其背后的机制:

1. 解锁潜在能力,而非从零学习



在不同训练阶段的模型性能随着训练数据增加的变化

如上图所示,SFT 阶段模型的性能随数据量增加而平稳上升并逐渐趋于平台期。然而,GRPO 阶段仅需极少的训练步骤,就能使性能曲线出现陡峭的跃升。

这表明,SFT 模型实际上已经具备了强大的定位「潜能」,但受限于「教师强制」的训练方式,这些潜能在自主推理时未能充分释放。GRPO 就像一把钥匙,通过奖励反馈解锁了这些潜在能力。

2. 核心贡献:是「行为矫正」,而非单纯的「像素微调」

深入分析发现,GRPO 对最终性能的贡献,主要来自于对模型错误行为的系统性矫正,而非仅仅是让坐标精度提高几个像素:

  • 消除重复预测: SFT 模型由于缺乏自主调节输出的能力,极易产生大量重复框。实验显示,若手动删除 SFT 输出中的重复项,其性能会有显著提升。而 GRPO 模型几乎自动学会了避免这种重复,无需后处理。
  • 纠正「大框」谬误: 在密集场景下,SFT 模型倾向于「偷懒」,预测一个覆盖全图的大框(占比高达 20.5%)。GRPO 通过几何奖励强力抑制了这种行为(降至 3.5%),迫使模型去啃「硬骨头」,精准定位每一个微小目标。



3. 提升高质量输出的「采样概率」

研究还发现,SFT 模型其实有能力生成非常精准的预测(在 Top-N 采样中往往包含高质量答案),但在贪心解码时却往往选择了次优解。GRPO 的作用在于显著提升了模型采样到那些高质量、正确答案的概率,使其在实际应用中更可靠。

总结

Rex-Omni 的工作为 MLLM 在视觉感知领域带来了系统性的解决方案。它通过高效的坐标编码和 SFT+GRPO 两阶段训练范式,成功证明了 MLLM 能够克服离散预测所带来的几何和行为局限性,实现了精确几何感知与鲁棒语言理解的有效融合。Rex-Omni 在零样本目标检测任务上,首次展现出超越传统回归专家模型的潜力,并在指代、点选、GUI 等多项任务中实现了强大的通用处理能力,这不仅为 MLLM 领域树立了新的性能标杆,更重要的是,它提供了一套可行的、具有竞争力的范式,表明 MLLM 有望成为结合语义推理与精确定位能力的统一模型。Rex-Omni 为下一代目标检测模型的构建,提供了一个有力的基线和发展方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
确认了!郇斯楠重磅加盟!预测NBA首轮第12号秀

确认了!郇斯楠重磅加盟!预测NBA首轮第12号秀

篮球实战宝典
2025-11-13 17:31:19
ESPN:上海海港已得知奥斯卡心脏问题,愿意为其提供治疗帮助

ESPN:上海海港已得知奥斯卡心脏问题,愿意为其提供治疗帮助

懂球帝
2025-11-13 11:12:07
全运会乒乓球:决赛对阵出炉!蒯曼4:1进决赛,与刘诗雯争夺冠军

全运会乒乓球:决赛对阵出炉!蒯曼4:1进决赛,与刘诗雯争夺冠军

国乒二三事
2025-11-13 18:54:26
李亚鹏做梦也没想到,心中这口恶气让向太给出了,窦靖童一语成谶

李亚鹏做梦也没想到,心中这口恶气让向太给出了,窦靖童一语成谶

悦君兮君不知
2025-11-12 22:37:54
破产后,王中磊搬新家还住别墅,院子稀稀拉拉,老婆叹回不到以前

破产后,王中磊搬新家还住别墅,院子稀稀拉拉,老婆叹回不到以前

妙知
2025-11-13 17:13:34
认真刷完曾医生和祖院长的视频,谁看了不说一句窒息?

认真刷完曾医生和祖院长的视频,谁看了不说一句窒息?

诗意世界
2025-11-10 18:51:56
章泽天和朱珠同框,才发现女人到中年,幸不幸福都写在脸上

章泽天和朱珠同框,才发现女人到中年,幸不幸福都写在脸上

娱乐圈笔娱君
2025-11-13 16:07:46
环京房子,遍地白菜价,最低几万块一套

环京房子,遍地白菜价,最低几万块一套

石辰搞笑日常
2025-11-13 14:59:43
世界最严重的工程错误,耗费巨资成烂账,中国占俩,让央媒都愤怒

世界最严重的工程错误,耗费巨资成烂账,中国占俩,让央媒都愤怒

娱乐圈见解说
2025-11-12 15:07:01
副院长与门诊副主任不雅照,背后的警示?

副院长与门诊副主任不雅照,背后的警示?

小小一米月儿
2025-11-08 08:57:20
全运会女足神剧情?点球大战双方8轮罚丢9球!湖北1天内双杀广东

全运会女足神剧情?点球大战双方8轮罚丢9球!湖北1天内双杀广东

我爱英超
2025-11-13 22:20:07
当年“五星红旗”仅得5票,而三号作品得了342票,为何选了前者

当年“五星红旗”仅得5票,而三号作品得了342票,为何选了前者

浩渺青史
2025-11-12 18:34:03
残忍的基因选择:父母如果有这9种疾病,后代的基因大概率也会有

残忍的基因选择:父母如果有这9种疾病,后代的基因大概率也会有

诗意世界
2025-11-12 21:56:31
国台办表态,积极探索两制台湾方案,吕秀莲称,我们宁愿一个中华

国台办表态,积极探索两制台湾方案,吕秀莲称,我们宁愿一个中华

科普100克克
2025-11-13 12:30:12
预计补偿13万/㎡!上海又有小区,要拆了…

预计补偿13万/㎡!上海又有小区,要拆了…

新浪财经
2025-11-13 20:29:12
荷方代表是否已来华磋商安世半导体问题?商务部回应

荷方代表是否已来华磋商安世半导体问题?商务部回应

财联社
2025-11-13 15:33:05
“3女带4孩续面”案将于下月开庭,面馆老板称“不接受调解,需当事人还原真相”,顾客马女士回应

“3女带4孩续面”案将于下月开庭,面馆老板称“不接受调解,需当事人还原真相”,顾客马女士回应

极目新闻
2025-11-13 10:20:58
10月飞度销量仅3台,最懂车的人还剩4个

10月飞度销量仅3台,最懂车的人还剩4个

大象新闻
2025-11-13 10:42:05
你敢扣,我早有后手!法国海关戴高乐机场扣二十万从中国寄来包裹

你敢扣,我早有后手!法国海关戴高乐机场扣二十万从中国寄来包裹

南权先生
2025-11-13 15:56:26
失业的负债的扎堆入局,网约车快成“难民营”了……

失业的负债的扎堆入局,网约车快成“难民营”了……

柴狗夫斯基
2025-11-11 10:25:06
2025-11-13 23:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11712文章数 142504关注度
往期回顾 全部

科技要闻

月产能突破百万片,中芯国际Q3净利增43.1%

头条要闻

网红博主称从柬飞北京丢失350万元手镯手表 警方介入

头条要闻

网红博主称从柬飞北京丢失350万元手镯手表 警方介入

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

本地
手机
旅游
时尚
公开课

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

手机要闻

曝 vivo旗舰电池升级,还有超大电池机型

旅游要闻

陆游诞辰900周年 绍兴陆游故里景区正式开放

被扫地出门的贵公子,真是活该

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版