Rex-Omni：用 3B 模型颠覆目标检测|回归|视觉|rex|omni|3b模型|深度思考模型

Rex-Omni：用 3B 模型颠覆目标检测

2025-10-15 17:20:11　来源: 带你学AI

广东举报

分享至

长期以来，目标检测主要依赖传统的坐标回归模型，比如 YOLO、DETR 和 Grounding DINO。虽然最近有人尝试用多模态大语言模型（MLLMs）来做目标检测，但这些方法普遍存在召回率低、重复预测、坐标不准确等问题。为了解决这些问题，IDEA研究院提出了Rex-Omni，这是一个拥有 30 亿参数的多模态大模型。在 COCO 和 LVIS 等数据集上，Rex-Omni 在零样本测试中表现甚至超过现有的回归模型。（使用链接在文章底部）

除了传统的目标检测功能，Rex-Omni还具备丰富的语言理解能力，使它能完成对象指认、指点、视觉提示、GUI 定位、空间指认、OCR 和关键点检测等任务。它的成功主要归功于三个设计：使用特殊 token 表示量化坐标，让模型更容易学习；构建高质量数据引擎，为训练提供丰富语义信息；以及两阶段训练流程—先进行大规模监督微调，再通过几何感知强化学习优化坐标预测，减少重复和不准确的情况。

Rex-Omni 将视觉感知重新定义为一个下一点预测问题，将多种视觉任务统一在一个生成框架内。它通过自回归的方式预测空间输出（例如边框、点、形状），并通过两阶段的训练流程进行优化。

Rex-Omni 构建于Qwen2.5-VL-3B 主干模型之上，仅进行了极少的结构改动。值得注意的是，原始词表中最后的 1,000 个 token 被重新定义为专用特殊 token，用于表示从 0 到 999 的量化坐标值。

Rex-Omni 的两阶段训练流程概述：第一阶段进行监督微调（SFT），在 2200 万条样本上训练，以建立基础的坐标预测能力。随后进入基于 GRPO 的强化后训练阶段，通过引入几何感知奖励和行为感知优化，进一步提升预测精度，并修正 SFT 阶段带来的行为偏差。

Rex-Omni 两个主要数据引擎的处理流程：上方为 Grounding 数据引擎，下方为Referring 数据引擎。这两个引擎经过专门设计，用于为Rex-Omni 的训练生成大规模、高质量的定位（grounding）和指代（referring）数据。

其任务包括目标检测、目标指代、图形用户界面和布局定位、目标与GUI指向、可操作性指向、视觉提示、OCR（如词框、文本行框、多边形框）识别、人物和动物关键点定位以及批量推理等。

https://github.com/IDEA-Research/Rex-Omni
https://arxiv.org/pdf/2510.12798
https://huggingface.co/spaces/Mountchicken/Rex-Omni

欢迎交流 ~，带你学习AI，了解AI

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.