长期以来,目标检测主要依赖传统的坐标回归模型,比如 YOLO、DETR 和 Grounding DINO。虽然最近有人尝试用多模态大语言模型(MLLMs)来做目标检测,但这些方法普遍存在召回率低、重复预测、坐标不准确等问题。为了解决这些问题,IDEA研究院提出了Rex-Omni,这是一个拥有 30 亿参数的多模态大模型。在 COCO 和 LVIS 等数据集上,Rex-Omni 在零样本测试中表现甚至超过现有的回归模型。(使用链接在文章底部)
除了传统的目标检测功能,Rex-Omni还具备丰富的语言理解能力,使它能完成对象指认、指点、视觉提示、GUI 定位、空间指认、OCR 和关键点检测等任务。它的成功主要归功于三个设计:使用特殊 token 表示量化坐标,让模型更容易学习;构建高质量数据引擎,为训练提供丰富语义信息;以及两阶段训练流程—先进行大规模监督微调,再通过几何感知强化学习优化坐标预测,减少重复和不准确的情况。
Rex-Omni 将视觉感知重新定义为一个下一点预测问题,将多种视觉任务统一在一个生成框架内。它通过自回归的方式预测空间输出(例如边框、点、形状),并通过两阶段的训练流程进行优化。
Rex-Omni 构建于Qwen2.5-VL-3B 主干模型之上,仅进行了极少的结构改动。值得注意的是,原始词表中最后的 1,000 个 token 被重新定义为专用特殊 token,用于表示从 0 到 999 的量化坐标值。
Rex-Omni 的两阶段训练流程概述:第一阶段进行监督微调(SFT),在 2200 万条样本上训练,以建立基础的坐标预测能力。随后进入基于 GRPO 的强化后训练阶段,通过引入几何感知奖励和行为感知优化,进一步提升预测精度,并修正 SFT 阶段带来的行为偏差。
Rex-Omni 两个主要数据引擎的处理流程:上方为 Grounding 数据引擎,下方为Referring 数据引擎。这两个引擎经过专门设计,用于为Rex-Omni 的训练生成大规模、高质量的定位(grounding)和指代(referring)数据。
其任务包括目标检测、目标指代、图形用户界面和布局定位、目标与GUI指向、可操作性指向、视觉提示、OCR(如词框、文本行框、多边形框)识别、人物和动物关键点定位以及批量推理等。
https://github.com/IDEA-Research/Rex-Omni
https://arxiv.org/pdf/2510.12798
https://huggingface.co/spaces/Mountchicken/Rex-Omni欢迎交流 ~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.