网易首页 > 网易号 > 正文 申请入驻

Rex-Omni:用 3B 模型颠覆目标检测

0
分享至

长期以来,目标检测主要依赖传统的坐标回归模型,比如 YOLO、DETR 和 Grounding DINO。虽然最近有人尝试用多模态大语言模型(MLLMs)来做目标检测,但这些方法普遍存在召回率低、重复预测、坐标不准确等问题。为了解决这些问题,IDEA研究院提出了Rex-Omni,这是一个拥有 30 亿参数的多模态大模型。在 COCO 和 LVIS 等数据集上,Rex-Omni 在零样本测试中表现甚至超过现有的回归模型。(使用链接在文章底部)

除了传统的目标检测功能,Rex-Omni还具备丰富的语言理解能力,使它能完成对象指认、指点、视觉提示、GUI 定位、空间指认、OCR 和关键点检测等任务。它的成功主要归功于三个设计:使用特殊 token 表示量化坐标,让模型更容易学习;构建高质量数据引擎,为训练提供丰富语义信息;以及两阶段训练流程—先进行大规模监督微调,再通过几何感知强化学习优化坐标预测,减少重复和不准确的情况。

Rex-Omni 将视觉感知重新定义为一个下一点预测问题,将多种视觉任务统一在一个生成框架内。它通过自回归的方式预测空间输出(例如边框、点、形状),并通过两阶段的训练流程进行优化。

Rex-Omni 构建于Qwen2.5-VL-3B 主干模型之上,仅进行了极少的结构改动。值得注意的是,原始词表中最后的 1,000 个 token 被重新定义为专用特殊 token,用于表示从 0 到 999 的量化坐标值。

Rex-Omni 的两阶段训练流程概述:第一阶段进行监督微调(SFT),在 2200 万条样本上训练,以建立基础的坐标预测能力。随后进入基于 GRPO 的强化后训练阶段,通过引入几何感知奖励行为感知优化,进一步提升预测精度,并修正 SFT 阶段带来的行为偏差。

Rex-Omni 两个主要数据引擎的处理流程:上方为 Grounding 数据引擎,下方为Referring 数据引擎。这两个引擎经过专门设计,用于为Rex-Omni 的训练生成大规模、高质量的定位(grounding)和指代(referring)数据。

其任务包括目标检测、目标指代、图形用户界面和布局定位、目标与GUI指向、可操作性指向、视觉提示、OCR(如词框、文本行框、多边形框)识别、人物和动物关键点定位以及批量推理等。

https://github.com/IDEA-Research/Rex-Omni
https://arxiv.org/pdf/2510.12798
https://huggingface.co/spaces/Mountchicken/Rex-Omni

欢迎交流 ~,带你学习AI,了解AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
祖院长原配护士长高颜值照流出,气质不输曾医生,发声原谅丈夫

祖院长原配护士长高颜值照流出,气质不输曾医生,发声原谅丈夫

文史道
2025-11-11 06:45:03
20GB内存!华为Mate X8成本不低

20GB内存!华为Mate X8成本不低

安兔兔
2025-11-13 22:39:50
当年“五星红旗”仅得5票,而三号作品得了342票,为何选了前者

当年“五星红旗”仅得5票,而三号作品得了342票,为何选了前者

浩渺青史
2025-11-12 18:34:03
这么多年,终于等到这部A级大片

这么多年,终于等到这部A级大片

独立鱼
2025-11-13 22:40:28
大跳水!暴跌60%!

大跳水!暴跌60%!

鲁中晨报
2025-11-13 11:11:44
厦门又一培训机构跑路,一百多位家长退费难

厦门又一培训机构跑路,一百多位家长退费难

Yes厦门
2025-11-12 16:51:24
高价墓地开始滞销了,殡葬业集体亏损,网友:大家都想明白了!

高价墓地开始滞销了,殡葬业集体亏损,网友:大家都想明白了!

毒sir财经
2025-10-20 23:23:48
荒野求生谁能夺冠?冷美人没戏,蜜蜂哥是狠角色,缺盐成最大难题

荒野求生谁能夺冠?冷美人没戏,蜜蜂哥是狠角色,缺盐成最大难题

可乐谈情感
2025-11-13 00:31:45
女高中生发明“咯噔字体”,被老师0分警告:别挑战考试的底线

女高中生发明“咯噔字体”,被老师0分警告:别挑战考试的底线

妍妍教育日记
2025-11-10 18:21:35
“两核四常”,中国航母开始两条腿走路模式!

“两核四常”,中国航母开始两条腿走路模式!

杨风
2025-11-12 21:57:05
前TVB小生地铁被偶遇!染金发挺肚腩!网友盛赞:胖了还是帅

前TVB小生地铁被偶遇!染金发挺肚腩!网友盛赞:胖了还是帅

我爱追港剧
2025-11-13 08:07:42
荒野手艺人张老六请假参赛,公司领导:请假期间工资照发,进决赛还有奖励

荒野手艺人张老六请假参赛,公司领导:请假期间工资照发,进决赛还有奖励

极目新闻
2025-11-12 13:59:17
决赛蝶后VS小孩姐!女子200蝶半决赛:于子迪张雨霏前2名晋级

决赛蝶后VS小孩姐!女子200蝶半决赛:于子迪张雨霏前2名晋级

全景体育V
2025-11-13 20:29:16
夏洛特公主新照:10岁身高1米6,腿形超美,温莎优越基因都归她了

夏洛特公主新照:10岁身高1米6,腿形超美,温莎优越基因都归她了

夜深爱杂谈
2025-11-12 23:25:16
通告!网约车运输证12月31日后停止办理

通告!网约车运输证12月31日后停止办理

用车指南
2025-11-13 10:00:48
面子里子都丢了!离婚半月前妻爆料调解细节,撕下猴哥仅剩的体面

面子里子都丢了!离婚半月前妻爆料调解细节,撕下猴哥仅剩的体面

千言娱乐记
2025-10-23 21:21:23
被辛芷蕾反击后,“一言不发”的郝蕾,终于不再顾忌所谓的体面

被辛芷蕾反击后,“一言不发”的郝蕾,终于不再顾忌所谓的体面

查尔菲的笔记
2025-11-11 21:06:46
蔡正元露出真面目后,大陆官媒一句话给他定性,郑丽文再得强援

蔡正元露出真面目后,大陆官媒一句话给他定性,郑丽文再得强援

谛听骨语本尊
2025-11-12 16:18:16
就在刚刚,11月13日,传来斯诺克冠中冠,中国双雄冲击四强的消息

就在刚刚,11月13日,传来斯诺克冠中冠,中国双雄冲击四强的消息

小鬼头体育
2025-11-13 13:47:52
阿里股价直线拉升!“通义千问”全面对标ChatGPT,进军C端市场

阿里股价直线拉升!“通义千问”全面对标ChatGPT,进军C端市场

华尔街见闻官方
2025-11-13 14:39:55
2025-11-13 23:39:00
带你学AI
带你学AI
分享最前沿AI知识,先进的AI工具
372文章数 8关注度
往期回顾 全部

科技要闻

月产能突破百万片,中芯国际Q3净利增43.1%

头条要闻

美方回应高市早苗“台湾有事”言论 中方表态

头条要闻

美方回应高市早苗“台湾有事”言论 中方表态

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

游戏
健康
本地
数码
公开课

跳票半年月多花六千万美元?GTA6打磨品质成本超高

血液科专家揭秘白血病七大误区

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

数码要闻

英特尔 XeSS SDK 升级至 2.1.1 版本,Meteor Lake 也能用帧生成

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版