网易首页 > 网易号 > 正文 申请入驻

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

仅需一个强化学习(RL)框架,就能实现视觉任务大统一

现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要!

最新开源V-Triune(视觉三重统一强化学习系统)框架,使VLM首次能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。

通过三层组件设计基于动态交并比(IoU)的奖励机制,弥补了传统RL方法无法兼顾多重任务的空白。

甚至基于V-Triune,MiniMax还一步到位,贴心地给大家开发了全新的Orsta(One RL to See Them All)模型系列(7B至32B),在MEGA-Bench Core基准测试中从+2.1%显著提升至+14.1%。

值得注意的是,在论文的作者一栏,MiniMax创始人兼CEO闫俊杰也参与了这项研究。

目前V-Triune框架和Orsta模型都在GitHub上实现全面开源,点击文末链接即可跳转一键获取。

那话不多说,咱们直接上细节。

推理感知“两手抓”

视觉任务可以分为推理感知两类,在当前,RL研究主要集中于数学QA和科学QA等视觉推理任务。

而目标检测和定位等视觉感知任务,因亟需独特的奖励设计和训练稳定性保障,还没有得到一个很好的解决方案……

针对上述问题,MiniMax针对性地提出了新框架V-Triune,作为首个面向VLM后训练的统一RL系统,通过三个互补组件核心巧妙实现二者的平衡。

样本级数据格式化

让每个样本自定义其奖励设置和验证器,支持动态路由和权重调整,以处理多种任务需求。

数据模式基于HuggingFace数据集实现,包含以下三个字段:

  1. reward_model:样本级定义奖励类型、权重。
  2. verifier:指定验证器及其参数。
  3. data_source:标识样本来源。

最终实现了多样化数据集的无缝集成,同时支持高度灵活的奖励控制。

验证器级奖励计算

采用异步客户端-服务器架构,将奖励计算与主训练循环解耦。

客户端通过代理工作器异步发送请求,而服务器则根据”verifier”字段路由至专用验证器。

主要使用两类验证器:

  1. MathVerifyVerifierr:处理推理、OCR和计数任务。
  2. DetectionVerifier:处理检测和定位任务,应用动态IoU奖励。

从而实现在无需修改核心训练流程的情况下,灵活扩展新任务或更新奖励逻辑。

数据源级指标监控

在多任务多源训练中,按数据源记录以下指标:

  1. 奖励值:追踪数据集特定稳定性。
  2. IoU和mAP(感知任务):记录不同阈值下的IoU和mAP。
  3. 响应长度和反思率:跟踪响应长度分布、截断率,以及15个预定义反思词(如“re-check”)的出现比例。

该监控机制帮助诊断模型行为(如过度思考或肤浅响应),并确保学习的稳定性。

动态IoU奖励

此外针对监测和定位任务,团队还创新性地提出了动态IoU奖励,分阶段调整阈值,以缓解冷启动问题,同时引导模型逐步提升定位精度:

虽然V-Triune提供了可扩展的数据、任务和指标框架,但早期实验显示,联合训练可能会导致评估性能下降梯度范数突增等不稳定现象,于是团队又通过以下调整逐步解决:

  1. 冻结ViT参数,防止梯度爆炸。
  2. 过滤伪图像特殊词元,确保输入特征对齐,提升训练稳定性。
  3. 构建随机化CoT提示池,降低提示依赖性。
  4. 由于V-Triune基于Verl框架实现,主节点内存压力较大,需解耦测试阶段与主训练循环以管理内存。

Orsta模型

另外值得一提的是,基于开源的Qwen2.5-VL模型,团队还训练出7B和32B的Orsta模型

依据4类推理任务(数学、谜题、科学、图表分析)和4类感知任务(物体检测、目标定位、计数、OCR)的训练数据,进行规则和难度的两阶段过滤和训练优化。

最终实现在MEGA-Bench Core基准测试中,Orsta相比原始模型提升至+14.1%,尤其是在感知任务中,mAP指标显著提高,证明了该统一方法的有效性和可扩展性。

MiniMax布局多模态领域

MiniMax作为商汤背景出身的AI六小龙之一,近期在多模态领域可谓动作频频,模型横跨语言、音频、视频。

例如MiniMax的S2V-01视频模型、MiniMax-VL-01视觉多模态模型以及MiniMax-T2A-01系列语言模型等。

尤其是广受好评的MiniMax-01系列,包含基础语言模型和视觉多模态模型两种,性能上比肩DeepSeek-V3、GPT-4o等国内外顶尖模型的同时,还首次创新性实现了对新型Lightning Attention架构的大规模扩展。

最新发布的Speech-02,在AI语言生成上也是一骑绝尘,直接刷新全球权威语音基准测试榜单第一,一举打破OpenAI、ElevenLabs的行业垄断。

据悉,此番统一视觉任务的RL架构

是为后续更大规模模型的通用视觉能力做探索。

MiniMax的更多开源,感兴趣的小伙伴可以持续蹲一蹲~

论文链接:https://arxiv.org/abs/2505.18129
代码链接:https://github.com/MiniMax-AI/One-RL-to-See-Them-All

参考链接:
[1]https://x.com/MiniMax__AI/status/1926949919228600423
[2]https://huggingface.co/papers/2505.18129

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
真正聪明的人,不一定很会争,但一定很擅长躲:躲麻烦、躲是非、躲烂人烂事

真正聪明的人,不一定很会争,但一定很擅长躲:躲麻烦、躲是非、躲烂人烂事

心理观察局
2026-06-26 07:15:11
日本赢不了巴西,问题不出在技术,出在最后5分钟

日本赢不了巴西,问题不出在技术,出在最后5分钟

乐乐哥
2026-06-30 13:24:51
Shams:詹姆斯婉拒湖人续约意向正式离开,连续效力8年为生涯最长

Shams:詹姆斯婉拒湖人续约意向正式离开,连续效力8年为生涯最长

新杀猪的秀才
2026-07-01 00:29:42
朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

番外行
2026-04-16 08:25:40
佛得角的世界杯奇迹:无职业联赛、足协只有8人、领英招聘球员

佛得角的世界杯奇迹:无职业联赛、足协只有8人、领英招聘球员

小彭美识
2026-06-16 04:08:26
因眼红《阿嬷》,山寨版电影《给阿公的牛肉丸》开机,成全网笑柄

因眼红《阿嬷》,山寨版电影《给阿公的牛肉丸》开机,成全网笑柄

糊咖娱乐
2026-06-30 18:28:42
华为2款新机曝光:7月份,即将发布

华为2款新机曝光:7月份,即将发布

科技堡垒
2026-06-29 09:15:32
原来他们是两口子,曾大红大紫却丁克一辈子,如今都住上海养老院

原来他们是两口子,曾大红大紫却丁克一辈子,如今都住上海养老院

叹为观止易
2026-06-28 05:42:57
金靖老公罕见露面,气质干净素颜帅到爆,网友:性格差距是真大

金靖老公罕见露面,气质干净素颜帅到爆,网友:性格差距是真大

铁锤妹妹是只猫
2026-06-30 23:32:39
看懂抗美援朝,也就懂了伊朗总统莱希死后,中国为啥在台海掀桌子

看懂抗美援朝,也就懂了伊朗总统莱希死后,中国为啥在台海掀桌子

快看张同学
2026-06-30 19:26:16
4年2400万美金!尼克斯第2笔签约达成!冠军中锋成抢手货

4年2400万美金!尼克斯第2笔签约达成!冠军中锋成抢手货

世界体育圈
2026-06-30 16:51:23
师徒情深!姆巴佩破门后第一时间跑到场边和主帅德尚激情相拥

师徒情深!姆巴佩破门后第一时间跑到场边和主帅德尚激情相拥

砚底沉香
2026-07-01 05:58:03
日本主帅森保一:球员已全力以赴,今后仍以世界第一为目标;赛后巴西队球员嘲讽日本队:我们有5座世界杯冠军

日本主帅森保一:球员已全力以赴,今后仍以世界第一为目标;赛后巴西队球员嘲讽日本队:我们有5座世界杯冠军

扬子晚报
2026-06-30 09:54:05
最强阵容!中国女排香港站过招意大利,赵勇或效仿郎平一石二鸟

最强阵容!中国女排香港站过招意大利,赵勇或效仿郎平一石二鸟

骑马寺的少年
2026-06-30 22:11:17
警告普京有兵变的俄军卢宁被捕!想做普里戈金第二?

警告普京有兵变的俄军卢宁被捕!想做普里戈金第二?

项鹏飞
2026-06-28 21:41:22
战局逆转!看完俄乌战场的3大信号,可以负责任地说:俄罗斯悬了

战局逆转!看完俄乌战场的3大信号,可以负责任地说:俄罗斯悬了

勇士军武闲谈
2026-06-29 16:05:00
国泰海通总裁李俊杰,将任上海市级机关正职

国泰海通总裁李俊杰,将任上海市级机关正职

南方都市报
2026-06-30 19:04:17
罗永浩力挺韩红基金会:质疑基金会买苹果电脑都是傻x

罗永浩力挺韩红基金会:质疑基金会买苹果电脑都是傻x

三言科技
2026-07-01 08:20:07
CBA3消息!状元加盟玄鸟,石奎退出CBA选秀,区俊炫加盟香港金牛

CBA3消息!状元加盟玄鸟,石奎退出CBA选秀,区俊炫加盟香港金牛

烨侃体育
2026-07-01 06:21:49
这个一妻多夫制的民族,晚上怎么过?女人直言:简直就是受罪

这个一妻多夫制的民族,晚上怎么过?女人直言:简直就是受罪

哄动一时啊
2026-06-24 14:26:23
2026-07-01 09:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12874文章数 176507关注度
往期回顾 全部

科技要闻

苹果刚涨价!预付款消费者就被要求补差价

头条要闻

父母花20万为娃办借读发现准考证是假的 孩子无缘中考

头条要闻

父母花20万为娃办借读发现准考证是假的 孩子无缘中考

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

中东局势再添变数

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

健康
手机
家居
时尚
旅游

狂吃“糯叽叽”小心肠梗阻!

手机要闻

爱马仕橙退场!iPhone 18 Pro红色款偷跑:年度爆款色预定

家居要闻

传奇筑 日常诗

Meiinpsn的穿衣风格,清新又叛逆

旅游要闻

让持续升温的“红色文旅热潮”生生不息

无障碍浏览 进入关怀版