网易首页 > 网易号 > 正文 申请入驻

突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术

0
分享至

  • OThink-MR1团队 投稿
    量子位 | 公众号 QbitAI

用上动态强化学习,多模态大模型也能实现泛化推理了?!

来自OPPO研究院和港科广的科研人员提出了一项新技术——OThink-MR1,将强化学习扩展到多模态语言模型,帮助其更好地应对各种复杂任务和新场景。

研究人员表示,这一技术使业界突破多模态泛化推理能力

众所周知,多模态大模型可以处理多种类型输入数据并生成相关输出,但一遇到复杂推理任务,其能力往往表现不佳。

目前大多数多模态模型在训练时,主要采用监督微调(SFT)的方法。

SFT就像是老师给学生划重点,让学生按照固定的模式学习。虽然这种方法在特定任务上确实能让模型表现得不错,但难以培养关键的通用推理能力。

与此同时,强化学习(RL)作为另一种训练方法,开始进入人们的视野。

RL就像是让学生在不断尝试中学习,做得好就给奖励,做得不好就“挨批评”。这种方法理论上可以让模型更灵活地应对各种任务,提升其推理能力,但却存在多模态任务通用能力未充分探索、训练约束易导致次优瓶颈等问题。

于是乎,OThink-MR1技术应运而生。

那么,它是如何让多模态模型突破泛化推理能力的呢?

基于动态强化学习

OThink-MR1是一个基于动态强化学习的框架和模型,支持微调多模态语言模型。

其核心“招式”有两个:一个是动态KL散度策略(GRPO-D),另一个是精心设计的奖励模型。二者相互配合,让模型的学习效率和推理能力大幅提升。

先说动态KL散度策略

在强化学习里,探索新的策略和利用已有经验是两个很重要的方面,但以前的方法很难平衡这二者的关系,不是在探索阶段浪费太多时间,就是过早地依赖已有经验。

而动态KL散度策略就像是给模型装了一个“智能导航仪”,能根据训练进度动态调整探索和利用的平衡

打个比方,在训练初期,它让模型像个充满好奇心的孩子,大胆地去探索各种可能的策略。而随着训练的进行,它又会引导模型逐渐利用之前积累的经验,沿着更靠谱的路线前进。

这样一来,模型就能更有效地学习,避免陷入局部最优解。

再说奖励模型。在OThink-MR1里,奖励模型就像是老师给学生打分的标准。

对于多模态任务,科研人员设计了两种奖励:一种是验证准确性奖励,另一种是格式奖励

比如在视觉计数任务中,模型要数出图片里物体的数量,如果数对了,就能得到验证准确性奖励;同时,如果模型的回答格式符合要求,像按照规定的格式写下答案,还能获得格式奖励。

这两种奖励加起来,就像老师从多个方面给学生打分,让模型知道自己在哪些地方做得好,哪些地方还需要改进,从而更有针对性地学习。

实验环节

为了验证OThink-MR1的实力,科研人员进行了一系列实验。

第一个实验是探究奖励项和KL散度项对原始GRPO(一种基于强化学习的方法)在同任务验证中的影响。

在几何推理任务中,科研人员调整格式奖励的权重,发现当格式奖励的权重不为零时,模型的表现明显更好。这就好比学生写作文,不仅内容要正确,格式规范也能加分,这样能让学生更全面地提升自己的能力。

同时,调整KL散度的权重时,他们发现权重适中时模型表现最佳,太大或太小都会让模型成绩下降。

第二个实验是跨任务评估,这可是一场真正的“大考”。

以往的研究大多只在同一个任务的不同数据分布上评估模型的泛化能力,而这次实验直接让模型挑战完全不同类型的任务。

科研人员选择了视觉计数任务和几何推理任务,这两个任务难度不同,对模型的能力要求也不一样。

在跨任务验证中,用监督微调训练的模型表现得很差。就像一个只会做一种题型的学生,换了另一种题型就完全不会了。

而经过GRPO-D训练的模型则表现出色,在从推理任务到理解任务的泛化实验中,它的成绩相比没有经过训练的模型提高了很多;在从理解任务到推理任务的泛化实验中,虽然难度更大,但它也取得了不错的进步。

这就好比一个学生不仅擅长数学,还能快速掌握语文知识,展现出了很强的学习能力。

第三个实验是同任务评估。

实验结果显示,在同任务验证中,采用固定KL散度的GRPO方法不如监督微调,但OThink-MR1中的GRPO-D却能逆袭。

它在视觉计数和几何推理任务上,成绩都超过了监督微调,这就像一个原本成绩一般的学生,找到了适合自己的学习方法后,成绩突飞猛进,直接超过了那些只会死记硬背的同学。

总体而言,OThink-MR1的出现,为多模态语言模型的发展开辟了新的道路。

它让我们看到了动态强化学习在提升模型推理能力和泛化能力方面的巨大潜力。在未来,基于OThink-MR1这样的技术,多模态语言模型有望在更多领域发挥重要作用。

论文地址:https://arxiv.org/abs/2503.16081

•标题:OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning

•作者:刘志远1,章玉婷2,刘丰1,张长旺1,孙莹2,王俊1

•单位:1.OPPO研究院, 2.香港科技大学(广州)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没资格!英国王室确认,卡米拉王后将参与伊丽莎白女王特别纪录片

没资格!英国王室确认,卡米拉王后将参与伊丽莎白女王特别纪录片

荣亭小吏
2026-04-01 19:48:47
老道长叮嘱:再穷别亏大门口,门口摆上这3样,横财不请自来

老道长叮嘱:再穷别亏大门口,门口摆上这3样,横财不请自来

千秋文化
2026-03-31 20:45:34
中方还是晚了一步,五点倡议刚发,海湾国家将参战,特朗普倒计时

中方还是晚了一步,五点倡议刚发,海湾国家将参战,特朗普倒计时

面包夹知识
2026-04-03 13:30:29
3-1!欧洲豪门狂揽4连胜,金球先生爆发:梅开二度

3-1!欧洲豪门狂揽4连胜,金球先生爆发:梅开二度

足球狗说
2026-04-04 04:37:11
老年人的性需求可能比年轻人更旺盛!

老年人的性需求可能比年轻人更旺盛!

黯泉
2026-03-30 13:58:50
她找到了亲生父亲,并嫁给了他:两年后,他杀了她和他们的孩子

她找到了亲生父亲,并嫁给了他:两年后,他杀了她和他们的孩子

三目观史
2026-03-26 22:05:39
美国急眼了,被曝可能丢核弹,伊朗代表:从语气来看或已板上钉钉

美国急眼了,被曝可能丢核弹,伊朗代表:从语气来看或已板上钉钉

米师傅安装
2026-04-04 02:56:44
生日照藏玄机,提离婚掀桌子,赌王家族“恩爱剧本”演不下去了

生日照藏玄机,提离婚掀桌子,赌王家族“恩爱剧本”演不下去了

李健政观察
2026-04-04 03:48:56
终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

凌风的世界观
2025-11-14 08:38:31
张姩菡感谢网友抓拍全家福,网友纷纷晒偶遇照,一家3口同框感人

张姩菡感谢网友抓拍全家福,网友纷纷晒偶遇照,一家3口同框感人

古希腊掌管松饼的神
2026-04-03 10:05:05
中东正打得不可开交,中国在西北边陲干了一件大事

中东正打得不可开交,中国在西北边陲干了一件大事

兵国大事
2026-04-02 17:03:42
从4月9日起北京朝阳到白山东站的高铁将会停运,在我看来不足为奇

从4月9日起北京朝阳到白山东站的高铁将会停运,在我看来不足为奇

生活魔术专家
2026-04-04 00:19:19
詹姆斯43290分排在历史第1,那他篮板、助攻、盖帽和抢断排第几?

詹姆斯43290分排在历史第1,那他篮板、助攻、盖帽和抢断排第几?

大西体育
2026-04-03 22:32:44
眼睛是“心梗”的放大镜?医生说:眼睛若有这5个异常,及时检查

眼睛是“心梗”的放大镜?医生说:眼睛若有这5个异常,及时检查

白话电影院
2026-04-03 23:57:17
形势已然大变!西方媒体集体改口:中国,已无需再向世界证明什么

形势已然大变!西方媒体集体改口:中国,已无需再向世界证明什么

走进事件的中心
2026-04-03 10:43:03
全球首家AI妓院,革了成人行业的命

全球首家AI妓院,革了成人行业的命

广告案例精选
2026-04-02 14:49:22
40年来最惨重损失,美媒:以军尸横遍野,1天内报销21辆坦克

40年来最惨重损失,美媒:以军尸横遍野,1天内报销21辆坦克

深析古今
2026-04-01 16:15:43
法总理:中东冲突可能在法国引发恐怖主义威胁

法总理:中东冲突可能在法国引发恐怖主义威胁

每日经济新闻
2026-04-03 08:54:01
美联储降息,突变!特朗普最新发声!霍尔木兹海峡,传来大消息!

美联储降息,突变!特朗普最新发声!霍尔木兹海峡,传来大消息!

证券时报e公司
2026-04-03 22:31:54
内塔尼亚胡向法撒气后,不到24小时,卡尼表态,10国联手“施压”

内塔尼亚胡向法撒气后,不到24小时,卡尼表态,10国联手“施压”

泠泠说史
2026-04-02 14:24:09
2026-04-04 05:55:00
量子位 incentive-icons
量子位
追踪人工智能动态
12412文章数 176438关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

美国提议停火48小时 伊朗以持续重火力打击回应

头条要闻

美国提议停火48小时 伊朗以持续重火力打击回应

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

家居
游戏
本地
时尚
公开课

家居要闻

温馨多元 爱的具象化

三十年铁律崩塌!主机涨价疯魔 IGN警告行业"将死"

本地新闻

跟着歌声游安徽,听古村回响

冬奥双金夫妻:爱与荣耀,顶峰相见

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版