网易首页 > 网易号 > 正文 申请入驻

MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

0
分享至


尽管 DeepSeek-R1 在单模态推理中取得了显著成功,但已有的多模态尝试(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全复现其核心特征。

例如,R1-V 仅在简单计数任务上表现出进步,未能实现回答长度的增长和顿悟时刻;R1-Multimodal-Journey 则在训练过程中回答长度反而降低;LMM-R1 虽然有所进步,但尚未在大规模图文数据训练中得到验证。而 Kimi 1.5 尽管表现突出,但并未开源其模型或数据。

  • 论文标题:MM-EUREKA:EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING
  • 代码地址:https://github.com/ModalMinds/MM-EUREKA
  • 技术报告:https://arxiv.org/pdf/2503.07365
  • 模型地址:https://huggingface.co/FanqingM/MM-Eureka-Zero-38B
  • https://huggingface.co/FanqingM/MM-Eureka-8B
  • 数据集地址:https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset

我们这篇工作聚焦于一个核心问题:如何在多模态环境中复现 DeepSeek-R1 的关键特性,包括稳定的回答长度增长、准确率奖励以及 Visual aha-moment?

为了解答这一问题,来自上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究人员提出了多模态学科推理模型 MM-Eureka。

我们的探索

开源框架:我们基于 OpenRLHF 开发了一个高效可扩展的多模态大规模强化学习框架,支持 InternVL 等多种模型和 RL 算法。相比 R1-V 等已有框架,我们的方案成功训练了 InternVL 2.5-38B 等大型模型。

稳定训练:我们开发了两个模型——MM-Eureka-8B(基于 InternVL 2.5-Instruct-8B)和 MM-Eureka-Zero-38B(基于 InternVL 2.5-Pretrained-38B),均成功复现了稳定的 accuracy reward、response length 增长以及 Visual aha-moment。

极大的数据效率:仅使用 54K 图文数据进行规则型 RL 训练,平均性能超过使用 1M 数据的 MPO 模型;整体基准准确率与使用 12M 数据进行 CoT SFT 训练的模型相当!MM-Eureka-Zero 仅使用 8K 图文数学推理数据(指令模型的 0.05%),在我们自建的 K12 基准测试上超越指令模型 8.2%,在 MathVerse 上表现相当。

重要发现

  • 极简的 RL 设计足以获得出色效果。在 instruct 模型上实验时,添加 KL 散度会限制模型探索,导致无法观测到 response length 的提高。

  • 数据选择对于稳定 RL 训练很重要!基于难度的数据过滤策略对 RL 训练稳定性至关重要。在 8B-instruct 模型上进行 RL 训练时,若不进行数据过滤,训练过程极其不稳定。

  • 模型在 RL 训练中展现类似 DeepSeek-R1 的 aha-moment,特别是模型不仅学会反思和回溯,还学会重新审视图像中的关键信息,我们认为这是 Visual aha-moment 的关键特征。

我们的成果

  • 无论在 Instruct 还是 Pretrained Model 上,我们均在极简 RL 设计以及数据筛选策略下实现了稳定的 Accuracy Reward 提升和 Response Length 提升。

  • 在 Instruct 模型上,几乎全部使用开源数据(50K),便在所有多模态数学推理基准上取得稳定提升。相比其他后训练策略,比如 MPO(1M 数据)和 CoT SFT(12M 数据),我们发现简单的 rule-based RL 具备极强的数据高效性,使用几十分之一的数据,平均性能超过 MPO,与 CoT SFT 相当。

  • 在 Pretrained 模型上进一步挖掘 RL 潜力,仅需 8K 多模态数学推理数据,即可在奥林匹克数学测试集(部分)和 K12 数学推理测试集上,超过使用 16.3M 数据进行 SFT 的指令模型。在 MathVerse 上,两种模型表现也相似。我们仅使用了指令模型数据量的 0.05%,凸显了强化学习的巨大潜力!

其他尝试与反思

我们在复现过程中进行了许多其他的尝试,在此分享一些我们认为有帮助,但并未成功验证的操作。我们认为这并不代表这些方法有问题,而是需要进一步探索。

Curriculum Learning:尽管我们基于难度划分数据并尝试从易到难训练,但未观察到明显性能提升。我们认为简单问题的学习难以直接泛化到难题,如何更有效地组织课程学习数据仍需探索。

Online Data Filter:我们将预先基于难度的数据筛选策略记为 Offline Data Filter。这种方案虽然可以帮助 RL 进行稳定训练,但其数据利用率降低了,因此我们希望在模型训练过程中动态进行基于难度的数据筛选(类似 PRIME)。然而,我们发现训练结果不如 offline data filter 稳定,我们认为这是因为每次更新时的数据量不同,导致梯度不稳定。

Model Size:尽管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也复现了 R1 的表现,但我们在多模态推理场景下,难以通过 8B 的 InternVL Pretrained 进行成功复现。我们认为这受制于多模态推理数据质量以及多模态预训练数据中很少存在 long CoT 数据。

我们的期望

我们开源了全套数据(包括自助收集的高质量多模态 K12 数据集)、代码和模型,并发布了详细的技术报告,涵盖所有复现过程及未成功的尝试。希望我们的工作能帮助社区共同推进多模态推理的发展!我们同样在持续推进模型训练,请继续关注!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江书协通报隶书大展作品抄袭:取消作者入展资格

浙江书协通报隶书大展作品抄袭:取消作者入展资格

界面新闻
2025-09-14 17:01:38
太疯狂!iPhone 17预售开启,苹果官网被挤崩,股价大涨!网友:根本抢不到,不是说丑吗?小米总裁:很强,牙膏挤爆了

太疯狂!iPhone 17预售开启,苹果官网被挤崩,股价大涨!网友:根本抢不到,不是说丑吗?小米总裁:很强,牙膏挤爆了

每日经济新闻
2025-09-13 00:56:04
世锦赛女子铁饼:奥尔曼69米48夺冠,中国选手冯彬65米28第七

世锦赛女子铁饼:奥尔曼69米48夺冠,中国选手冯彬65米28第七

懂球帝
2025-09-14 19:42:11
人民日报、新华社、央视集体发文

人民日报、新华社、央视集体发文

政知新媒体
2025-09-14 21:30:16
于朦胧坠亡:一对男女成重要嫌疑人,真实身份被扒,现场照片流出

于朦胧坠亡:一对男女成重要嫌疑人,真实身份被扒,现场照片流出

博士观察
2025-09-14 22:48:50
别嘴硬!那种生理性喜欢,一辈子真没几次

别嘴硬!那种生理性喜欢,一辈子真没几次

加油丁小文
2025-09-10 05:00:03
佟丽娅离婚4年喜讯官宣,41岁再婚,陈思诚已无法企及

佟丽娅离婚4年喜讯官宣,41岁再婚,陈思诚已无法企及

何嗀爱捕渔
2025-09-13 18:16:33
罗永浩vs西贝,是一个智商鉴定器

罗永浩vs西贝,是一个智商鉴定器

自由的海报
2025-09-13 12:23:14
汗液是心脏最好的反馈!提醒:汗液出现4个异常,可能是心脏在“报警”!

汗液是心脏最好的反馈!提醒:汗液出现4个异常,可能是心脏在“报警”!

神奇故事
2025-09-02 22:52:49
脑梗跟戴帽子有关?医生警告:55岁后,天冷要注意这6件事

脑梗跟戴帽子有关?医生警告:55岁后,天冷要注意这6件事

王二哥老搞笑
2025-09-12 11:58:38
马云预言成真?2026年,手握存款的人,或将面临三大挑战

马云预言成真?2026年,手握存款的人,或将面临三大挑战

春秋论娱
2025-09-14 07:19:30
廖一帆爸爸硬刚家委会后续:孩子被区别对待,已和学校达成和解

廖一帆爸爸硬刚家委会后续:孩子被区别对待,已和学校达成和解

鋭娱之乐
2025-09-12 13:01:53
广州的廖一帆爸爸火了,因为他揭开了家委会的真相

广州的廖一帆爸爸火了,因为他揭开了家委会的真相

清晖有墨
2025-09-05 19:24:18
朝鲜最出色女特工,吃住皆最高级,被要求有随时和外国人结婚的觉悟

朝鲜最出色女特工,吃住皆最高级,被要求有随时和外国人结婚的觉悟

纪实文录
2025-07-11 16:59:35
大量“电视手机”流入闲鱼,全新23块,免费收看CMMB节目

大量“电视手机”流入闲鱼,全新23块,免费收看CMMB节目

数码辣条
2025-09-12 18:28:04
曹德旺官司输掉后,怒斥审判长:你私下收了200万,以为我不知道?

曹德旺官司输掉后,怒斥审判长:你私下收了200万,以为我不知道?

萧竹轻语
2025-09-11 16:45:37
雨果喜获21万奖金,排名跃升至前三,决赛击败王楚钦奖金翻倍

雨果喜获21万奖金,排名跃升至前三,决赛击败王楚钦奖金翻倍

宋鶛搞笑配音
2025-09-14 17:13:19
中国男排1:3惜败巴西,摇滚教练海宁让男排防守脱胎换骨

中国男排1:3惜败巴西,摇滚教练海宁让男排防守脱胎换骨

李广专业体育评论
2025-09-14 23:14:03
自来水味道怪怪的?小区清洗水塔发现男性浮尸 全楼住户喝“尸水”多日感到崩溃

自来水味道怪怪的?小区清洗水塔发现男性浮尸 全楼住户喝“尸水”多日感到崩溃

闪电新闻
2025-09-14 14:00:41
iPhone17背后真相:核心元件全是国外的,中国制造价值低?

iPhone17背后真相:核心元件全是国外的,中国制造价值低?

互联网.乱侃秀
2025-09-12 09:48:59
2025-09-15 02:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11283文章数 142450关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

罗永浩向贾国龙重新开战:我看你智力有问题 不可救药

头条要闻

罗永浩向贾国龙重新开战:我看你智力有问题 不可救药

体育要闻

利物浦1-0绝杀十人伯恩利 萨拉赫95分钟点射

娱乐要闻

花泽香菜官宣离婚 结束与老公5年婚姻

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

艺术
本地
游戏
手机
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

《隐形守护者》导演新影游demo15日上线!有金发美女

手机要闻

手机周报份额再次出炉:小米逆袭上位,iPhone蓄势待发!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版