网易首页 > 网易号 > 正文 申请入驻

开源多模态推理「破壁」时刻:MMFineReason助力4B逆袭30B

0
分享至



长期以来,开源多模态模型在复杂推理任务上,始终与 GPT-4o、Gemini 等顶尖闭源模型存在一道难以逾越的鸿沟。

社区开发者们逐渐意识到,核心痛点或许不在于模型架构的精进或者模型参数的规模。真正的瓶颈,在于高质量、思维链(CoT)密集的推理数据极度匮乏。

在纯文本领域,DeepSeek-R1 的成功已验证了高质量后训练数据(Post-training Data)的威力,但在多模态领域,我们面对的是横亘在眼前的「两座大山」:

  1. 数据失衡:现有开源多模态数据仍以简单 VQA 与自然图像为主,而对于真正具有高推理价值的数据,如 STEM 图表、逻辑谜题、复杂视觉符号等数据不仅少,而且标注成本极高。
  2. 推理质量参差不齐:即便现有的「推理数据」也存在推理过程短、模版化,标注粒度不足、缺乏中间验证、视觉与逻辑推理割裂的问题。

为了填补这一空白,上海 AI 实验室 OpenDataLab 研究团队正式开源了 MMFineReason 框架。这既是一套全流程 100% 基于开源生态、可复现的多模态推理数据合成 Pipeline,同时也开源了由此方法构建的包含1.8M 高质量样本、5.1B Token的大规模数据集。



  • 论文标题:MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
  • Huggingface 论文:https://huggingface.co/papers/2601.21821
  • 项目主页:https://mmfinereason.github.io/
  • 数据集 & 模型:https://huggingface.co/collections/OpenDataArena/mmfinereason

小模型,大性能:高效数据选择的强大优势

先来秀一秀性能结果。团队很惊喜的发现,MMFineReason 的出现,标志着多模态模型进入了「以小博大」的新阶段。

实验数据显示,MMFineReason-4B模型基于 Qwen3-VL-4B 训练而成,其推理能力不仅超越了 Qwen3-VL-8B-Thinking,性能更是直逼 30B 参数规模的 Qwen3-VL-30B-A3B-Thinking。

更令研究团队惊喜的是,同样基于同尺寸底座训练的MMFineReason-8B,表现更加优秀:它直接击败了 Qwen3-VL-30B-A3B-Thinking 和 Gemini-2.5-Flash,并开始向 GPT5-mini-High 及 Qwen3-VL-32B-Thinking 等顶级模型发起冲击。

值得强调的是,这种「跨级碾压」的性能跃迁并非来自新的模型结构设计,也不是通过更复杂的训练技巧实现的,而几乎完全源于数据层面的变化—— 尤其是推理数据的结构化程度与单位样本中的有效推理密度。

更进一步,团队还发现通过难度感知过滤,能实现极高的数据转换效率:仅使用总量 7%(约 123K)的高难度精选子集数据,即可媲美全量 1.8M 数据相当的性能表现。

因此,当数据被有效筛选、难度与模型能力精确对齐时,数据选择本身就成为决定参数效率的核心杠杆。





揭秘「Closed-Source Level」数据管线:完全开源的数据生产线



不同于依赖黑盒 API 的传统方案,MMFineReason 构建了一套完全开源的透明且高效的 Pipeline,全流程 100% 基于开源模型。整个流程主要通过三个阶段来实现高质量数据的生产:

  1. 数据标准化:首先从源头定义「什么是可推理任务」,对 STEM、Puzzle、图、几何、科学表等多领域数据进行标准化处理并统一 Schema,并进行严格的清洗。
  2. 推理蒸馏:利用 Qwen3-VL-235B-Thinking 作为老师模型进行推理蒸馏,并严格遵守四阶段推理框架:「视觉感知 → 逻辑推导 → 中间验证 → 结论确认」,从而来生成详细且具备「视觉落地」能力的 CoT 推理轨迹。
  3. 双重过滤:为了确保训练的高效性,团队引入了双层筛选机制,第一是正确性过滤,确保答案与推理过程严格一致;在剔除低质量 CoT 的基础上,进行难度感知(Difficulty-Aware)过滤,专门筛选出对 Qwen3-VL-4B 小模型具有高「训练价值」的样本,即「小模型稳定失败」的样本,从而避免了无效数据的堆砌。



最终,研究团队得到了 MMFineReason-1.8M(正确全量), MMFineReason-586K(正确且去掉过于简单样本),以及 MMFineReason-123K(正确且最困难样本)三个高质量数据集。

MMFineReason-1.8M:专为「深度推理」打造的高质量多模态数据

与其说 MMFineReason 是一个常规的 VQA 数据集,倒不如将其定义为一个专为多模态大模型准备的「硬核思维训练场」。在当前多模态领域普遍陷入「数据饥渴」与「思维链断层」的背景下,该项目展现出了极具辨识度的核心特征。

首先,MMFineReason 在思维深度上实现了质的飞跃。相比 HoneyBee 等同类数据集,其平均思维链(CoT)长度达到了惊人的 2,910 tokens,规模足足是前者的2.7 倍。这种长路径推理数据的引入,本质上是让模型告别了简单的「直觉判断」,转而掌握一套详尽且具象的「视觉 - 逻辑」推导范式。



在领域分布上,研究团队展现出了鲜明的去平庸化导向,坚决拒绝易于「刷分」的简单样本,转而深耕高难度逻辑腹地。

数据集中,数学领域以 79.4% 的绝对占比强化了符号推理根基,涵盖了几何、微积分等深度学科;13.8% 的科学数据则聚焦于复杂的物理、化学图表分析;此外,数据集还引入了 4.6% 的谜题与游戏数据,通过抽象模式识别与策略博弈,不断试探并挑战开源模型的智商上限。



图为 MMFineReason 数据集的数据分布情况。可以看到数据集的领域覆盖了数学、谜题与游戏、几何 / 微积分、图表与复杂科学等。

更具深远意义的洞察在于这种高强度训练带来的「协同提升效应」。实验结果打破了专项训练会削弱通用能力的固有认知:当模型在 STEM 和逻辑难题上进行深度钻研时,其在一般性 VQA 任务上的表现反而得到了同步增强。这种以点带面的能力释放,再次印证了高质量逻辑链条才是驱动模型性能跨级演进的真逻辑。

结语与展望

MMFineReason 的开源,证明了在多模态领域,当模型架构逐渐收敛、参数规模的边际收益不断下降,决定能力差距的,不再是模型有多大,而是「数据是否真的教会模型如何推理」。通过精细化的数据工程,小参数模型完全有潜力在复杂推理任务上对抗甚至超越大参数模型。

这不是一次规模的胜利,而是Data-Centric 方法论的胜利。我们期待未来在多模态开源大模型的路上,能用更高效、更高价值的数据来促进社区的进步。

目前,该项目已在 Huggingface 及 GitHub 全面上线,为开源社区提供了从数据到工具链的完整支撑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快讯!特朗普下周的访华名单,真是给人看笑了!

快讯!特朗普下周的访华名单,真是给人看笑了!

达文西看世界
2026-05-10 09:50:48
震惊!小马云18岁成年首播,在线人数破7万,与女生接吻刷爆网络

震惊!小马云18岁成年首播,在线人数破7万,与女生接吻刷爆网络

火山詩话
2026-05-09 16:02:57
休学门诊挤满了初三学生,北大教培人揭开真相:三条路全被堵死,他们无处可逃

休学门诊挤满了初三学生,北大教培人揭开真相:三条路全被堵死,他们无处可逃

三言四拍
2026-05-10 10:34:00
颜宁不懂为何网友质疑她吗?其实她心里很清楚,只是不愿接受

颜宁不懂为何网友质疑她吗?其实她心里很清楚,只是不愿接受

明眼人谈教育
2026-05-10 08:30:03
乌克兰的“机器狗”们已实战,单次俘虏多名俄士兵,摧毁俄军坦克

乌克兰的“机器狗”们已实战,单次俘虏多名俄士兵,摧毁俄军坦克

网易新闻出品
2026-05-09 11:37:34
他活埋近5000红军,逃往国外安享晚年,如今国内竟还有人纪念他!

他活埋近5000红军,逃往国外安享晚年,如今国内竟还有人纪念他!

兴趣知识
2026-05-08 00:23:54
入户调查全面铺开,挨家挨户上门登记,到底查什么?一文讲清楚

入户调查全面铺开,挨家挨户上门登记,到底查什么?一文讲清楚

健身狂人
2026-05-10 15:17:47
系统升级后,续航从500公里变300公里,快充也从40分钟拖到70分钟……最近投诉激增!揭秘新能源车“锁电”真相

系统升级后,续航从500公里变300公里,快充也从40分钟拖到70分钟……最近投诉激增!揭秘新能源车“锁电”真相

都市快报橙柿互动
2026-05-10 15:48:38
1984年叶剑英病危,追悼会花圈已备好,35岁才当医生的钟南山凭什么临危受命救回元帅?

1984年叶剑英病危,追悼会花圈已备好,35岁才当医生的钟南山凭什么临危受命救回元帅?

史海孤雁
2026-05-09 19:13:11
孙颖莎独得2分!中国女团逆转日本,世乒赛团体赛七连冠

孙颖莎独得2分!中国女团逆转日本,世乒赛团体赛七连冠

澎湃新闻
2026-05-10 21:38:28
他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

A活着
2026-05-09 20:47:26
比消费降级更扎心的是,很多人快撑不住了!

比消费降级更扎心的是,很多人快撑不住了!

黯泉
2026-05-10 19:46:45
孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

孙颖莎拒绝沾光!让日本输得心服口服,张本美和对王曼昱成功祛魅

三十年莱斯特城球迷
2026-05-10 19:59:48
套路一模一样!2026 年汉坦病毒刚露头,西方又准备好了老剧本

套路一模一样!2026 年汉坦病毒刚露头,西方又准备好了老剧本

魔都姐姐杂谈
2026-05-09 20:58:28
37死51伤!浏阳烟花厂爆炸原因查明,公司实际控制人被扒,后续!

37死51伤!浏阳烟花厂爆炸原因查明,公司实际控制人被扒,后续!

眼光很亮
2026-05-10 05:50:27
不访华了?鲁比奥称美方愿让步,中俄高抬贵手,已为自己找好台阶

不访华了?鲁比奥称美方愿让步,中俄高抬贵手,已为自己找好台阶

书纪文谭
2026-05-10 21:13:02
这才是现场摄影师该干的事!

这才是现场摄影师该干的事!

贵圈真乱
2026-05-10 09:38:47
对于明天周一后A股,我仅说三句话:第一,4200点绝对不是最高点!

对于明天周一后A股,我仅说三句话:第一,4200点绝对不是最高点!

趋势清风侠
2026-05-10 17:45:09
难以饶恕!榴莲仅退款女孩过分言论曝光:脸真大,不知羞耻的东西

难以饶恕!榴莲仅退款女孩过分言论曝光:脸真大,不知羞耻的东西

小徐讲八卦
2026-05-09 10:31:23
里外不是人!“黄鹅粉雇佣兵”被乌克兰俘虏,爹不亲娘不收没人要

里外不是人!“黄鹅粉雇佣兵”被乌克兰俘虏,爹不亲娘不收没人要

瑜说还休
2026-05-09 12:03:06
2026-05-10 22:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142647关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
时尚
房产
公开课
军事航空

教育要闻

全省第一,来自绵阳!2026年国际地球科学奥赛国家集训队名单公布

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版