网易首页 > 网易号 > 正文 申请入驻

多模态大模型学会反思复盘,上交&上海AI Lab破解多模态复杂推理

0
分享至

MM-HELIX团队 投稿
量子位 | 公众号 QbitAI

多模态大模型表现越来越惊艳,但人们也时常困于它的“耿直”。

无论是生成代码、分析图表还是回答问题,诸多多模态大模型(MLLM)都倾向于给出一个“一步到位”的答案。它们就像一个从不检查作业的“学霸”,虽然知识渊博,但一旦在复杂的、需要反复试错的问题上走错一步,就很难回头。这种能力的缺失,正是阻碍AI从“知识容器”迈向“问题解决大师”的关键瓶颈。

现在,来自上海交通大学和上海人工智能实验室的研究团队,带来了新的解决方案——MM-HELIX

MM-HELIX不仅是一个项目,更是一个完整的生态体系,旨在赋予AI一种最接近人类智慧的能力:长链反思性推理(long-chain reflective reasoning)

多种多模态反思任务

第一击:一把“终极标尺”——MM-HELIX基准测试

我们无法提升我们无法衡量的东西。为了精准评估AI的反思推理能力,团队首先构建了一个前所未有的“终极考场”——MM-HELIX Benchmark

它不再是简单的看图说话或数学计算,而是包含了42种横跨算法、图论、谜题和策略游戏的超高难度任务,例如:

  • 逻辑的迷宫:在“扫雷”中根据数字线索进行缜密推理与回溯。
  • 策略的博弈:在“推箱子”中规划长远,避免一步走错,满盘皆输。
  • 算法的具象:寻找图中的“哈密顿路径”,需要在脑海中进行多次路径规划与剪枝。

团队搭建了42个任务的Sandbox,包含Generator,Solver,Validator等多个关键部件,并根据题目复杂度区分了五层难度,并最终收集了1260道题目,对当前的多模态大模型进行了细粒度的评估,评估结果如下:

MM-HELIX评估结果

测试结果令人震惊:即便是当前最顶尖的闭源和开源模型,在这份考卷上也纷纷“折戟”,准确率惨淡,仅有GPT5超过了50分;不具有反思能力的模型更是只有10分左右的准确率。与此同时,模型在面对多模态输入时,准确率相比于纯文本输入有大幅的下降。这有力地证明了,教会多模态大模型反思,刻不容缓!

第二击:一本“传世秘籍”——MM-HELIX-100K数据集

如何教会多模态大模型“三思而后行”?你需要一本好的教科书。

为此,团队采用“步骤启发式响应生成”(Step-Elicited Response Generation, SERG)流程,基于MM-HELIX Sandbox数据引擎,通过给模型提供解题的关键步骤(key step)来生成解题过程,不仅相比直接让模型解题(rollout)推理时间减少了90%,同时还大幅降低了解题过程中过度反思带来的冗余度,高效高质地生成了多模态反思性思维链。

基于SERG流水线,作者团队打造了MM-HELIX-100K,一个包含10万个高质量样本的“反思推理秘籍”。这种充满“自我纠错”和“灵光一闪”的数据,是教会多模态学会反思与复盘的完美养料。

第三击:一位“智慧导师”——AHPO自适应混合策略优化算法

AHPO算法示意图

有了“考场”和“秘籍”,还需要一位懂得因材施教的“导师”。

直接微调方法(SFT)容易导致模型在通用能力上“灾难性遗忘”,而On-policy强化学习则因任务难度过高,奖励稀疏而“学不会”。

为此,团队提出了创新的自适应混合策略优化算法(Adaptive Hybrid Policy Optimization, AHPO)

AHPO算法的智慧之处在于它的“动态教学”:

  • 当模型是“新手”时:在复杂任务上屡屡碰壁,奖励稀疏,AHPO会引入“专家数据”进行强力指导,相当于手把手教学,帮模型快速入门。
  • 当模型变“熟练”后:成功率提高,奖励密集,AHPO会逐渐“放手”,减少专家干预,鼓励模型自由探索,发现比标准答案更优、更巧妙的解法。

这种“扶上马、送一程、再放手”的自适应机制,完美解决了学习过程中的两难问题,让模型既能学到专家的智慧,又能发展出自己的独立思考能力。

实验结果

不仅精通难题,更能举一反三

搭载了MM-HELIX-100K和AHPO的Qwen2.5-VL-7B模型,实现了惊人的蜕变:

  • 在MM-HELIX基准测试上,准确率飙升+18.6%,一举超越了体量远大于自身的SOTA模型。
  • 更令人振奋的是,这种反思能力展现出了强大的泛化性!在多个通用的数学和逻辑推理任务上,模型平均性能提升了+5.7%。

这证明,MM-HELIX教会模型的不是如何“背题”,而是真正掌握了“反思”这一可迁移的元能力。

MM-HELIX Benchmark,MM-HELIX 100k,MM-HELIX Sandbox Environment目前均已开源。

项目主页: https://mm-helix.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
厅级干部已经成为了高危职业

厅级干部已经成为了高危职业

风向观察
2026-05-04 14:17:07
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
张文宏:汉坦病毒传播路径异常

张文宏:汉坦病毒传播路径异常

21世纪经济报道
2026-05-10 13:22:03
伊朗因储油罐已满而将石油排入海中?伊官员:欧洲油轮干的

伊朗因储油罐已满而将石油排入海中?伊官员:欧洲油轮干的

观察者网
2026-05-09 09:10:04
“近一半的孩子不正常”,男老师吐槽乡镇学校现状,令人脊背发凉

“近一半的孩子不正常”,男老师吐槽乡镇学校现状,令人脊背发凉

妍妍教育日记
2026-05-09 13:54:42
成本暴降80%!几百万网约车司机要丢饭碗?出行巨头血拼千亿底盘

成本暴降80%!几百万网约车司机要丢饭碗?出行巨头血拼千亿底盘

侃故事的阿庆
2026-05-10 08:38:19
平均每天的抽烟上限是多少?医生:控制在这个数,无伤大雅!

平均每天的抽烟上限是多少?医生:控制在这个数,无伤大雅!

今日养生之道
2026-05-09 17:21:21
为什么大自然要把人类的寿命定在一百岁左右?

为什么大自然要把人类的寿命定在一百岁左右?

深度报
2026-05-08 22:43:48
世乒赛决赛预测:中国男团3-1日本夺12连冠 女团3-0日本轻取7连冠

世乒赛决赛预测:中国男团3-1日本夺12连冠 女团3-0日本轻取7连冠

风过乡
2026-05-10 07:51:31
张本智和再度豪言夺冠!日媒力挺:马龙樊振东隐退中国队实力大减

张本智和再度豪言夺冠!日媒力挺:马龙樊振东隐退中国队实力大减

颜小白的篮球梦
2026-05-10 08:32:23
红场阅兵外交暗战,中国如约亮相,亚美尼亚翻脸:不是普京盟友

红场阅兵外交暗战,中国如约亮相,亚美尼亚翻脸:不是普京盟友

游古史
2026-05-10 18:39:48
梦百合上空的鹰,时隔5年,战鹰终于赢棋了,结束九连败

梦百合上空的鹰,时隔5年,战鹰终于赢棋了,结束九连败

月满大江流
2026-05-10 08:12:06
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
中方连夜发布声明,涉疫船舶转交第三国!疫情暴发,谭德塞已行动

中方连夜发布声明,涉疫船舶转交第三国!疫情暴发,谭德塞已行动

基斯默默
2026-05-10 07:06:00
越来越多人查出胰腺炎?提醒:冰箱这5样东西放久了可能是元凶

越来越多人查出胰腺炎?提醒:冰箱这5样东西放久了可能是元凶

芹姐说生活
2026-05-08 19:03:26
比亚迪可能没想到,最大的对手不是特斯拉不是丰田,可能是追觅

比亚迪可能没想到,最大的对手不是特斯拉不是丰田,可能是追觅

娱乐圈的笔娱君
2026-05-10 15:14:52
德媒主编访华归来:深圳街头看到的一幕,让我为欧洲捏了一把冷汗

德媒主编访华归来:深圳街头看到的一幕,让我为欧洲捏了一把冷汗

補懂事的孩紙
2026-05-10 15:27:34
大妈抢座朝女子吐痰后续!长相曝光,还扯女子头发,或被处罚

大妈抢座朝女子吐痰后续!长相曝光,还扯女子头发,或被处罚

小鋭有话说
2026-05-10 10:29:19
看来中方迟迟不宣布特朗普访华行程是对的。

看来中方迟迟不宣布特朗普访华行程是对的。

果妈聊娱乐
2026-05-10 16:04:21
广州七中:关于广播站全面停止播放外文歌曲的通知

广州七中:关于广播站全面停止播放外文歌曲的通知

必记本
2026-05-10 17:54:30
2026-05-10 20:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12598文章数 176461关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

"孕妇泰国坠崖"当事人王暖暖病房落泪:只为陪孩子长大

头条要闻

"孕妇泰国坠崖"当事人王暖暖病房落泪:只为陪孩子长大

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

房产
游戏
亲子
公开课
军事航空

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

LCK第二赛段:许秀和DK领先后,不会打比赛!T1直落两局横扫DK

亲子要闻

普通家长用“我能跟你们一起玩吗”的金句,“坑”娃多年不自知

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版