网易首页 > 网易号 > 正文 申请入驻

多模态大模型学会反思复盘,上交&上海AI Lab破解多模态复杂推理

0
分享至

MM-HELIX团队 投稿
量子位 | 公众号 QbitAI

多模态大模型表现越来越惊艳,但人们也时常困于它的“耿直”。

无论是生成代码、分析图表还是回答问题,诸多多模态大模型(MLLM)都倾向于给出一个“一步到位”的答案。它们就像一个从不检查作业的“学霸”,虽然知识渊博,但一旦在复杂的、需要反复试错的问题上走错一步,就很难回头。这种能力的缺失,正是阻碍AI从“知识容器”迈向“问题解决大师”的关键瓶颈。

现在,来自上海交通大学和上海人工智能实验室的研究团队,带来了新的解决方案——MM-HELIX

MM-HELIX不仅是一个项目,更是一个完整的生态体系,旨在赋予AI一种最接近人类智慧的能力:长链反思性推理(long-chain reflective reasoning)

多种多模态反思任务

第一击:一把“终极标尺”——MM-HELIX基准测试

我们无法提升我们无法衡量的东西。为了精准评估AI的反思推理能力,团队首先构建了一个前所未有的“终极考场”——MM-HELIX Benchmark

它不再是简单的看图说话或数学计算,而是包含了42种横跨算法、图论、谜题和策略游戏的超高难度任务,例如:

  • 逻辑的迷宫:在“扫雷”中根据数字线索进行缜密推理与回溯。
  • 策略的博弈:在“推箱子”中规划长远,避免一步走错,满盘皆输。
  • 算法的具象:寻找图中的“哈密顿路径”,需要在脑海中进行多次路径规划与剪枝。

团队搭建了42个任务的Sandbox,包含Generator,Solver,Validator等多个关键部件,并根据题目复杂度区分了五层难度,并最终收集了1260道题目,对当前的多模态大模型进行了细粒度的评估,评估结果如下:

MM-HELIX评估结果

测试结果令人震惊:即便是当前最顶尖的闭源和开源模型,在这份考卷上也纷纷“折戟”,准确率惨淡,仅有GPT5超过了50分;不具有反思能力的模型更是只有10分左右的准确率。与此同时,模型在面对多模态输入时,准确率相比于纯文本输入有大幅的下降。这有力地证明了,教会多模态大模型反思,刻不容缓!

第二击:一本“传世秘籍”——MM-HELIX-100K数据集

如何教会多模态大模型“三思而后行”?你需要一本好的教科书。

为此,团队采用“步骤启发式响应生成”(Step-Elicited Response Generation, SERG)流程,基于MM-HELIX Sandbox数据引擎,通过给模型提供解题的关键步骤(key step)来生成解题过程,不仅相比直接让模型解题(rollout)推理时间减少了90%,同时还大幅降低了解题过程中过度反思带来的冗余度,高效高质地生成了多模态反思性思维链。

基于SERG流水线,作者团队打造了MM-HELIX-100K,一个包含10万个高质量样本的“反思推理秘籍”。这种充满“自我纠错”和“灵光一闪”的数据,是教会多模态学会反思与复盘的完美养料。

第三击:一位“智慧导师”——AHPO自适应混合策略优化算法

AHPO算法示意图

有了“考场”和“秘籍”,还需要一位懂得因材施教的“导师”。

直接微调方法(SFT)容易导致模型在通用能力上“灾难性遗忘”,而On-policy强化学习则因任务难度过高,奖励稀疏而“学不会”。

为此,团队提出了创新的自适应混合策略优化算法(Adaptive Hybrid Policy Optimization, AHPO)

AHPO算法的智慧之处在于它的“动态教学”:

  • 当模型是“新手”时:在复杂任务上屡屡碰壁,奖励稀疏,AHPO会引入“专家数据”进行强力指导,相当于手把手教学,帮模型快速入门。
  • 当模型变“熟练”后:成功率提高,奖励密集,AHPO会逐渐“放手”,减少专家干预,鼓励模型自由探索,发现比标准答案更优、更巧妙的解法。

这种“扶上马、送一程、再放手”的自适应机制,完美解决了学习过程中的两难问题,让模型既能学到专家的智慧,又能发展出自己的独立思考能力。

实验结果

不仅精通难题,更能举一反三

搭载了MM-HELIX-100K和AHPO的Qwen2.5-VL-7B模型,实现了惊人的蜕变:

  • 在MM-HELIX基准测试上,准确率飙升+18.6%,一举超越了体量远大于自身的SOTA模型。
  • 更令人振奋的是,这种反思能力展现出了强大的泛化性!在多个通用的数学和逻辑推理任务上,模型平均性能提升了+5.7%。

这证明,MM-HELIX教会模型的不是如何“背题”,而是真正掌握了“反思”这一可迁移的元能力。

MM-HELIX Benchmark,MM-HELIX 100k,MM-HELIX Sandbox Environment目前均已开源。

项目主页: https://mm-helix.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
8换2大交易!森林狼获三球搭档华子冲冠 黄蜂获里德+多个选秀权

8换2大交易!森林狼获三球搭档华子冲冠 黄蜂获里德+多个选秀权

醉卧浮生
2026-06-25 21:35:42
1-2!2-0!世界杯疯狂一夜:德国故意放水,三队出线,韩国却最惨

1-2!2-0!世界杯疯狂一夜:德国故意放水,三队出线,韩国却最惨

体育就你秀
2026-06-26 06:37:06
重磅!美国就俄乌战争作出公开表态!白俄对乌打开边境

重磅!美国就俄乌战争作出公开表态!白俄对乌打开边境

史政先锋
2026-06-25 20:58:05
队史首次晋级淘汰赛!枪手旧将双响+队史第1人 科特迪瓦2-0库拉索

队史首次晋级淘汰赛!枪手旧将双响+队史第1人 科特迪瓦2-0库拉索

钉钉陌上花开
2026-06-26 06:03:22
比富二代难百倍!江浙沪厂二代,正在接一场更难的班

比富二代难百倍!江浙沪厂二代,正在接一场更难的班

菁菁子衿
2026-06-25 15:07:43
K组彻底乱套!葡萄牙5球白赢,哥伦比亚一剑封喉,C罗被逼入绝境

K组彻底乱套!葡萄牙5球白赢,哥伦比亚一剑封喉,C罗被逼入绝境

童叔不飙车
2026-06-26 00:50:15
随着日本1-1,荷兰3-1,世界杯十六分之一决赛对阵已出炉3场

随着日本1-1,荷兰3-1,世界杯十六分之一决赛对阵已出炉3场

侧身凌空斩
2026-06-26 09:09:19
白玉兰提名晚宴:杨幂造型出众,秦海璐状态好,任素汐郭京飞松弛

白玉兰提名晚宴:杨幂造型出众,秦海璐状态好,任素汐郭京飞松弛

八卦先生
2026-06-25 22:29:37
19岁网红“钟美美”被波士顿大学录取引争议,网友到底在“酸”什么?

19岁网红“钟美美”被波士顿大学录取引争议,网友到底在“酸”什么?

新民周刊
2026-06-25 16:19:30
《抓特务》在整个京圈从艺人到自媒体的集体商业互捧中,冯小刚应该心里明白,大势已去

《抓特务》在整个京圈从艺人到自媒体的集体商业互捧中,冯小刚应该心里明白,大势已去

老吴教育课堂
2026-06-26 01:52:56
一场3-1,让日本对阵巴西!亚洲首支晋级球队诞生,荷兰稳进八强

一场3-1,让日本对阵巴西!亚洲首支晋级球队诞生,荷兰稳进八强

侃球熊弟
2026-06-26 07:29:34
她就是世界杯上走红,五官完美的雅利安(波斯)美女球迷!

她就是世界杯上走红,五官完美的雅利安(波斯)美女球迷!

吃瓜党二号头目
2026-06-26 09:09:48
银行行长出手阔绰,4小时赌光6000万,出手66万红包,一查贪了40亿

银行行长出手阔绰,4小时赌光6000万,出手66万红包,一查贪了40亿

墨策史
2026-06-26 01:05:05
马未都说北京没“走个面”这话,批评韩红江湖气重:花钱的才是爷

马未都说北京没“走个面”这话,批评韩红江湖气重:花钱的才是爷

萌神木木
2026-06-25 13:56:33
长发主帅冲上看台!世界第28逆袭:2-1掀翻德国队 时隔20年再出线

长发主帅冲上看台!世界第28逆袭:2-1掀翻德国队 时隔20年再出线

风过乡
2026-06-26 06:15:14
0-1输球后再迎坏消息,韩国3分或也难出线,球迷:被德国摆一道!

0-1输球后再迎坏消息,韩国3分或也难出线,球迷:被德国摆一道!

我就是一个说球的
2026-06-25 19:40:03
“霸总专业户”退出短剧后摆摊卖菜,“我依然想演戏”

“霸总专业户”退出短剧后摆摊卖菜,“我依然想演戏”

极目新闻
2026-06-25 19:29:22
日本3-1全胜巴西爆冷,世界第一逆天翻盘

日本3-1全胜巴西爆冷,世界第一逆天翻盘

李橑在北漂
2026-06-26 05:09:46
又签了!湖人再签4人!詹姆斯去克利夫兰训练了...

又签了!湖人再签4人!詹姆斯去克利夫兰训练了...

詹姆斯吧
2026-06-26 02:04:39
院士感慨:磷酸铁锂是上帝给中国最好的礼物之一!1000公里10分钟快充,还有很长的生命周期,该满足的都满足了!

院士感慨:磷酸铁锂是上帝给中国最好的礼物之一!1000公里10分钟快充,还有很长的生命周期,该满足的都满足了!

大白聊IT
2026-06-25 16:28:03
2026-06-26 10:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12842文章数 176505关注度
往期回顾 全部

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

头条要闻

牛弹琴:委内瑞拉强震或致10万人死亡 美欧被指负主责

头条要闻

牛弹琴:委内瑞拉强震或致10万人死亡 美欧被指负主责

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

旅游
家居
数码
亲子
公开课

旅游要闻

重庆最孤独的县城,藏在大巴山深处,距主城400公里街景很繁华

家居要闻

绿意盎然 自然之境

数码要闻

苹果或于今年推出搭载M5 Ultra芯片的新款Mac Studio 最高支持768GB统一内存

亲子要闻

胆囊摘除后出现这五个后遗症

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版