网易首页 > 网易号 > 正文 申请入驻

多模态大模型学会反思复盘,上交&上海AI Lab破解多模态复杂推理

0
分享至

MM-HELIX团队 投稿
量子位 | 公众号 QbitAI

多模态大模型表现越来越惊艳,但人们也时常困于它的“耿直”。

无论是生成代码、分析图表还是回答问题,诸多多模态大模型(MLLM)都倾向于给出一个“一步到位”的答案。它们就像一个从不检查作业的“学霸”,虽然知识渊博,但一旦在复杂的、需要反复试错的问题上走错一步,就很难回头。这种能力的缺失,正是阻碍AI从“知识容器”迈向“问题解决大师”的关键瓶颈。

现在,来自上海交通大学和上海人工智能实验室的研究团队,带来了新的解决方案——MM-HELIX

MM-HELIX不仅是一个项目,更是一个完整的生态体系,旨在赋予AI一种最接近人类智慧的能力:长链反思性推理(long-chain reflective reasoning)



多种多模态反思任务

第一击:一把“终极标尺”——MM-HELIX基准测试

我们无法提升我们无法衡量的东西。为了精准评估AI的反思推理能力,团队首先构建了一个前所未有的“终极考场”——MM-HELIX Benchmark

它不再是简单的看图说话或数学计算,而是包含了42种横跨算法、图论、谜题和策略游戏的超高难度任务,例如:

  • 逻辑的迷宫:在“扫雷”中根据数字线索进行缜密推理与回溯。
  • 策略的博弈:在“推箱子”中规划长远,避免一步走错,满盘皆输。
  • 算法的具象:寻找图中的“哈密顿路径”,需要在脑海中进行多次路径规划与剪枝。

团队搭建了42个任务的Sandbox,包含Generator,Solver,Validator等多个关键部件,并根据题目复杂度区分了五层难度,并最终收集了1260道题目,对当前的多模态大模型进行了细粒度的评估,评估结果如下:



MM-HELIX评估结果

测试结果令人震惊:即便是当前最顶尖的闭源和开源模型,在这份考卷上也纷纷“折戟”,准确率惨淡,仅有GPT5超过了50分;不具有反思能力的模型更是只有10分左右的准确率。与此同时,模型在面对多模态输入时,准确率相比于纯文本输入有大幅的下降。这有力地证明了,教会多模态大模型反思,刻不容缓!

第二击:一本“传世秘籍”——MM-HELIX-100K数据集

如何教会多模态大模型“三思而后行”?你需要一本好的教科书。

为此,团队采用“步骤启发式响应生成”(Step-Elicited Response Generation, SERG)流程,基于MM-HELIX Sandbox数据引擎,通过给模型提供解题的关键步骤(key step)来生成解题过程,不仅相比直接让模型解题(rollout)推理时间减少了90%,同时还大幅降低了解题过程中过度反思带来的冗余度,高效高质地生成了多模态反思性思维链。

基于SERG流水线,作者团队打造了MM-HELIX-100K,一个包含10万个高质量样本的“反思推理秘籍”。这种充满“自我纠错”和“灵光一闪”的数据,是教会多模态学会反思与复盘的完美养料。

第三击:一位“智慧导师”——AHPO自适应混合策略优化算法



AHPO算法示意图

有了“考场”和“秘籍”,还需要一位懂得因材施教的“导师”。

直接微调方法(SFT)容易导致模型在通用能力上“灾难性遗忘”,而On-policy强化学习则因任务难度过高,奖励稀疏而“学不会”。

为此,团队提出了创新的自适应混合策略优化算法(Adaptive Hybrid Policy Optimization, AHPO)

AHPO算法的智慧之处在于它的“动态教学”:

  • 当模型是“新手”时:在复杂任务上屡屡碰壁,奖励稀疏,AHPO会引入“专家数据”进行强力指导,相当于手把手教学,帮模型快速入门。
  • 当模型变“熟练”后:成功率提高,奖励密集,AHPO会逐渐“放手”,减少专家干预,鼓励模型自由探索,发现比标准答案更优、更巧妙的解法。

这种“扶上马、送一程、再放手”的自适应机制,完美解决了学习过程中的两难问题,让模型既能学到专家的智慧,又能发展出自己的独立思考能力。



实验结果

不仅精通难题,更能举一反三

搭载了MM-HELIX-100K和AHPO的Qwen2.5-VL-7B模型,实现了惊人的蜕变:

  • 在MM-HELIX基准测试上,准确率飙升+18.6%,一举超越了体量远大于自身的SOTA模型。
  • 更令人振奋的是,这种反思能力展现出了强大的泛化性!在多个通用的数学和逻辑推理任务上,模型平均性能提升了+5.7%。

这证明,MM-HELIX教会模型的不是如何“背题”,而是真正掌握了“反思”这一可迁移的元能力。

MM-HELIX Benchmark,MM-HELIX 100k,MM-HELIX Sandbox Environment目前均已开源。

项目主页: https://mm-helix.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
詹姆斯亲自下场回应历史最佳之争:如果我是总经理手握状元签,我会选我自己

詹姆斯亲自下场回应历史最佳之争:如果我是总经理手握状元签,我会选我自己

刘哥谈体育
2026-03-24 01:22:40
致命围堵!7500人强攻哈尔克岛,伊朗生死线告急

致命围堵!7500人强攻哈尔克岛,伊朗生死线告急

孤城落叶
2026-03-25 14:06:37
我出差两星期,回家刚抱住老婆,4岁女儿的一句话让我懵了

我出差两星期,回家刚抱住老婆,4岁女儿的一句话让我懵了

晓艾故事汇
2025-09-05 17:18:20
匈牙利4月大选引发欧美俄多方角力,特朗普再表态声援欧尔班

匈牙利4月大选引发欧美俄多方角力,特朗普再表态声援欧尔班

环球网资讯
2026-03-25 11:14:56
深夜突发!一则消息,竟改变了中国能建、金开新能、华电的逻辑

深夜突发!一则消息,竟改变了中国能建、金开新能、华电的逻辑

风风顺
2026-03-26 06:44:30
俄罗斯一天发射948架无人机,泽连斯基暴怒:俄罗斯不想结束战争

俄罗斯一天发射948架无人机,泽连斯基暴怒:俄罗斯不想结束战争

起喜电影
2026-03-26 05:34:55
在岸人民币兑美元(CNY)北京时间03:00收报6.8986元,较周二夜盘收盘跌70点

在岸人民币兑美元(CNY)北京时间03:00收报6.8986元,较周二夜盘收盘跌70点

每日经济新闻
2026-03-26 05:37:03
继母烫幼子下体逼吃大便 姐弟惨遭虐待生母怒讨说法

继母烫幼子下体逼吃大便 姐弟惨遭虐待生母怒讨说法

大象新闻
2026-03-25 12:09:04
伊朗连发两条公告,一排排地下导弹出镜,欧洲不淡定了,美以沉默

伊朗连发两条公告,一排排地下导弹出镜,欧洲不淡定了,美以沉默

漫步独行侠
2026-03-25 08:38:05
人民日报专访陈梦!不谈金牌退役,句句不提孙颖莎,却字字藏着她

人民日报专访陈梦!不谈金牌退役,句句不提孙颖莎,却字字藏着她

林雁飞
2026-03-25 16:09:46
林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

扬平说史
2026-03-25 21:04:04
早知道|NBA扩军计划启动

早知道|NBA扩军计划启动

北青网-北京青年报
2026-03-26 08:43:02
独立百年的蒙古国,正在把中国人40年的努力悄悄毁掉

独立百年的蒙古国,正在把中国人40年的努力悄悄毁掉

犀利辣椒
2026-03-19 06:40:31
伊朗复仇,美国最害怕的事情发生!战争令人想起这位累死的大人物

伊朗复仇,美国最害怕的事情发生!战争令人想起这位累死的大人物

华人星光
2026-03-20 11:48:15
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
“甘蔗都干成棒棒了,你到哪去了”,四川男子全网寻找卖甘蔗大哥,当地回应:人找到了,生病了,已帮忙保管物品

“甘蔗都干成棒棒了,你到哪去了”,四川男子全网寻找卖甘蔗大哥,当地回应:人找到了,生病了,已帮忙保管物品

大象新闻
2026-03-25 22:45:04
特朗普:台湾属于中国,武统是中方的自由,但一动手美国会不高兴

特朗普:台湾属于中国,武统是中方的自由,但一动手美国会不高兴

共工之锚
2026-03-22 00:48:09
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

秋姐居
2026-03-25 10:22:58
皇马5-1曼城后0-1负弱旅,百年顽疾拖垮球队

皇马5-1曼城后0-1负弱旅,百年顽疾拖垮球队

徐纗老表哥
2026-03-25 07:21:41
一男子失业拿了50万赔偿回村里,逢人说欠了30万外债,谁料第二天叔伯兄弟,都上门来“送温暖”了

一男子失业拿了50万赔偿回村里,逢人说欠了30万外债,谁料第二天叔伯兄弟,都上门来“送温暖”了

不二大叔
2026-03-19 21:29:20
2026-03-26 09:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12344文章数 176424关注度
往期回顾 全部

科技要闻

硅谷因AI大裁员?一线工程师戳破真相

头条要闻

"10元手冲咖啡"阿姨曾1天卖1000杯 如今只卖两三杯

头条要闻

"10元手冲咖啡"阿姨曾1天卖1000杯 如今只卖两三杯

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰遗产分割复杂!是否立遗嘱成关键

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

房产
本地
数码
旅游
公开课

房产要闻

41亿!259亩!建学校…三亚这个大城更,最新方案曝光!

本地新闻

来永泰同安 赴一场春天的约会

数码要闻

开源隐私平板open_slate发布:独立物理开关可切断传感器电源

旅游要闻

秦岭子午峪的“霸气”游客,你的底气从何而来?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版