网易首页 > 网易号 > 正文 申请入驻

多模态大模型学会反思复盘,上交&上海AI Lab破解多模态复杂推理

0
分享至

MM-HELIX团队 投稿
量子位 | 公众号 QbitAI

多模态大模型表现越来越惊艳,但人们也时常困于它的“耿直”。

无论是生成代码、分析图表还是回答问题,诸多多模态大模型(MLLM)都倾向于给出一个“一步到位”的答案。它们就像一个从不检查作业的“学霸”,虽然知识渊博,但一旦在复杂的、需要反复试错的问题上走错一步,就很难回头。这种能力的缺失,正是阻碍AI从“知识容器”迈向“问题解决大师”的关键瓶颈。

现在,来自上海交通大学和上海人工智能实验室的研究团队,带来了新的解决方案——MM-HELIX

MM-HELIX不仅是一个项目,更是一个完整的生态体系,旨在赋予AI一种最接近人类智慧的能力:长链反思性推理(long-chain reflective reasoning)



多种多模态反思任务

第一击:一把“终极标尺”——MM-HELIX基准测试

我们无法提升我们无法衡量的东西。为了精准评估AI的反思推理能力,团队首先构建了一个前所未有的“终极考场”——MM-HELIX Benchmark

它不再是简单的看图说话或数学计算,而是包含了42种横跨算法、图论、谜题和策略游戏的超高难度任务,例如:

  • 逻辑的迷宫:在“扫雷”中根据数字线索进行缜密推理与回溯。
  • 策略的博弈:在“推箱子”中规划长远,避免一步走错,满盘皆输。
  • 算法的具象:寻找图中的“哈密顿路径”,需要在脑海中进行多次路径规划与剪枝。

团队搭建了42个任务的Sandbox,包含Generator,Solver,Validator等多个关键部件,并根据题目复杂度区分了五层难度,并最终收集了1260道题目,对当前的多模态大模型进行了细粒度的评估,评估结果如下:



MM-HELIX评估结果

测试结果令人震惊:即便是当前最顶尖的闭源和开源模型,在这份考卷上也纷纷“折戟”,准确率惨淡,仅有GPT5超过了50分;不具有反思能力的模型更是只有10分左右的准确率。与此同时,模型在面对多模态输入时,准确率相比于纯文本输入有大幅的下降。这有力地证明了,教会多模态大模型反思,刻不容缓!

第二击:一本“传世秘籍”——MM-HELIX-100K数据集

如何教会多模态大模型“三思而后行”?你需要一本好的教科书。

为此,团队采用“步骤启发式响应生成”(Step-Elicited Response Generation, SERG)流程,基于MM-HELIX Sandbox数据引擎,通过给模型提供解题的关键步骤(key step)来生成解题过程,不仅相比直接让模型解题(rollout)推理时间减少了90%,同时还大幅降低了解题过程中过度反思带来的冗余度,高效高质地生成了多模态反思性思维链。

基于SERG流水线,作者团队打造了MM-HELIX-100K,一个包含10万个高质量样本的“反思推理秘籍”。这种充满“自我纠错”和“灵光一闪”的数据,是教会多模态学会反思与复盘的完美养料。

第三击:一位“智慧导师”——AHPO自适应混合策略优化算法



AHPO算法示意图

有了“考场”和“秘籍”,还需要一位懂得因材施教的“导师”。

直接微调方法(SFT)容易导致模型在通用能力上“灾难性遗忘”,而On-policy强化学习则因任务难度过高,奖励稀疏而“学不会”。

为此,团队提出了创新的自适应混合策略优化算法(Adaptive Hybrid Policy Optimization, AHPO)

AHPO算法的智慧之处在于它的“动态教学”:

  • 当模型是“新手”时:在复杂任务上屡屡碰壁,奖励稀疏,AHPO会引入“专家数据”进行强力指导,相当于手把手教学,帮模型快速入门。
  • 当模型变“熟练”后:成功率提高,奖励密集,AHPO会逐渐“放手”,减少专家干预,鼓励模型自由探索,发现比标准答案更优、更巧妙的解法。

这种“扶上马、送一程、再放手”的自适应机制,完美解决了学习过程中的两难问题,让模型既能学到专家的智慧,又能发展出自己的独立思考能力。



实验结果

不仅精通难题,更能举一反三

搭载了MM-HELIX-100K和AHPO的Qwen2.5-VL-7B模型,实现了惊人的蜕变:

  • 在MM-HELIX基准测试上,准确率飙升+18.6%,一举超越了体量远大于自身的SOTA模型。
  • 更令人振奋的是,这种反思能力展现出了强大的泛化性!在多个通用的数学和逻辑推理任务上,模型平均性能提升了+5.7%。

这证明,MM-HELIX教会模型的不是如何“背题”,而是真正掌握了“反思”这一可迁移的元能力。

MM-HELIX Benchmark,MM-HELIX 100k,MM-HELIX Sandbox Environment目前均已开源。

项目主页: https://mm-helix.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重庆大拆迁!两江新区清单公布!新机遇来了!

重庆大拆迁!两江新区清单公布!新机遇来了!

阿离家居
2025-11-09 12:38:17
毛泽东的最后一首诗,字虽不多,但读来沧桑心碎,令人潸然泪下

毛泽东的最后一首诗,字虽不多,但读来沧桑心碎,令人潸然泪下

每日一首古诗词
2025-10-21 20:02:37
谁能想到?一个县城品牌,成了中产新宠,把波司登逼到墙角!

谁能想到?一个县城品牌,成了中产新宠,把波司登逼到墙角!

渔樵文史
2025-11-08 21:50:03
喊上门按摩,发现是女同学妈妈,结束后她问我:还要别的服务吗?

喊上门按摩,发现是女同学妈妈,结束后她问我:还要别的服务吗?

凯裕说故事
2025-09-03 16:59:48
葡萄牙穷到什么程度?我住了8个月,有些尴尬的现实得说出来

葡萄牙穷到什么程度?我住了8个月,有些尴尬的现实得说出来

诗意世界
2025-11-06 10:27:22
书记儿子考到林业局当科员,局长看他不顺眼,那天书记来视察项目

书记儿子考到林业局当科员,局长看他不顺眼,那天书记来视察项目

秋风专栏
2025-11-09 00:55:05
白百何工作室晒时间线,回应东京电影节争议:我方只要一个真实、正确的说法,而非避重就轻混淆视听,甚至无中生有

白百何工作室晒时间线,回应东京电影节争议:我方只要一个真实、正确的说法,而非避重就轻混淆视听,甚至无中生有

扬子晚报
2025-11-09 19:48:38
相较福建舰入列,法媒:最恐怖的是,中国一次服役一个航母编队

相较福建舰入列,法媒:最恐怖的是,中国一次服役一个航母编队

历史有些冷
2025-11-08 18:45:03
沉默的荣耀:从台湾游回大陆?他真的做到了,后成为世界银行行长

沉默的荣耀:从台湾游回大陆?他真的做到了,后成为世界银行行长

夏天银子多
2025-11-08 13:31:08
2胜7负,西部倒数第一!诺天王忍不住吐槽:这比赛看得让人难受

2胜7负,西部倒数第一!诺天王忍不住吐槽:这比赛看得让人难受

移动挡拆
2025-11-09 00:30:05
越南内部资料披露:杨得志为什么在中越战争中会比许世友厉害?

越南内部资料披露:杨得志为什么在中越战争中会比许世友厉害?

老范谈史
2025-11-06 13:55:44
美国没想到,日本也没想到,如今的中国浙江省,已成为全球焦点

美国没想到,日本也没想到,如今的中国浙江省,已成为全球焦点

阿燕姐说育儿
2025-11-09 08:03:57
光刻机大战:阿斯麦叛变,台积电转向,中国芯片逆袭

光刻机大战:阿斯麦叛变,台积电转向,中国芯片逆袭

蜉蝣说
2025-11-08 19:55:04
中国通告全球:7小时内成功发射两次火箭,引发高度关注

中国通告全球:7小时内成功发射两次火箭,引发高度关注

科技处长
2025-11-09 21:10:19
DNA之父沃森去世。天才科学家歧视女性和黑人,走完了争议的一生

DNA之父沃森去世。天才科学家歧视女性和黑人,走完了争议的一生

英国那些事儿
2025-11-08 23:16:14
性感丨歌舞青春,足坛插曲

性感丨歌舞青春,足坛插曲

足球周刊
2025-11-09 12:01:09
4-0大胜后没人跟梅西换球衣?原因曝光引热议,球迷:优质偶像

4-0大胜后没人跟梅西换球衣?原因曝光引热议,球迷:优质偶像

侧身凌空斩
2025-11-09 12:11:46
你坐火车时遇到哪些奇葩经历?网友:对,人间烟火气最令人着迷

你坐火车时遇到哪些奇葩经历?网友:对,人间烟火气最令人着迷

带你感受人间冷暖
2025-11-06 00:05:14
存世唯一“西洋”大金锭,无价之宝!

存世唯一“西洋”大金锭,无价之宝!

收藏大视界
2025-11-09 17:18:51
不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

芳芳历史烩
2025-09-24 20:13:19
2025-11-09 22:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
11647文章数 176329关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

两位欧洲政要将同日访华:一人曾被誉为欧洲"最帅王子"

头条要闻

两位欧洲政要将同日访华:一人曾被誉为欧洲"最帅王子"

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

本地
时尚
亲子
教育
公开课

本地新闻

这届干饭人,已经把博物馆吃成了食堂

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

亲子要闻

小龚大夫上线了

教育要闻

傲慢与偏见英文原版语音课08:给我的小莉齐美言几句啊!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版