网易首页 > 网易号 > 正文 申请入驻

多模态大模型学会反思复盘,上交&上海AI Lab破解多模态复杂推理

0
分享至

MM-HELIX团队 投稿
量子位 | 公众号 QbitAI

多模态大模型表现越来越惊艳,但人们也时常困于它的“耿直”。

无论是生成代码、分析图表还是回答问题,诸多多模态大模型(MLLM)都倾向于给出一个“一步到位”的答案。它们就像一个从不检查作业的“学霸”,虽然知识渊博,但一旦在复杂的、需要反复试错的问题上走错一步,就很难回头。这种能力的缺失,正是阻碍AI从“知识容器”迈向“问题解决大师”的关键瓶颈。

现在,来自上海交通大学和上海人工智能实验室的研究团队,带来了新的解决方案——MM-HELIX

MM-HELIX不仅是一个项目,更是一个完整的生态体系,旨在赋予AI一种最接近人类智慧的能力:长链反思性推理(long-chain reflective reasoning)



多种多模态反思任务

第一击:一把“终极标尺”——MM-HELIX基准测试

我们无法提升我们无法衡量的东西。为了精准评估AI的反思推理能力,团队首先构建了一个前所未有的“终极考场”——MM-HELIX Benchmark

它不再是简单的看图说话或数学计算,而是包含了42种横跨算法、图论、谜题和策略游戏的超高难度任务,例如:

  • 逻辑的迷宫:在“扫雷”中根据数字线索进行缜密推理与回溯。
  • 策略的博弈:在“推箱子”中规划长远,避免一步走错,满盘皆输。
  • 算法的具象:寻找图中的“哈密顿路径”,需要在脑海中进行多次路径规划与剪枝。

团队搭建了42个任务的Sandbox,包含Generator,Solver,Validator等多个关键部件,并根据题目复杂度区分了五层难度,并最终收集了1260道题目,对当前的多模态大模型进行了细粒度的评估,评估结果如下:



MM-HELIX评估结果

测试结果令人震惊:即便是当前最顶尖的闭源和开源模型,在这份考卷上也纷纷“折戟”,准确率惨淡,仅有GPT5超过了50分;不具有反思能力的模型更是只有10分左右的准确率。与此同时,模型在面对多模态输入时,准确率相比于纯文本输入有大幅的下降。这有力地证明了,教会多模态大模型反思,刻不容缓!

第二击:一本“传世秘籍”——MM-HELIX-100K数据集

如何教会多模态大模型“三思而后行”?你需要一本好的教科书。

为此,团队采用“步骤启发式响应生成”(Step-Elicited Response Generation, SERG)流程,基于MM-HELIX Sandbox数据引擎,通过给模型提供解题的关键步骤(key step)来生成解题过程,不仅相比直接让模型解题(rollout)推理时间减少了90%,同时还大幅降低了解题过程中过度反思带来的冗余度,高效高质地生成了多模态反思性思维链。

基于SERG流水线,作者团队打造了MM-HELIX-100K,一个包含10万个高质量样本的“反思推理秘籍”。这种充满“自我纠错”和“灵光一闪”的数据,是教会多模态学会反思与复盘的完美养料。

第三击:一位“智慧导师”——AHPO自适应混合策略优化算法



AHPO算法示意图

有了“考场”和“秘籍”,还需要一位懂得因材施教的“导师”。

直接微调方法(SFT)容易导致模型在通用能力上“灾难性遗忘”,而On-policy强化学习则因任务难度过高,奖励稀疏而“学不会”。

为此,团队提出了创新的自适应混合策略优化算法(Adaptive Hybrid Policy Optimization, AHPO)

AHPO算法的智慧之处在于它的“动态教学”:

  • 当模型是“新手”时:在复杂任务上屡屡碰壁,奖励稀疏,AHPO会引入“专家数据”进行强力指导,相当于手把手教学,帮模型快速入门。
  • 当模型变“熟练”后:成功率提高,奖励密集,AHPO会逐渐“放手”,减少专家干预,鼓励模型自由探索,发现比标准答案更优、更巧妙的解法。

这种“扶上马、送一程、再放手”的自适应机制,完美解决了学习过程中的两难问题,让模型既能学到专家的智慧,又能发展出自己的独立思考能力。



实验结果

不仅精通难题,更能举一反三

搭载了MM-HELIX-100K和AHPO的Qwen2.5-VL-7B模型,实现了惊人的蜕变:

  • 在MM-HELIX基准测试上,准确率飙升+18.6%,一举超越了体量远大于自身的SOTA模型。
  • 更令人振奋的是,这种反思能力展现出了强大的泛化性!在多个通用的数学和逻辑推理任务上,模型平均性能提升了+5.7%。

这证明,MM-HELIX教会模型的不是如何“背题”,而是真正掌握了“反思”这一可迁移的元能力。

MM-HELIX Benchmark,MM-HELIX 100k,MM-HELIX Sandbox Environment目前均已开源。

项目主页: https://mm-helix.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国评1979年中越战争:打了28天,中国军队出现了很多问题

美国评1979年中越战争:打了28天,中国军队出现了很多问题

小豫讲故事
2026-01-31 06:00:10
曼联暗度陈仓!卡塞米罗接班人早已敲定,竟是 “新凯塞多”?

曼联暗度陈仓!卡塞米罗接班人早已敲定,竟是 “新凯塞多”?

澜归序
2026-02-02 07:23:37
贵阳贯城河(博爱路段)即将焕新亮相

贵阳贯城河(博爱路段)即将焕新亮相

知知贵阳
2026-02-02 20:47:33
善恶到头终有报!68岁瘫在轮椅上的张铁林,如今的下场怪不了别人

善恶到头终有报!68岁瘫在轮椅上的张铁林,如今的下场怪不了别人

草莓解说体育
2026-02-01 19:54:59
孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

娱乐领航家
2026-01-09 22:00:03
中国收到信函,美国的阴谋将得逞!190多国见证,中国成定海神针

中国收到信函,美国的阴谋将得逞!190多国见证,中国成定海神针

健身狂人
2026-02-02 03:48:31
刘强东这次送年货没发钱,71岁大爷被问是否失望,老人回答太戳心

刘强东这次送年货没发钱,71岁大爷被问是否失望,老人回答太戳心

胡一舸南游y
2026-02-01 23:06:51
塞尔维亚“倒戈”?从挺俄到援乌,为何转变这么大?

塞尔维亚“倒戈”?从挺俄到援乌,为何转变这么大?

热点菌本君
2025-11-04 14:19:42
大S雕像揭幕现场照,S妈穿黑衣悲伤又憔悴,具俊晔放弃遗产将返韩

大S雕像揭幕现场照,S妈穿黑衣悲伤又憔悴,具俊晔放弃遗产将返韩

疯说时尚
2026-02-02 14:26:15
54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

小徐讲八卦
2025-11-17 07:29:28
流浪控卫!生涯被交易8次+5年换9队,省下5000万,骑士要感谢他

流浪控卫!生涯被交易8次+5年换9队,省下5000万,骑士要感谢他

球童无忌
2026-02-02 22:04:09
1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

1958年,张国焘请求中央给予他补助,毛主席同意,但提出一个条件

帝哥说史
2026-01-17 06:40:03
陪睡上位,赶走原配?46岁宋佳再次官宣喜讯,彻底打脸整个娱乐圈

陪睡上位,赶走原配?46岁宋佳再次官宣喜讯,彻底打脸整个娱乐圈

素衣读史
2025-12-31 15:02:59
中国第一地级市为什么是苏州?难道深圳不是广东的地级市?

中国第一地级市为什么是苏州?难道深圳不是广东的地级市?

混沌录
2026-02-01 22:28:21
《生命树》死于乱枪下,尸骨17年后才被找到,胡歌剧中结局太悲怆

《生命树》死于乱枪下,尸骨17年后才被找到,胡歌剧中结局太悲怆

小丸子的娱乐圈
2026-02-01 18:45:30
闻泰科技站在危墙之下

闻泰科技站在危墙之下

经济观察报
2026-02-02 18:44:47
1月车市大震荡!8家汽车大集团最新销量出炉

1月车市大震荡!8家汽车大集团最新销量出炉

新浪财经
2026-02-02 21:44:46
为什么多数人去非洲后都不愿回来?网友:不安全,但钱多到花不完

为什么多数人去非洲后都不愿回来?网友:不安全,但钱多到花不完

夜深爱杂谈
2026-02-02 21:39:18
流亡一年后,阿萨德已成“透明人”,连约普京吃顿饭都做不到

流亡一年后,阿萨德已成“透明人”,连约普京吃顿饭都做不到

朔方瞭望
2026-01-06 11:11:51
江苏婚车被拦后续:原因疑似曝光,特意请假,朋友在小卖部等号令

江苏婚车被拦后续:原因疑似曝光,特意请假,朋友在小卖部等号令

离离言几许
2026-02-01 20:13:46
2026-02-02 23:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12101文章数 176369关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

英国首相身边"中文十级"女星火了:曾参演007系列

头条要闻

英国首相身边"中文十级"女星火了:曾参演007系列

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

本地
时尚
房产
公开课
军事航空

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

霸榜热搜,尺度惊人,他绝对值得你追

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版