网易首页 > 网易号 > 正文 申请入驻

“左右脑互搏”还是“协同作战”? Uni-MMMU评估「理解-生成」双向协同

0
分享至

解几何题时,你是否会先画一条辅助线来帮助思考?创作一幅画时,你是否需要先理解光影和物理原理?

这种「理解」与「生成」的紧密协同,是人类智能的核心特征。近年来,AI社区致力于构建「统一多模态模型」,期望它们能像人一样,在单个模型内同时具备强大的视觉理解和内容生成能力。

我们如何知道统一模型的生成和理解能力有何协同作用?

过去多模态评测常把理解与生成分开测,或只看表层一致性,难以揭示两者真正的交互与依赖。但很多真实任务恰恰要求“边画边想、边想边画”,体现出逻辑耦合。


论文标题: Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark 论文链接: https://arxiv.org/abs/2510.13759

为了解决这一问题,来自 S-Lab(南洋理工大学)、上海人工智能实验室、中国科学技术大学和香港中文大学的研究者们推出了 Uni-MMMU :

1.首个系统性评“理解↔生成双向增益”的基准:8 个推理中心任务,覆盖几何空间推理、STEM等强逻辑学科,分别检验“生成助理解”“理解助生成”。

2.过程+结果“双通道打分”:既看最终答案,也严查中间视觉步骤(如每一步生成图是否正确),并以可复现的程序化解析器/感知度量/模型打分综合评估,精准可复现。

3.关键发现:当前“统一模型”整体理解显著强于生成;“先生成中间态→再推理”比端到端更稳,若给到 “正确中间态(oracle)”,成绩还会显著上升。

一、Uni-MMMU:一个“双向奔赴”的协同基准


Uni-MMMU的设计理念是“双向耦合” (bidirectionally coupled)。它涵盖了科学、编码、数学和谜题等8个以推理为中心的领域,系统地考察两种核心协同路径:

范式一:理解指导生成 (Und aids Gen)

在这类任务中,模型必须先“想明白”,才能“画得对”。

科学(物理/化学/生物): 模型需根据给定的初始状态和科学原理(如“柠檬汁是酸性的”),推理出最终的物理或化学变化,并生成描绘该结果的图像(如“紫色石蕊试纸浸入后变红”)。

代码渲染: 模型被给予原始的图形渲染源代码(SVG) ,它必须在不依赖外部工具的情况下,“读懂”代码逻辑(如形状、颜色、位置),先用自然语言描述出场景,然后再精确地将代码“渲染”成图像 。

范式二:生成辅助理解 (Gen aids Und)

在这类任务中,模型必须“边画边想”,利用生成的图像来辅助自己找到答案。

几何题: 这是对人类解题思路的直接模拟。模型需要先根据指令“画出”正确的辅助线,生成一张新图 ,然后再利用这张自己生成的图来进行逻辑推理,最终解出答案 。

迷宫导航: 模型需要一步一步地走出迷宫 。每一步,它都必须交替生成(1)下一步的移动方向(文本)和(2)移动后迷宫的新状态(图像)。

滑块Puzzle: 类似于迷宫,模型需要规划出到达目标状态的最短路径,并交替输出文本的移动指令和对应的拼图视觉状态 。

Jigsaw拼图: 模型需要面对一块缺失的拼图和两个候选补丁 。它必须先分别生成“用候选A补全”和“用候选B补全”的两张完整图像 ,然后再“看着”自己生成的这两张图,做出判断和推理,选出正确答案 。

评价体系同样讲究:

  • 所有任务的理解和生成部分均提供GT,同时评估中间模态和最终答案

  • 迷宫/滑块设计代码解析器将图像解析为离散状态,既算步级准确率也算整题准确率;

  • 拼图用 DreamSim 量化生成图与GT的感知相似度;

  • 几何/科学/代码引入VLM 多维度打分,并报告Cohen’s κ与人类专家评估的一致度,强调可靠性。

二、评估与发现

研究团队使用 Uni-MMMU 对一系列开源闭源SOTA的统一模型(如 Bagel、nano-banana、GPT-4.1+GPT-image 等)和专用模型进行了全面评估 。


表中数据体现了开源与闭源模型之间的显著差距,此外结果也揭示了当前领域的重要见解:

发现一:生成理解协同作用真实有效

实验证明,这种「生成」与「理解」的协同是解决复杂问题的关键。分析显示,即使模型生成的中间步骤并不完美,也比完全不生成(即端到端)的方案准确率更高 。而当提供完美的中间步骤(Oracle)时,模型性能会得到巨幅提升 ,如表4所示。


发现二:当前统一模型普遍「偏科」,生成是最大瓶颈

评估暴露出一个清晰的趋势:当前统一模型严重偏向于「理解」能力,而「生成」能力是主要的瓶颈 。

模型的失败点高度集中在:

  1. 编辑一致性漂移

  2. 指令遵循不严

  3. 位置/拓扑偏差


例如,在代码渲染任务中,Qwen-Image-Edit 会错误地将本应是文本描述的 SVG 代码也“渲染”到图像上 。在迷宫任务中,Bagel 则倾向于生成无法解析的“无意义符号” 。


总之,当前主流模型在实验中暴露出生成能力“短板”、逻辑链条易断、空间表达偏差等痛点,也为下一代通用模型的优化指明了方向。未来,模型不再只是“看得懂”或“画得出”,而是要真正具备“看中有画、画中有思”的协同智能。Uni-MMMU 的发布无疑是迈向这一目标的重要一步。

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多地临时停课!疾控提醒:尚无特效治疗药,这类人特别注意

多地临时停课!疾控提醒:尚无特效治疗药,这类人特别注意

王誙自驾
2025-11-17 16:58:26
牛!28岁樊振东把中国前3赢了个遍 挺进男团决赛+2天后再战王楚钦

牛!28岁樊振东把中国前3赢了个遍 挺进男团决赛+2天后再战王楚钦

风过乡
2025-11-18 21:05:04
全运会金牌榜:山东队以43金领先,其他队伍表现各异

全运会金牌榜:山东队以43金领先,其他队伍表现各异

阿黼体育评论
2025-11-19 01:02:54
一夜3大消息!重大罚单公布,哈登绝杀被打手,詹姆斯赛季首秀

一夜3大消息!重大罚单公布,哈登绝杀被打手,詹姆斯赛季首秀

体坛小李
2025-11-19 07:32:17
日本外务省官员离开中国外交部

日本外务省官员离开中国外交部

财联社
2025-11-18 14:34:09
刚刚!金价,大逆转!美联储,降息大消息!

刚刚!金价,大逆转!美联储,降息大消息!

中国基金报
2025-11-18 19:19:10
65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

大龄女一晓彤
2025-09-23 19:35:20
深夜突发!全线大跌!

深夜突发!全线大跌!

证券时报
2025-11-19 00:15:09
西安百姓怒了:市监局沦为方红卫权力余毒重灾区!

西安百姓怒了:市监局沦为方红卫权力余毒重灾区!

老萧杂说
2025-11-18 20:00:31
狗主人赵某晖照片遭曝光:家住三层小洋房,不是差钱的人没法调解

狗主人赵某晖照片遭曝光:家住三层小洋房,不是差钱的人没法调解

汉史趣闻
2025-11-17 22:02:58
崂山坠崖的网红大叔走了!多人多次好意提示安全,招来的却是回怼

崂山坠崖的网红大叔走了!多人多次好意提示安全,招来的却是回怼

火山诗话
2025-11-18 07:50:09
40余家网店售卖二手军用物资被查 国家安全机关披露案件详情

40余家网店售卖二手军用物资被查 国家安全机关披露案件详情

新京报
2025-11-18 07:35:07
今日!NBA湖人VS爵士,詹皇伤停 东契奇率队冲3连胜,CCTV5无直播

今日!NBA湖人VS爵士,詹皇伤停 东契奇率队冲3连胜,CCTV5无直播

晚池
2025-11-19 02:22:58
马云戴工牌现身杭州蚂蚁园区 井贤栋、韩歆毅陪同

马云戴工牌现身杭州蚂蚁园区 井贤栋、韩歆毅陪同

观点机构
2025-11-18 19:59:21
央视曝光4种“致癌日用品”,家里千万别囤!越囤全家身体越差!

央视曝光4种“致癌日用品”,家里千万别囤!越囤全家身体越差!

39健康网
2025-11-16 20:35:40
宋佳夺影后动了谁的奶酪?遭遇全网尬黑,人民日报都看不下去了?

宋佳夺影后动了谁的奶酪?遭遇全网尬黑,人民日报都看不下去了?

娱乐圈笔娱君
2025-11-18 14:22:40
寿命长短与喝酒有很大关系?调查11558名饮酒者,终于得出答案

寿命长短与喝酒有很大关系?调查11558名饮酒者,终于得出答案

39健康网
2025-11-06 10:34:05
第一财经不愧沪上媒体的脊梁

第一财经不愧沪上媒体的脊梁

新浪财经
2025-11-17 13:51:58
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
笑晕!广东人都这么会省钱的吗?网友:有点离谱但合理呀!

笑晕!广东人都这么会省钱的吗?网友:有点离谱但合理呀!

夜深爱杂谈
2025-11-18 21:29:39
2025-11-19 09:03:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2262文章数 596关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

美女主播设"同城约会"骗局:刷礼物换"香艳"视频

头条要闻

美女主播设"同城约会"骗局:刷礼物换"香艳"视频

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

大规模宕机!美国多个网站崩了

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

教育
家居
亲子
本地
公开课

教育要闻

深圳中学简直一整个误闯天家啊

家居要闻

彰显奢华 意式经典风格

亲子要闻

冬季克服寒冷锻炼孩子意志力

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版