网易首页 > 网易号 > 正文 申请入驻

“左右脑互搏”还是“协同作战”? Uni-MMMU评估「理解-生成」双向协同

0
分享至

解几何题时,你是否会先画一条辅助线来帮助思考?创作一幅画时,你是否需要先理解光影和物理原理?

这种「理解」与「生成」的紧密协同,是人类智能的核心特征。近年来,AI社区致力于构建「统一多模态模型」,期望它们能像人一样,在单个模型内同时具备强大的视觉理解和内容生成能力。

我们如何知道统一模型的生成和理解能力有何协同作用?

过去多模态评测常把理解与生成分开测,或只看表层一致性,难以揭示两者真正的交互与依赖。但很多真实任务恰恰要求“边画边想、边想边画”,体现出逻辑耦合。


论文标题: Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark 论文链接: https://arxiv.org/abs/2510.13759

为了解决这一问题,来自 S-Lab(南洋理工大学)、上海人工智能实验室、中国科学技术大学和香港中文大学的研究者们推出了 Uni-MMMU :

1.首个系统性评“理解↔生成双向增益”的基准:8 个推理中心任务,覆盖几何空间推理、STEM等强逻辑学科,分别检验“生成助理解”“理解助生成”。

2.过程+结果“双通道打分”:既看最终答案,也严查中间视觉步骤(如每一步生成图是否正确),并以可复现的程序化解析器/感知度量/模型打分综合评估,精准可复现。

3.关键发现:当前“统一模型”整体理解显著强于生成;“先生成中间态→再推理”比端到端更稳,若给到 “正确中间态(oracle)”,成绩还会显著上升。

一、Uni-MMMU:一个“双向奔赴”的协同基准


Uni-MMMU的设计理念是“双向耦合” (bidirectionally coupled)。它涵盖了科学、编码、数学和谜题等8个以推理为中心的领域,系统地考察两种核心协同路径:

范式一:理解指导生成 (Und aids Gen)

在这类任务中,模型必须先“想明白”,才能“画得对”。

科学(物理/化学/生物): 模型需根据给定的初始状态和科学原理(如“柠檬汁是酸性的”),推理出最终的物理或化学变化,并生成描绘该结果的图像(如“紫色石蕊试纸浸入后变红”)。

代码渲染: 模型被给予原始的图形渲染源代码(SVG) ,它必须在不依赖外部工具的情况下,“读懂”代码逻辑(如形状、颜色、位置),先用自然语言描述出场景,然后再精确地将代码“渲染”成图像 。

范式二:生成辅助理解 (Gen aids Und)

在这类任务中,模型必须“边画边想”,利用生成的图像来辅助自己找到答案。

几何题: 这是对人类解题思路的直接模拟。模型需要先根据指令“画出”正确的辅助线,生成一张新图 ,然后再利用这张自己生成的图来进行逻辑推理,最终解出答案 。

迷宫导航: 模型需要一步一步地走出迷宫 。每一步,它都必须交替生成(1)下一步的移动方向(文本)和(2)移动后迷宫的新状态(图像)。

滑块Puzzle: 类似于迷宫,模型需要规划出到达目标状态的最短路径,并交替输出文本的移动指令和对应的拼图视觉状态 。

Jigsaw拼图: 模型需要面对一块缺失的拼图和两个候选补丁 。它必须先分别生成“用候选A补全”和“用候选B补全”的两张完整图像 ,然后再“看着”自己生成的这两张图,做出判断和推理,选出正确答案 。

评价体系同样讲究:

  • 所有任务的理解和生成部分均提供GT,同时评估中间模态和最终答案

  • 迷宫/滑块设计代码解析器将图像解析为离散状态,既算步级准确率也算整题准确率;

  • 拼图用 DreamSim 量化生成图与GT的感知相似度;

  • 几何/科学/代码引入VLM 多维度打分,并报告Cohen’s κ与人类专家评估的一致度,强调可靠性。

二、评估与发现

研究团队使用 Uni-MMMU 对一系列开源闭源SOTA的统一模型(如 Bagel、nano-banana、GPT-4.1+GPT-image 等)和专用模型进行了全面评估 。


表中数据体现了开源与闭源模型之间的显著差距,此外结果也揭示了当前领域的重要见解:

发现一:生成理解协同作用真实有效

实验证明,这种「生成」与「理解」的协同是解决复杂问题的关键。分析显示,即使模型生成的中间步骤并不完美,也比完全不生成(即端到端)的方案准确率更高 。而当提供完美的中间步骤(Oracle)时,模型性能会得到巨幅提升 ,如表4所示。


发现二:当前统一模型普遍「偏科」,生成是最大瓶颈

评估暴露出一个清晰的趋势:当前统一模型严重偏向于「理解」能力,而「生成」能力是主要的瓶颈 。

模型的失败点高度集中在:

  1. 编辑一致性漂移

  2. 指令遵循不严

  3. 位置/拓扑偏差


例如,在代码渲染任务中,Qwen-Image-Edit 会错误地将本应是文本描述的 SVG 代码也“渲染”到图像上 。在迷宫任务中,Bagel 则倾向于生成无法解析的“无意义符号” 。


总之,当前主流模型在实验中暴露出生成能力“短板”、逻辑链条易断、空间表达偏差等痛点,也为下一代通用模型的优化指明了方向。未来,模型不再只是“看得懂”或“画得出”,而是要真正具备“看中有画、画中有思”的协同智能。Uni-MMMU 的发布无疑是迈向这一目标的重要一步。

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
访问大陆会被调查?萧旭岑:民进党“抗中害台”策略已不受欢迎

访问大陆会被调查?萧旭岑:民进党“抗中害台”策略已不受欢迎

海峡导报社
2026-04-14 11:12:08
活久见!网传重庆全女健身房生意火爆,限女性顾客和男性教练进去

活久见!网传重庆全女健身房生意火爆,限女性顾客和男性教练进去

火山詩话
2026-04-13 09:18:54
震撼!诺奖得主&谷歌AI掌门人深度访谈:AI一天走完人类千年的路!300万科学家已用AI做研究

震撼!诺奖得主&谷歌AI掌门人深度访谈:AI一天走完人类千年的路!300万科学家已用AI做研究

新浪财经
2026-04-13 13:31:24
福州男子飞机上身亡!曝赔偿金9万,死因曝光,网友:就是想讹钱

福州男子飞机上身亡!曝赔偿金9万,死因曝光,网友:就是想讹钱

青橘罐头
2026-04-14 07:25:19
一路虎冲撞多车?衢州警方:2人受伤、8车受损,涉事男子被刑拘

一路虎冲撞多车?衢州警方:2人受伤、8车受损,涉事男子被刑拘

界面新闻
2026-04-14 13:50:22
美国秘密武器“幽灵低语”首次曝光:只要还有心跳,就能被找到丨画说热点

美国秘密武器“幽灵低语”首次曝光:只要还有心跳,就能被找到丨画说热点

封面新闻
2026-04-14 00:04:07
中朝外长在平壤见面,中方重提“血盟条约”,美国该清醒下了

中朝外长在平壤见面,中方重提“血盟条约”,美国该清醒下了

第一军情
2026-04-14 12:10:03
请陈芋汐正面回应:在知情的情况下,为何不退出282群?

请陈芋汐正面回应:在知情的情况下,为何不退出282群?

开成运动会
2026-04-13 20:23:15
伊朗要求巴林、沙特阿拉伯、卡塔尔、阿联酋和约旦赔偿战争损失,公布美以袭击造成的海上损失,致信联合国谴责美海上封锁,称其违反国际法

伊朗要求巴林、沙特阿拉伯、卡塔尔、阿联酋和约旦赔偿战争损失,公布美以袭击造成的海上损失,致信联合国谴责美海上封锁,称其违反国际法

每日经济新闻
2026-04-14 07:46:07
快手搜索人员调整:王毅离职,程稷李宣平接任

快手搜索人员调整:王毅离职,程稷李宣平接任

申妈的朋友圈
2026-04-13 11:09:18
辉瑞内部人士爆料,德国约有6万人死于新冠疫苗,马斯克:完全认同

辉瑞内部人士爆料,德国约有6万人死于新冠疫苗,马斯克:完全认同

可达鸭面面观
2026-04-13 16:37:24
张雪宣布将骑车飞跃长江:这次一定能成功!网友:好好造车别冒险

张雪宣布将骑车飞跃长江:这次一定能成功!网友:好好造车别冒险

念洲
2026-04-14 11:45:29
特朗普:伊朗致电美方说希望达成协议

特朗普:伊朗致电美方说希望达成协议

财联社
2026-04-14 01:08:23
山东一24岁准新娘在私人诊所输液,突发休克昏迷近3个月未醒;涉事诊所已变生鲜超市,无证医生赔了20万元后失联

山东一24岁准新娘在私人诊所输液,突发休克昏迷近3个月未醒;涉事诊所已变生鲜超市,无证医生赔了20万元后失联

大风新闻
2026-04-14 09:48:12
莫氏鸡煲拒收温氏千只鸡,老莫:没地放,没骂他;温氏股份:在沟通更多合作想法

莫氏鸡煲拒收温氏千只鸡,老莫:没地放,没骂他;温氏股份:在沟通更多合作想法

界面新闻
2026-04-14 10:23:03
太阳报:伊朗女足队长在澳大利亚避难,全部财产已被伊朗当局没收

太阳报:伊朗女足队长在澳大利亚避难,全部财产已被伊朗当局没收

懂球帝
2026-04-14 08:51:06
恒大集团许家印一审认罪

恒大集团许家印一审认罪

地产微资讯
2026-04-14 12:57:12
最新数据:美国从中国进口的智能手机比例从90%骤降至25%,组装中心加速转移

最新数据:美国从中国进口的智能手机比例从90%骤降至25%,组装中心加速转移

风向观察
2026-04-14 14:25:12
妈妈去世,爸爸去日本打工后失联,长春姐弟俩被遗留在托管班两年,最新消息:相关部门介入调查,将为两人建立学籍,在托管班附近小学就读

妈妈去世,爸爸去日本打工后失联,长春姐弟俩被遗留在托管班两年,最新消息:相关部门介入调查,将为两人建立学籍,在托管班附近小学就读

鲁中晨报
2026-04-13 21:24:11
美舰杀进霍尔木兹海峡,排雷封锁双管齐下,油价破百大战一触即发?

美舰杀进霍尔木兹海峡,排雷封锁双管齐下,油价破百大战一触即发?

网易新闻出品
2026-04-13 21:09:11
2026-04-14 14:59:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2342文章数 596关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

家居
房产
亲子
健康
教育

家居要闻

现代融合 自然灵动

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

亲子要闻

辣成这样都不舍得吐一点!

干细胞抗衰4大误区,90%的人都中招

教育要闻

2026高考考生注意!7所高校全部启动

无障碍浏览 进入关怀版