网易首页 > 网易号 > 正文 申请入驻

“左右脑互搏”还是“协同作战”? Uni-MMMU评估「理解-生成」双向协同

0
分享至

解几何题时,你是否会先画一条辅助线来帮助思考?创作一幅画时,你是否需要先理解光影和物理原理?

这种「理解」与「生成」的紧密协同,是人类智能的核心特征。近年来,AI社区致力于构建「统一多模态模型」,期望它们能像人一样,在单个模型内同时具备强大的视觉理解和内容生成能力。

我们如何知道统一模型的生成和理解能力有何协同作用?

过去多模态评测常把理解与生成分开测,或只看表层一致性,难以揭示两者真正的交互与依赖。但很多真实任务恰恰要求“边画边想、边想边画”,体现出逻辑耦合。


论文标题: Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark 论文链接: https://arxiv.org/abs/2510.13759

为了解决这一问题,来自 S-Lab(南洋理工大学)、上海人工智能实验室、中国科学技术大学和香港中文大学的研究者们推出了 Uni-MMMU :

1.首个系统性评“理解↔生成双向增益”的基准:8 个推理中心任务,覆盖几何空间推理、STEM等强逻辑学科,分别检验“生成助理解”“理解助生成”。

2.过程+结果“双通道打分”:既看最终答案,也严查中间视觉步骤(如每一步生成图是否正确),并以可复现的程序化解析器/感知度量/模型打分综合评估,精准可复现。

3.关键发现:当前“统一模型”整体理解显著强于生成;“先生成中间态→再推理”比端到端更稳,若给到 “正确中间态(oracle)”,成绩还会显著上升。

一、Uni-MMMU:一个“双向奔赴”的协同基准


Uni-MMMU的设计理念是“双向耦合” (bidirectionally coupled)。它涵盖了科学、编码、数学和谜题等8个以推理为中心的领域,系统地考察两种核心协同路径:

范式一:理解指导生成 (Und aids Gen)

在这类任务中,模型必须先“想明白”,才能“画得对”。

科学(物理/化学/生物): 模型需根据给定的初始状态和科学原理(如“柠檬汁是酸性的”),推理出最终的物理或化学变化,并生成描绘该结果的图像(如“紫色石蕊试纸浸入后变红”)。

代码渲染: 模型被给予原始的图形渲染源代码(SVG) ,它必须在不依赖外部工具的情况下,“读懂”代码逻辑(如形状、颜色、位置),先用自然语言描述出场景,然后再精确地将代码“渲染”成图像 。

范式二:生成辅助理解 (Gen aids Und)

在这类任务中,模型必须“边画边想”,利用生成的图像来辅助自己找到答案。

几何题: 这是对人类解题思路的直接模拟。模型需要先根据指令“画出”正确的辅助线,生成一张新图 ,然后再利用这张自己生成的图来进行逻辑推理,最终解出答案 。

迷宫导航: 模型需要一步一步地走出迷宫 。每一步,它都必须交替生成(1)下一步的移动方向(文本)和(2)移动后迷宫的新状态(图像)。

滑块Puzzle: 类似于迷宫,模型需要规划出到达目标状态的最短路径,并交替输出文本的移动指令和对应的拼图视觉状态 。

Jigsaw拼图: 模型需要面对一块缺失的拼图和两个候选补丁 。它必须先分别生成“用候选A补全”和“用候选B补全”的两张完整图像 ,然后再“看着”自己生成的这两张图,做出判断和推理,选出正确答案 。

评价体系同样讲究:

  • 所有任务的理解和生成部分均提供GT,同时评估中间模态和最终答案

  • 迷宫/滑块设计代码解析器将图像解析为离散状态,既算步级准确率也算整题准确率;

  • 拼图用 DreamSim 量化生成图与GT的感知相似度;

  • 几何/科学/代码引入VLM 多维度打分,并报告Cohen’s κ与人类专家评估的一致度,强调可靠性。

二、评估与发现

研究团队使用 Uni-MMMU 对一系列开源闭源SOTA的统一模型(如 Bagel、nano-banana、GPT-4.1+GPT-image 等)和专用模型进行了全面评估 。


表中数据体现了开源与闭源模型之间的显著差距,此外结果也揭示了当前领域的重要见解:

发现一:生成理解协同作用真实有效

实验证明,这种「生成」与「理解」的协同是解决复杂问题的关键。分析显示,即使模型生成的中间步骤并不完美,也比完全不生成(即端到端)的方案准确率更高 。而当提供完美的中间步骤(Oracle)时,模型性能会得到巨幅提升 ,如表4所示。


发现二:当前统一模型普遍「偏科」,生成是最大瓶颈

评估暴露出一个清晰的趋势:当前统一模型严重偏向于「理解」能力,而「生成」能力是主要的瓶颈 。

模型的失败点高度集中在:

  1. 编辑一致性漂移

  2. 指令遵循不严

  3. 位置/拓扑偏差


例如,在代码渲染任务中,Qwen-Image-Edit 会错误地将本应是文本描述的 SVG 代码也“渲染”到图像上 。在迷宫任务中,Bagel 则倾向于生成无法解析的“无意义符号” 。


总之,当前主流模型在实验中暴露出生成能力“短板”、逻辑链条易断、空间表达偏差等痛点,也为下一代通用模型的优化指明了方向。未来,模型不再只是“看得懂”或“画得出”,而是要真正具备“看中有画、画中有思”的协同智能。Uni-MMMU 的发布无疑是迈向这一目标的重要一步。

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央定调!退休新规实施,公务员和事业编制,不能弹性延迟退休吗

中央定调!退休新规实施,公务员和事业编制,不能弹性延迟退休吗

夜深爱杂谈
2026-01-13 20:50:30
孝感市委原书记潘启胜傍上蒋超良细节:一系列大项目都交给蒋超良五弟

孝感市委原书记潘启胜傍上蒋超良细节:一系列大项目都交给蒋超良五弟

澎湃新闻
2026-01-13 21:50:26
伊朗今日公开处决抗议者,美国和以色列究竟在干什么?

伊朗今日公开处决抗议者,美国和以色列究竟在干什么?

史政先锋
2026-01-13 14:47:23
日本米价再创新高,每公斤38.8元,民众不得已把主食改为面条

日本米价再创新高,每公斤38.8元,民众不得已把主食改为面条

极目新闻
2026-01-13 10:19:55
29岁网红口子姐去世后续!早年黑料被扒,自曝得梅毒只是冰山一角

29岁网红口子姐去世后续!早年黑料被扒,自曝得梅毒只是冰山一角

李健政观察
2026-01-13 11:00:10
吉利官宣退出伊朗市场

吉利官宣退出伊朗市场

齐鲁壹点
2026-01-13 22:00:10
苍天好轮回!徐帆回应离婚5个月后,冯小刚迎来"反噬"

苍天好轮回!徐帆回应离婚5个月后,冯小刚迎来"反噬"

素衣读史
2026-01-13 12:10:41
死了么APP:将在新版本中启用全球化品牌名Demumu

死了么APP:将在新版本中启用全球化品牌名Demumu

界面新闻
2026-01-13 22:35:20
张颂文新剧口碑翻车?主演演技在线,唯有两人成“败笔”,可惜了

张颂文新剧口碑翻车?主演演技在线,唯有两人成“败笔”,可惜了

电影烂番茄
2026-01-12 23:43:04
悲催!珠海一33年工厂破产,几百人饭碗没了,涉及司法案件363条

悲催!珠海一33年工厂破产,几百人饭碗没了,涉及司法案件363条

火山诗话
2026-01-13 13:15:14
三只羊网络官方号正式复播,开播4小时观看人次42万,销售额高达25万元;旗下主播近期均已复播

三只羊网络官方号正式复播,开播4小时观看人次42万,销售额高达25万元;旗下主播近期均已复播

台州交通广播
2026-01-13 13:03:35
宣布独立,成立一个新的:高都丽共和国!

宣布独立,成立一个新的:高都丽共和国!

百态人间
2026-01-13 16:35:22
实锤了!“小洛熙事件”家属12项异议全是谎言,铁证打脸!两位新晋“百万”网红,即将接受正义审判

实锤了!“小洛熙事件”家属12项异议全是谎言,铁证打脸!两位新晋“百万”网红,即将接受正义审判

医护健康科普
2026-01-13 09:08:59
29岁网红口子姐去世,父亲病逝,自曝得梅毒,欠债太多下海惹争议

29岁网红口子姐去世,父亲病逝,自曝得梅毒,欠债太多下海惹争议

揽星河的笔记
2026-01-13 13:05:05
人民网锐评中戏新疆班!言语犀利句句戳人心窝,谁在说谎一目了然

人民网锐评中戏新疆班!言语犀利句句戳人心窝,谁在说谎一目了然

李健政观察
2026-01-13 13:34:01
谎言被网友揭穿后,“通信专家”项立刚怒斥:你们混得不如我好

谎言被网友揭穿后,“通信专家”项立刚怒斥:你们混得不如我好

区块科技
2026-01-13 18:50:15
世卫组织呼吁:停止使用电热水壶,否则会诱发癌症?告诉你真相!

世卫组织呼吁:停止使用电热水壶,否则会诱发癌症?告诉你真相!

医学原创故事会
2026-01-13 18:06:06
盯上6000米深海稀土!日本派船探查,距中国加强两用物项出口管制不到一周!高市早苗已决定提前大选

盯上6000米深海稀土!日本派船探查,距中国加强两用物项出口管制不到一周!高市早苗已决定提前大选

每日经济新闻
2026-01-13 15:11:06
女首相掀桌了!

女首相掀桌了!

新动察
2026-01-13 15:29:51
U23亚洲杯一夜2队出线!8强已定5席 韩国输球仍晋级 伊朗垫底回家

U23亚洲杯一夜2队出线!8强已定5席 韩国输球仍晋级 伊朗垫底回家

侃球熊弟
2026-01-13 21:36:50
2026-01-14 01:11:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

李在明访日与高市早苗会谈 提到中国

头条要闻

李在明访日与高市早苗会谈 提到中国

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

蔡卓妍承认新恋情,与男友林俊贤感情稳定

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

亲子
旅游
时尚
教育
本地

亲子要闻

孕激素的威力算是见识到了!网友:喝不下水,胆汁吐没了就吐泡泡

旅游要闻

仙游:山水织诗意 产业耀华章

今年春天,外套长一点会更美!

教育要闻

重庆历史类考生必看!广外法学投档线揭晓

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

无障碍浏览 进入关怀版