网易首页 > 网易号 > 正文 申请入驻

南洋理工大学Uni-MMMU:AI实现多模态推理与生成评测

0
分享至


这项由南洋理工大学S-Lab实验室的邹凯、黄子祺、董宇昊等研究人员,联合上海人工智能实验室、中国科学技术大学以及香港中文大学共同开展的研究,发表于2025年10月15日的预印本论文(arXiv:2510.13759v1),为多模态人工智能的评估带来了全新的视角。

如今的AI已经变得相当聪明,它们既能像人一样"看懂"图片和文字,又能"画出"各种图像。但是,真正的智能应该是这两种能力的巧妙结合,就像我们人类解决复杂问题时那样——有时需要先理解问题再动手绘图,有时需要先画个草图来帮助思考。然而,现有的AI评估方法就像是在考试中把数学和美术分成两张卷子,无法真正检验学生能否在解几何题时熟练运用画图辅助思考的能力。

南洋理工大学的研究团队敏锐地发现了这个问题。他们注意到,当前的AI评估基准要么单独测试理解能力,要么独立考察生成能力,很少有测试能够评估这两种能力之间的协同作用。这就好比我们在评判一个厨师时,只看他能不能识别食材或者只看他刀工如何,却从不测试他能否根据现有食材创造出美味佳肴的综合能力。

为了填补这个空白,研究团队开发了一个名为Uni-MMMU的全新评估基准。这个基准的独特之处在于,它专门设计了一系列需要"理解"与"生成"紧密配合的任务,就像现实生活中我们解决问题的方式一样。比如,当你迷路时,你可能需要先理解地图上的信息,然后在纸上画出路线图来帮助自己规划路径。

Uni-MMMU包含了八个精心设计的任务,分为两大类型。第一类是"生成帮助理解",就像学生做几何题时画辅助线一样,AI需要先生成一些图像来辅助自己的推理过程。第二类是"理解指导生成",类似于艺术家根据对物理现象的理解来创作写实画作,AI需要先理解科学原理,然后据此生成相应的图像。

在"生成帮助理解"类别中,研究团队设计了四种具有挑战性的任务。迷宫导航任务要求AI像玩家玩益智游戏一样,不仅要规划从起点到终点的最短路径,还要在每一步都画出移动后的状态图。滑块拼图任务让AI扮演拼图高手的角色,需要一步步展示如何将打乱的九宫格拼图复原到目标状态。几何辅助线任务更是直接模拟了数学课堂场景,AI必须根据题目要求在几何图形上添加辅助线,然后利用自己画的图来解决几何问题。拼图完成任务则像是在玩视觉推理游戏,AI需要为残缺的图片选择正确的补丁,并通过生成完整图片来验证自己的选择。

在"理解指导生成"类别中,任务设计更加贴近科学应用场景。物理任务要求AI像物理老师一样,根据热力学、电磁学等原理预测实验结果,然后画出实验的最终状态。化学任务让AI扮演化学家的角色,需要理解酸碱反应、氧化还原等化学过程,并绘制反应后的状态变化。生物任务则要求AI像生物学家一样理解植物生长、细胞变化等生命现象,并将这些过程可视化。代码渲染任务更是独具创意,要求AI直接阅读SVG代码并在脑海中"运行"这些代码,最后绘制出相应的图形。

整个基准包含了885个精心制作的测试样本,每个样本都经过严格的质量控制。为了确保评估的公正性和可重复性,研究团队开发了一套全自动的评分系统。这套系统就像一位严格但公正的老师,不仅检查最终答案是否正确,还会仔细评估中间步骤的准确性。对于图像生成质量,系统使用了先进的感知相似度指标;对于推理过程,则采用了强大的语言模型作为评判员。

研究团队在多个最先进的AI模型上测试了这个基准,结果发现了一些有趣的现象。当前的统一多模态模型在需要紧密协同的任务上表现出明显的不平衡:它们的理解能力通常比生成能力更强,生成往往成为整个推理链条中的薄弱环节。这就像一个很聪明但手笨的学生,能够理解复杂的概念却无法准确地把想法表达在纸上。

更重要的发现是,当任务具有强逻辑依赖关系时,理解与生成的协同效应最为显著。即使是不完美的中间生成结果,也能显著提升最终的推理准确性。这证明了"边想边画"这种工作方式确实有助于解决复杂问题,正如人类学习和思考的方式一样。

研究还揭示了当前AI模型的一些典型失败模式。在迷宫任务中,有些模型虽然能保持图像风格的一致性,但有时会扭曲墙壁和路径的拓扑结构,导致后续规划出错。在拼图任务中,一些模型倾向于简单复制参考图像而不是生成合理的补全,就像一个偷懒的学生直接抄答案而不理解题目。在代码渲染任务中,模型经常在理解颜色、形状数量或相对位置时出错,有时甚至会错误地将本应是纯文字的描述直接绘制到图像中。

为了验证评估系统的可靠性,研究团队还进行了详细的一致性检验。他们让专业人员独立评估了150个模型输出样本,并与自动评估系统的结果进行对比。结果显示,自动系统与人工评估的一致性达到了很高的水平,证明了这套评估方法的科学性和实用性。

通过大量的对比实验,研究团队还发现了一个重要现象:即使使用不完美的中间生成结果,也比完全跳过生成步骤的效果要好得多。而如果提供完美的中间结果(称为"预言者设定"),模型的表现会有显著提升。这进一步证实了生成与理解协同工作的重要性,也指出了未来改进的方向。

这项研究不仅为AI能力评估提供了新的标准,也为未来多模态AI的发展指明了方向。当前的统一模型虽然在概念上很吸引人,但在实际应用中仍面临诸多挑战。研究发现,要真正实现有效的多模态协同,需要在可控性、空间推理、指令遵循等方面进行针对性改进。

对于普通人来说,这项研究的意义在于推动了更智能、更实用的AI助手的发展。未来的AI可能真的能够像人类一样,在解决复杂问题时灵活运用各种认知能力,既能理解问题的本质,又能通过可视化手段辅助思考,最终提供更准确、更有用的解决方案。

说到底,这项研究揭示了一个简单而深刻的道理:真正的智能不是孤立能力的简单堆叠,而是各种认知能力的有机协同。正如我们人类在学习和工作中总是需要将理解、思考、表达、创造等能力结合起来一样,未来的AI也需要学会这种"全方位"的智能协作。虽然当前的AI模型在这方面还有很大改进空间,但Uni-MMMU为我们提供了一个清晰的评估标准和改进方向,相信在不久的将来,我们将看到更加智能、更加实用的AI助手出现在我们的日常生活中。

Q&A

Q1:Uni-MMMU基准测试主要评估AI的什么能力?

A:Uni-MMMU专门评估AI模型的"理解"与"生成"协同能力,就像测试学生能否边思考边画图解题一样。它包含八个任务,要求AI既要看懂问题又要画出辅助图像,或者先理解原理再生成相应图片,模拟人类解决复杂问题时的思维过程。

Q2:目前的AI模型在这种协同任务上表现如何?

A:研究发现当前AI模型存在明显不平衡:理解能力通常比生成能力强,生成往往是薄弱环节。就像一个很聪明但手笨的学生,能理解概念却画不好辅助图。不过,即使是不完美的中间生成结果也能帮助提升最终推理准确性。

Q3:这项研究对普通人有什么实际意义?

A:这项研究推动了更智能AI助手的发展,未来的AI可能真的能像人类一样,在解决复杂问题时灵活运用理解和创作能力。比如AI可能会先画图帮助自己思考,然后给出更准确的解决方案,让AI助手变得更实用、更贴近人类的思维方式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
15亿项目落地后,首次会见!湖北省委书记王忠林与李东生共话产业升级

15亿项目落地后,首次会见!湖北省委书记王忠林与李东生共话产业升级

天下潮商
2026-01-12 16:19:38
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
广西一精神小妹结婚,身上多处纹身新郎小她10岁,网友:相当炸裂

广西一精神小妹结婚,身上多处纹身新郎小她10岁,网友:相当炸裂

唐小糖说情感
2026-01-07 16:37:28
特朗普捅了马蜂窝,英国主导,28国将派兵丹麦,中方甩出一纸宪章

特朗普捅了马蜂窝,英国主导,28国将派兵丹麦,中方甩出一纸宪章

素年文史
2026-01-12 16:03:00
美女白色露脐T恤配蓝色瑜伽裤,性感值拉满,简直是行走的 荷尔蒙

美女白色露脐T恤配蓝色瑜伽裤,性感值拉满,简直是行走的 荷尔蒙

小乔古装汉服
2025-09-24 07:20:03
笑发财了!用一张没有孩子的照片证明你有孩子,评论区炸锅!

笑发财了!用一张没有孩子的照片证明你有孩子,评论区炸锅!

另子维爱读史
2026-01-11 20:29:18
千万不要小看你遇到的每一个顾客!网友:不到1个小时店就被封了

千万不要小看你遇到的每一个顾客!网友:不到1个小时店就被封了

夜深爱杂谈
2025-12-06 21:39:08
输球又输人!皇马决赛最惨之人:阿隆索亲手将他打入冷宫

输球又输人!皇马决赛最惨之人:阿隆索亲手将他打入冷宫

澜归序
2026-01-12 05:35:15
冯小刚徐帆婚变实锤?密会陈思诚3小时,养女成“托孤”筹码

冯小刚徐帆婚变实锤?密会陈思诚3小时,养女成“托孤”筹码

未曾青梅
2026-01-10 18:26:19
撒切尔夫人在回忆录中坦言:当年并不想归还香港,考虑过发动战争

撒切尔夫人在回忆录中坦言:当年并不想归还香港,考虑过发动战争

泠泠说史
2025-12-15 18:05:17
关于李莉教授的一张图火了

关于李莉教授的一张图火了

关尔东
2026-01-11 16:32:35
全国统一体制内口头禅,一出口就知道,网友:味太正了!

全国统一体制内口头禅,一出口就知道,网友:味太正了!

另子维爱读史
2025-12-18 16:59:41
合川千人杀猪后续:事情已传到国外 场面失控呆呆被吓哭 民警出面

合川千人杀猪后续:事情已传到国外 场面失控呆呆被吓哭 民警出面

鋭娱之乐
2026-01-12 17:17:44
国乒领导班子竞聘揭晓:秦志戬总教练 肖战副总教练 马琳王皓连任

国乒领导班子竞聘揭晓:秦志戬总教练 肖战副总教练 马琳王皓连任

好乒乓
2026-01-12 23:26:44
赌王的四太太梁安琪私人相册曝光,穿搭既美又飒,美艳不可方物!

赌王的四太太梁安琪私人相册曝光,穿搭既美又飒,美艳不可方物!

可乐谈情感
2026-01-12 13:04:02
溥仪在“伪满”的权力有多大?别被他装孙子的一面给骗了

溥仪在“伪满”的权力有多大?别被他装孙子的一面给骗了

掠影后有感
2026-01-09 11:08:09
火箭是伪强队,连续输给西部弱旅,这样的球队不可能夺冠!

火箭是伪强队,连续输给西部弱旅,这样的球队不可能夺冠!

爱体育
2026-01-12 23:29:32
笑不活了,真是半大小子,吃穷老子,评论区笑翻我

笑不活了,真是半大小子,吃穷老子,评论区笑翻我

夜深爱杂谈
2026-01-12 20:14:58
曝库皮扬斯克数百俄军被包围后投降!乌军摧毁俄罗斯军船

曝库皮扬斯克数百俄军被包围后投降!乌军摧毁俄罗斯军船

项鹏飞
2026-01-10 20:46:46
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
2026-01-13 00:24:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6850文章数 546关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

外媒问王毅调整索马里行程是否出于安全考虑 中方回应

头条要闻

外媒问王毅调整索马里行程是否出于安全考虑 中方回应

体育要闻

一场安东尼奥式胜利,给中国足球带来惊喜

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

数码
艺术
健康
旅游
公开课

数码要闻

2025年全球PC出货量近2.8亿台 笔记本超2.2亿台

艺术要闻

画完这组画,他抑郁了,后来自杀了

血常规3项异常,是身体警报!

旅游要闻

四川米易一条街的冬樱花都开了 粉色花海梦幻绽放

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版