网易首页 > 网易号 > 正文 申请入驻

南洋理工大学Uni-MMMU:AI实现多模态推理与生成评测

0
分享至

这项由南洋理工大学S-Lab实验室的邹凯、黄子祺、董宇昊等研究人员,联合上海人工智能实验室、中国科学技术大学以及香港中文大学共同开展的研究,发表于2025年10月15日的预印本论文(arXiv:2510.13759v1),为多模态人工智能的评估带来了全新的视角。

如今的AI已经变得相当聪明,它们既能像人一样"看懂"图片和文字,又能"画出"各种图像。但是,真正的智能应该是这两种能力的巧妙结合,就像我们人类解决复杂问题时那样——有时需要先理解问题再动手绘图,有时需要先画个草图来帮助思考。然而,现有的AI评估方法就像是在考试中把数学和美术分成两张卷子,无法真正检验学生能否在解几何题时熟练运用画图辅助思考的能力。

南洋理工大学的研究团队敏锐地发现了这个问题。他们注意到,当前的AI评估基准要么单独测试理解能力,要么独立考察生成能力,很少有测试能够评估这两种能力之间的协同作用。这就好比我们在评判一个厨师时,只看他能不能识别食材或者只看他刀工如何,却从不测试他能否根据现有食材创造出美味佳肴的综合能力。

为了填补这个空白,研究团队开发了一个名为Uni-MMMU的全新评估基准。这个基准的独特之处在于,它专门设计了一系列需要"理解"与"生成"紧密配合的任务,就像现实生活中我们解决问题的方式一样。比如,当你迷路时,你可能需要先理解地图上的信息,然后在纸上画出路线图来帮助自己规划路径。

Uni-MMMU包含了八个精心设计的任务,分为两大类型。第一类是"生成帮助理解",就像学生做几何题时画辅助线一样,AI需要先生成一些图像来辅助自己的推理过程。第二类是"理解指导生成",类似于艺术家根据对物理现象的理解来创作写实画作,AI需要先理解科学原理,然后据此生成相应的图像。

在"生成帮助理解"类别中,研究团队设计了四种具有挑战性的任务。迷宫导航任务要求AI像玩家玩益智游戏一样,不仅要规划从起点到终点的最短路径,还要在每一步都画出移动后的状态图。滑块拼图任务让AI扮演拼图高手的角色,需要一步步展示如何将打乱的九宫格拼图复原到目标状态。几何辅助线任务更是直接模拟了数学课堂场景,AI必须根据题目要求在几何图形上添加辅助线,然后利用自己画的图来解决几何问题。拼图完成任务则像是在玩视觉推理游戏,AI需要为残缺的图片选择正确的补丁,并通过生成完整图片来验证自己的选择。

在"理解指导生成"类别中,任务设计更加贴近科学应用场景。物理任务要求AI像物理老师一样,根据热力学、电磁学等原理预测实验结果,然后画出实验的最终状态。化学任务让AI扮演化学家的角色,需要理解酸碱反应、氧化还原等化学过程,并绘制反应后的状态变化。生物任务则要求AI像生物学家一样理解植物生长、细胞变化等生命现象,并将这些过程可视化。代码渲染任务更是独具创意,要求AI直接阅读SVG代码并在脑海中"运行"这些代码,最后绘制出相应的图形。

整个基准包含了885个精心制作的测试样本,每个样本都经过严格的质量控制。为了确保评估的公正性和可重复性,研究团队开发了一套全自动的评分系统。这套系统就像一位严格但公正的老师,不仅检查最终答案是否正确,还会仔细评估中间步骤的准确性。对于图像生成质量,系统使用了先进的感知相似度指标;对于推理过程,则采用了强大的语言模型作为评判员。

研究团队在多个最先进的AI模型上测试了这个基准,结果发现了一些有趣的现象。当前的统一多模态模型在需要紧密协同的任务上表现出明显的不平衡:它们的理解能力通常比生成能力更强,生成往往成为整个推理链条中的薄弱环节。这就像一个很聪明但手笨的学生,能够理解复杂的概念却无法准确地把想法表达在纸上。

更重要的发现是,当任务具有强逻辑依赖关系时,理解与生成的协同效应最为显著。即使是不完美的中间生成结果,也能显著提升最终的推理准确性。这证明了"边想边画"这种工作方式确实有助于解决复杂问题,正如人类学习和思考的方式一样。

研究还揭示了当前AI模型的一些典型失败模式。在迷宫任务中,有些模型虽然能保持图像风格的一致性,但有时会扭曲墙壁和路径的拓扑结构,导致后续规划出错。在拼图任务中,一些模型倾向于简单复制参考图像而不是生成合理的补全,就像一个偷懒的学生直接抄答案而不理解题目。在代码渲染任务中,模型经常在理解颜色、形状数量或相对位置时出错,有时甚至会错误地将本应是纯文字的描述直接绘制到图像中。

为了验证评估系统的可靠性,研究团队还进行了详细的一致性检验。他们让专业人员独立评估了150个模型输出样本,并与自动评估系统的结果进行对比。结果显示,自动系统与人工评估的一致性达到了很高的水平,证明了这套评估方法的科学性和实用性。

通过大量的对比实验,研究团队还发现了一个重要现象:即使使用不完美的中间生成结果,也比完全跳过生成步骤的效果要好得多。而如果提供完美的中间结果(称为"预言者设定"),模型的表现会有显著提升。这进一步证实了生成与理解协同工作的重要性,也指出了未来改进的方向。

这项研究不仅为AI能力评估提供了新的标准,也为未来多模态AI的发展指明了方向。当前的统一模型虽然在概念上很吸引人,但在实际应用中仍面临诸多挑战。研究发现,要真正实现有效的多模态协同,需要在可控性、空间推理、指令遵循等方面进行针对性改进。

对于普通人来说,这项研究的意义在于推动了更智能、更实用的AI助手的发展。未来的AI可能真的能够像人类一样,在解决复杂问题时灵活运用各种认知能力,既能理解问题的本质,又能通过可视化手段辅助思考,最终提供更准确、更有用的解决方案。

说到底,这项研究揭示了一个简单而深刻的道理:真正的智能不是孤立能力的简单堆叠,而是各种认知能力的有机协同。正如我们人类在学习和工作中总是需要将理解、思考、表达、创造等能力结合起来一样,未来的AI也需要学会这种"全方位"的智能协作。虽然当前的AI模型在这方面还有很大改进空间,但Uni-MMMU为我们提供了一个清晰的评估标准和改进方向,相信在不久的将来,我们将看到更加智能、更加实用的AI助手出现在我们的日常生活中。

Q&A

Q1:Uni-MMMU基准测试主要评估AI的什么能力?

A:Uni-MMMU专门评估AI模型的"理解"与"生成"协同能力,就像测试学生能否边思考边画图解题一样。它包含八个任务,要求AI既要看懂问题又要画出辅助图像,或者先理解原理再生成相应图片,模拟人类解决复杂问题时的思维过程。

Q2:目前的AI模型在这种协同任务上表现如何?

A:研究发现当前AI模型存在明显不平衡:理解能力通常比生成能力强,生成往往是薄弱环节。就像一个很聪明但手笨的学生,能理解概念却画不好辅助图。不过,即使是不完美的中间生成结果也能帮助提升最终推理准确性。

Q3:这项研究对普通人有什么实际意义?

A:这项研究推动了更智能AI助手的发展,未来的AI可能真的能像人类一样,在解决复杂问题时灵活运用理解和创作能力。比如AI可能会先画图帮助自己思考,然后给出更准确的解决方案,让AI助手变得更实用、更贴近人类的思维方式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
仅3小时,又有8笔交易达成!东部第一白送内线悍将,骑士捡到宝

仅3小时,又有8笔交易达成!东部第一白送内线悍将,骑士捡到宝

体坛小李
2026-06-25 10:42:01
3换2向上交易31顺位,火箭队选中19+5得分手 补强一号位 模板洛瑞

3换2向上交易31顺位,火箭队选中19+5得分手 补强一号位 模板洛瑞

替补席看球
2026-06-25 08:47:39
气象站——便携式气象站的优势

气象站——便携式气象站的优势

测控技术有限公司
2025-08-26 16:51:10
Shams:凯尔特人正与多队积极围绕布朗展开交易谈判

Shams:凯尔特人正与多队积极围绕布朗展开交易谈判

北青网-北京青年报
2026-06-25 10:48:13
为什么今年没人提“消费降级”了?

为什么今年没人提“消费降级”了?

黯泉
2026-05-20 17:47:21
湖人愿意先签后换送走詹姆斯送至骑士,开启休赛期连锁操作

湖人愿意先签后换送走詹姆斯送至骑士,开启休赛期连锁操作

夜白侃球
2026-06-25 10:06:15
人伦大乱,正在悄悄毁掉无数中国家庭,看似平常,实则家道衰败

人伦大乱,正在悄悄毁掉无数中国家庭,看似平常,实则家道衰败

艺鉴在线
2026-06-22 08:20:18
翻脸!韩国热帖怒骂孙兴慜:史上最被高估球员 不然怎会一直待热刺

翻脸!韩国热帖怒骂孙兴慜:史上最被高估球员 不然怎会一直待热刺

风过乡
2026-06-24 21:45:47
特朗普称可能永远无法查明是谁袭击了伊朗小学

特朗普称可能永远无法查明是谁袭击了伊朗小学

界面新闻
2026-06-25 08:41:35
董卿也没想到,自己辛苦教养长大的儿子,如今竟给密春雷做了嫁衣

董卿也没想到,自己辛苦教养长大的儿子,如今竟给密春雷做了嫁衣

阿纂看事
2026-06-25 06:50:56
用豆包专业版干活后,我承认之前是我说话太大声了。。

用豆包专业版干活后,我承认之前是我说话太大声了。。

差评XPIN
2026-06-25 03:05:53
躺进半决赛!王欣瑜收3号种子因伤退赛大礼 第2次进草地赛四强

躺进半决赛!王欣瑜收3号种子因伤退赛大礼 第2次进草地赛四强

醉卧浮生
2026-06-25 00:26:07
特朗普暗地怂恿乌克兰“胆大一些”,俄白一唱一和相互壮胆

特朗普暗地怂恿乌克兰“胆大一些”,俄白一唱一和相互壮胆

史政先锋
2026-06-24 18:18:09
河南打工妹,成东莞女首富,她靠一根针狂赚1400亿

河南打工妹,成东莞女首富,她靠一根针狂赚1400亿

毒sir财经
2026-06-24 15:04:16
“冷黄梅”来了?未来10天上海湿热体感将回归

“冷黄梅”来了?未来10天上海湿热体感将回归

金台资讯
2026-06-25 09:56:22
欧盟已介入,中国大使馆撤了,立陶宛主动往后缩,瑙塞达下死命令

欧盟已介入,中国大使馆撤了,立陶宛主动往后缩,瑙塞达下死命令

漫步独行侠
2026-06-24 08:38:03
带状疱疹疫苗又立大功?打完不仅防“缠腰龙”,痴呆风险也降了!

带状疱疹疫苗又立大功?打完不仅防“缠腰龙”,痴呆风险也降了!

爱医斯坦
2026-06-23 17:15:46
梅雨暂歇 出梅也有眉目了

梅雨暂歇 出梅也有眉目了

脊梁in上海
2026-06-25 06:38:14
冯小刚该恨死韩红了

冯小刚该恨死韩红了

智识漂流
2026-06-24 01:05:27
看完看台上的七位大神,再看场上的巴西队员,巴西球迷心凉了半截

看完看台上的七位大神,再看场上的巴西队员,巴西球迷心凉了半截

合赞历史
2026-06-24 16:00:09
2026-06-25 11:36:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8907文章数 565关注度
往期回顾 全部

科技要闻

盘后大涨16%!AI存储需求带飞美光业绩

头条要闻

奔驰4S店的一纸"合格证" 让20位车主全款买的车开不走

头条要闻

奔驰4S店的一纸"合格证" 让20位车主全款买的车开不走

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

白玉兰颁奖预测,杨幂胜算大吗?

财经要闻

财报炸裂!美光让空头闭嘴

汽车要闻

上市即交付!抢到就是赚到 腾势N8L闪充版凭什么不一样

态度原创

家居
艺术
房产
游戏
亲子

家居要闻

绿意盎然 自然之境

艺术要闻

写意,不是狂涂乱抹

房产要闻

万万没想到 这家国企造的住宅竟成了区域顶流!

《GTA6》或引入《大表哥》机制!告别行走军火库?

亲子要闻

幼崽的理解能力有多强,不理解,但照做# 人类幼崽迷惑行为

无障碍浏览 进入关怀版