网易首页 > 网易号 > 正文 申请入驻

上海AI实验室:多模态AI创意能力研究揭晓

0
分享至

上海AI实验室:多模态AI创意能力研究揭晓

至顶科技

在人工智能飞速发展的今天,AI已经能够读懂图片、理解语言,甚至与人对话。但如果让AI看着一张照片写诗,或者根据图片设计海报文案,它们的表现又如何呢?这个问题听起来简单,实际上却涉及了AI最复杂的能力之一——创造力。最近,由上海AI实验室联合浙江大学、同济大学、南京大学等多所知名高校组成的研究团队,发表了一项关于多模态大语言模型(MLLMs)创意能力评估的重磅研究。这项名为"Creation-MMBench"的研究成果发表于2025年3月,感兴趣的读者可以通过GitHub平台(https://github.com/opencompass/Creation-MMBench)获取完整的研究数据和代码。

从传统意义上讲,创造力一直被视为人类独有的天赋。然而,随着GPT-4、Gemini等大型语言模型的涌现,AI在创作诗歌、撰写故事、生成创意文案等方面表现出了令人惊叹的能力。但这些AI模型大多只能处理文字,无法直接"看懂"图片并基于视觉内容进行创作。而新一代的多模态AI模型,比如GPT-4V、Claude等,已经能够同时理解文字和图像。那么,当这些"多才多艺"的AI面对需要视觉理解与创意表达相结合的任务时,它们的表现到底如何呢?

研究团队发现了一个令人意外的现象:尽管现有的AI评估基准测试已经非常丰富,涵盖了数学推理、科学知识、逻辑分析等各个方面,但在创意能力评估这个领域却存在着巨大的空白。这就好比我们有各种标准化考试来测试学生的数学、语文能力,却没有专门的测试来评估他们的艺术创作天赋。为了填补这个空白,研究团队开发了Creation-MMBench——一个专门用于评估多模态AI创意能力的全新基准测试。

这个测试系统的设计理念源于心理学中著名的"智力三元理论"。该理论将人类智力分为三个主要部分:分析智力(处理信息和解决问题的能力)、实用智力(在现实环境中应用知识的能力)和创造智力(产生新颖且合适解决方案的能力)。现有的AI测试主要集中在前两种智力上,而对创造智力的评估严重不足。研究团队认为,这种不平衡的评估方式无法全面反映AI的真实能力水平,特别是在日常生活中需要创意思维的场景下。

Creation-MMBench包含了765个精心设计的测试案例,覆盖51种不同类型的创意任务。这些任务被巧妙地分为四大类别。首先是"文学写作"类别,就像让AI当一回诗人或小说家,要求它们根据图片内容创作诗歌、编写故事或者设计对话场景。比如,给AI展示一张黄昏时分的湖边风景照,要求它写一首表达宁静与思考的诗歌。

第二类是"日常功能性写作",这类任务更贴近普通人的生活需求。比如让AI看着一张美食照片撰写社交媒体文案,或者根据获奖证书的图片写一段朋友圈分享文字。这类任务考验的是AI能否将视觉信息转化为实用的日常表达。

第三类是"专业功能性写作",这要求AI具备特定领域的专业知识。例如,让AI扮演室内设计师的角色,根据房屋户型图分析空间布局的优缺点并提出改进建议;或者让AI作为营养师,根据一道菜的图片分析其营养价值并给出饮食建议。

最后一类是"创意多模态理解",这类任务最为复杂,要求AI不仅要理解图片内容,还要挖掘其背后的深层含义。比如分析一张广告海报的创意策略,或者解释一个网络表情包的幽默点在哪里。

为了确保测试的公正性和准确性,研究团队没有采用传统的标准答案对比方式,而是开发了一套基于AI评判的评分系统。他们让GPT-4o充当"评委",根据详细的评分标准对AI生成的创意作品进行评判。这种方法类似于让经验丰富的老师来评阅学生的作文——不是简单地对答案,而是从创意性、逻辑性、语言表达等多个维度进行综合评价。

研究团队还特别设计了两套评价指标。一套是"视觉事实准确性评分",用来检验AI是否准确理解了图片内容。另一套是"奖励评分",通过将待测试的AI模型与基准模型(GPT-4o)进行对比,评估其创意表现的相对水平。这就好比在钢琴比赛中,不仅要看选手是否弹对了音符,还要评判其演奏的艺术表现力。

通过对20个主流多模态AI模型的测试,研究团队得出了一些令人深思的结论。在商业化的AI模型中,Google的Gemini-2.0-Pro表现最为出色,与OpenAI的GPT-4o水平相当,特别是在日常功能性写作方面表现突出。这两个模型就像是班级里的优等生,在各种创意任务中都显示出了较强的综合能力。

然而,开源AI模型的表现则相对逊色。即使是表现最好的开源模型Qwen2.5-VL-72B,其创意能力也明显落后于顶级商业模型。这种差距就像是校队选手与职业选手之间的区别——虽然都具备基本技能,但在复杂任务的处理上还有明显差距。

更有趣的是,研究团队发现了一个意想不到的现象:当AI模型经过视觉训练以获得"看图"能力后,它们原本的文字创作能力竟然会有所下降。这种现象被称为"视觉指令调优的负面影响"。为了验证这一发现,研究团队创建了Creation-MMBench-TO,这是一个纯文字版本的测试,其中图片被替换为详细的文字描述。

结果显示,当移除视觉输入改用文字描述时,大部分多模态AI模型的创意表现都有所提升。这个发现类似于发现某些学生在听课时比看书学得更好——不同的信息输入方式会影响AI的创意表达能力。这一现象提醒我们,在追求AI多功能化的同时,也要关注不同能力之间可能存在的相互影响。

在不同类型的创意任务中,AI模型的表现也呈现出明显的差异。专业功能性写作任务对所有模型来说都是最大的挑战,这类任务不仅需要创意思维,还需要深厚的专业知识储备。相比之下,日常功能性写作任务的表现最好,这可能是因为这类任务更接近AI在训练过程中接触到的常见文本类型。

为了验证测试结果的可靠性,研究团队还进行了人类评估实验。他们邀请志愿者对部分AI生成的创意作品进行评判,并将结果与AI评委的判断进行对比。结果显示,GPT-4o作为评委的判断与人类评价者的意见具有较高的一致性,这证明了评估方法的有效性。

这项研究的价值不仅在于揭示了当前AI模型在创意能力方面的现状,更重要的是为未来的AI发展指明了方向。研究结果表明,虽然AI在某些创意任务上已经表现不错,但在需要深度专业知识支撑的复杂创意任务中,还有很大的提升空间。这就好比AI现在能够写出不错的日记和简单故事,但要创作出深刻的学术论文或专业技术文档,还需要进一步的发展。

研究团队还发现,当前的开源AI模型与商业模型之间存在显著的创意能力差距。这种差距不仅体现在技术实现上,也反映了数据资源、训练方法和计算能力等方面的综合差异。这个发现对AI技术的普及和应用具有重要意义——它提醒我们,真正高质量的AI创意能力可能仍然掌握在少数技术领先的公司手中。

对于普通用户而言,这项研究的结果具有很强的实用价值。当我们在选择AI工具来协助创意工作时,可以根据具体需求来选择合适的模型。如果需要处理日常的文案写作或社交媒体内容创作,目前的主流AI模型已经能够提供相当不错的帮助。但如果涉及专业领域的创意工作,比如市场营销策略设计或技术文档撰写,可能还需要更多的人工干预和专业指导。

展望未来,这项研究为AI创意能力的发展提供了重要的参考基准。随着技术的不断进步,我们可以期待AI在创意领域的表现会越来越好。但同时也要认识到,创意不仅仅是技术问题,它还涉及文化背景、情感表达、审美判断等复杂因素。真正的创意AI不仅要学会模仿人类的创作模式,更要发展出自己独特的"创意风格"。

说到底,这项研究为我们揭示了AI创意能力发展的现状和挑战。虽然AI在某些创意任务上已经展现出令人印象深刻的能力,但距离真正的创意专家还有一段路要走。归根结底,AI的创意能力正在快速发展,但在复杂的专业创意任务中,人类的经验、直觉和专业判断依然不可替代。这个发现既让我们对AI的潜力感到兴奋,也提醒我们在享受AI便利的同时,不要忽视人类创意思维的独特价值。对于有兴趣深入了解这项研究的读者,可以访问GitHub平台获取完整的研究数据和评估代码,亲自体验这套创意能力测试系统。

Q&A

Q1:Creation-MMBench是什么?它有什么特别之处? A:Creation-MMBench是专门评估多模态AI创意能力的测试系统,包含765个创意任务。它的特别之处在于这是首个专门测试AI"看图创作"能力的基准,填补了AI创意评估的空白,就像为AI设计的"创意高考"。

Q2:为什么AI学会看图后文字创作能力会下降? A:研究发现这种现象叫"视觉指令调优的负面影响"。当AI同时学习处理图像和文字时,两种能力之间会产生竞争,就像一个人同时学多种技能时可能会相互干扰,需要在不同能力间找到平衡点。

Q3:普通人如何利用这项研究成果选择AI工具? A:根据研究结果,如果你需要日常文案写作或社交媒体内容,主流AI已经很好用;但如果涉及专业领域创意工作,最好选择顶级商业模型如GPT-4或Gemini,并做好人工审核和调整的准备。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
性价比高!曼联左后卫补强首选浮现,仅1400万,实力堪比豪门标王

性价比高!曼联左后卫补强首选浮现,仅1400万,实力堪比豪门标王

体坛鉴春秋
2026-04-20 12:00:51
久保建英成为首个夺得国王杯的日本球员,也是其个人生涯首冠

久保建英成为首个夺得国王杯的日本球员,也是其个人生涯首冠

懂球帝
2026-04-19 15:42:52
曼联中场实验:一张图看懂谁该首发

曼联中场实验:一张图看懂谁该首发

篮坛第一线
2026-04-20 11:15:06
塔利班最高领袖先下手为强,斩断了国防部长的政治野心?

塔利班最高领袖先下手为强,斩断了国防部长的政治野心?

古史青云啊
2026-04-20 09:57:54
CCTV16直播蓉城VS玉昆!约翰与乔迪大打对攻!西南德比谁主沉浮?

CCTV16直播蓉城VS玉昆!约翰与乔迪大打对攻!西南德比谁主沉浮?

刀锋体育
2026-04-20 11:35:26
等不到特朗普访华了,美国提前对华摊牌:要求秘鲁把中国赶出港口

等不到特朗普访华了,美国提前对华摊牌:要求秘鲁把中国赶出港口

安珈使者啊
2026-04-19 11:44:14
43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

汉史趣闻
2026-04-06 19:17:12
一碗早餐撕开68人偷渡大案:高三学生微信躺20多万,父母当场傻眼

一碗早餐撕开68人偷渡大案:高三学生微信躺20多万,父母当场傻眼

听心堂
2026-04-19 18:09:35
你来一艘,我直接去一个编队!中国海军133舰队直插日本咽喉水道

你来一艘,我直接去一个编队!中国海军133舰队直插日本咽喉水道

闻识
2026-04-20 09:10:20
罗德里腹股沟受伤提前退场 瓜迪奥拉:需等待检查结果

罗德里腹股沟受伤提前退场 瓜迪奥拉:需等待检查结果

毅起踢球
2026-04-20 11:33:27
别等心梗才慌!美国心脏协会2026 最新指南,照着吃就能预防80%的心脏问题

别等心梗才慌!美国心脏协会2026 最新指南,照着吃就能预防80%的心脏问题

临床营养师刘遂谦
2026-04-20 07:02:47
92年我晋升副营长,选择嫁给乡下农民,大婚日发现丈夫的真正身份

92年我晋升副营长,选择嫁给乡下农民,大婚日发现丈夫的真正身份

红豆讲堂
2025-03-10 09:41:08
朱拜镇失守!以色列30万大军猛攻,真主党到了生死关头

朱拜镇失守!以色列30万大军猛攻,真主党到了生死关头

小兰聊历史
2026-04-19 20:03:07
男星查理·辛嗜性成瘾,曾一天与五人发生关系,连男人他也不放过

男星查理·辛嗜性成瘾,曾一天与五人发生关系,连男人他也不放过

七阿姨爱八卦
2026-04-12 17:14:49
王波,被查!山东省纪委监委刚刚发布!

王波,被查!山东省纪委监委刚刚发布!

菏泽头条
2026-04-20 11:56:57
杜兰特膝伤缺战后续:对伤病感到沮丧!获火箭队友力挺:盼G2复出

杜兰特膝伤缺战后续:对伤病感到沮丧!获火箭队友力挺:盼G2复出

熊哥爱篮球
2026-04-20 11:37:53
癌症不是突然发生的!《细胞》重磅研究首次“直播”癌变全过程

癌症不是突然发生的!《细胞》重磅研究首次“直播”癌变全过程

Thurman在昆明
2026-04-19 21:57:59
米体:若国米提前夺冠,将会在倒数第二轮主场踢维罗纳时颁奖

米体:若国米提前夺冠,将会在倒数第二轮主场踢维罗纳时颁奖

懂球帝
2026-04-20 11:12:05
金像奖红毯全记录:章子怡短发封神,古天乐惊现回春颜

金像奖红毯全记录:章子怡短发封神,古天乐惊现回春颜

爱写作的洋洋
2026-04-20 08:33:28
彻底失控!张敬轩一露面就遭举报,网友强烈抵制!英皇也被牵连

彻底失控!张敬轩一露面就遭举报,网友强烈抵制!英皇也被牵连

人间烟火记事本
2026-04-20 10:45:26
2026-04-20 12:31:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17789文章数 49700关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

头条要闻

男子收到陌生账号转账8万余元 3天后奢侈品牌商家找来

体育要闻

七大奖项候选官宣!文班或全票DPOY

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

月之暗面IPO迷局

汽车要闻

外观非常惊艳 全新一代宝马6系有望回归

态度原创

教育
房产
时尚
艺术
军事航空

教育要闻

我发现一个残酷真相:孩子长大后,最怨恨的不是管太严的父母……

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

今年最流行的衣服竟然是它?高级又气质!

艺术要闻

王羲之《换鹅帖》尚在人间,惊艳无比!

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版