网易首页 > 网易号 > 正文 申请入驻

米兰大学:揭示AI绘画的"内容与技法"认知

0
分享至

这项研究就像给AI画家做了一次"大脑扫描"。研究团队发现,当我们告诉AI"画一只长颈鹿,用分析立体主义的风格"时,AI的注意力会神奇地分成两部分:一部分专门关注长颈鹿本身(内容),另一部分则专门处理分析立体主义的特征(风格)。更有趣的是,这种分工并不是人为设计的,而是AI在学习过程中自发形成的能力。

这个发现颠覆了我们对AI艺术创作的理解。传统上,计算机视觉领域一直认为内容和风格应该是完全独立的两个概念,就像做菜时的食材和烹饪方法一样。但问题是,现在这些AI模型在训练时并没有被明确告知什么是内容、什么是风格,它们只是看了数以亿计的图片,然后自己学会了画画。那么,它们是否真的理解了内容和风格的区别呢?

研究团队使用了一种叫做"交叉注意力热图"的技术来窥探AI的"思考过程"。这就像给AI戴上了一副特殊眼镜,让我们能看到AI在生成图片时,每个词语对画面不同区域的影响程度。当AI处理"一幅分析立体主义风格的长颈鹿画作"这样的指令时,研究人员发现,"长颈鹿"这个词主要影响画面中动物本身的区域,而"分析立体主义"则主要影响背景和纹理部分。

更引人注目的是"伦勃朗的牛"这个例子,这也是论文标题的由来。研究发现,当AI被要求画"伦勃朗风格的牛"时,它竟然给牛"穿"上了衣服!这是因为AI从大量伦勃朗的画作中学到,伦勃朗主要画人物肖像,所以当遇到牛这个不寻常的主题时,AI试图用它熟悉的伦勃朗元素(比如服装)来表达这种风格。这种现象揭示了AI学习艺术的独特方式:它不仅仅是在模仿技法,还在尝试理解和重新组合艺术元素。

为了验证这些发现,研究团队设计了一套严谨的实验方法。他们从微软COCO数据集中选取了80种不同的物体作为内容元素,从WikiArt数据集中选择了50种风格描述符,包括23位著名艺术家和27种艺术运动。这样的组合产生了16000个独特的画画指令,涵盖了从"毕加索风格的香蕉"到"印象派的自行车"等各种有趣的组合。

实验使用了Stable Diffusion XL这个目前最成熟的开源文本生成图像模型。研究团队为每个指令生成图像,然后分析AI在处理内容词汇和风格词汇时的注意力分布模式。他们使用一种叫做"交并比"的数学方法来测量内容和风格注意力区域的重叠程度。如果重叠很少,说明AI确实将内容和风格区分对待;如果重叠很多,则表明AI可能将这两个概念混淆了。

研究结果令人振奋。在大多数情况下,AI确实表现出了对内容和风格的清晰区分。统计分析显示,内容和风格词汇的注意力重叠程度显著低于随机基准,这意味着这种分离不是偶然现象,而是AI学会的一种系统性能力。

然而,这种分离能力并不是在所有情况下都表现一致。研究发现了一些有趣的规律:动物类的内容词汇(如长颈鹿、斑马、熊)往往能与风格词汇实现最清晰的分离,而"人"这个词汇的分离效果最差。这可能是因为在艺术史中,人物肖像本身就承载着强烈的风格信息,使得内容和风格更难区分。

在风格方面,研究发现写实主义艺术运动(如新写实主义、洛可可)比抽象艺术运动(如抽象表现主义、立体主义)更容易与内容实现分离。这个发现非常合理:写实主义强调准确描绘对象本身,而抽象主义往往会改变或重新诠释对象的形态,使得内容和风格更加交融。

最引人注意的发现是关于个别艺术家的特殊行为。在所有测试的艺术家中,只有伦勃朗出现了负的分离值,意味着当使用伦勃朗风格时,内容和风格的融合程度超过了平均水平。这种现象特别在画人物时更加明显,可能与伦勃朗大量的自画像作品有关——AI学到的"伦勃朗风格"与人物形象紧密关联,难以分离。

研究团队还发现了一些令人惊讶的边缘案例。比如,当AI被要求画"拉斐尔·基希纳风格的胡萝卜"时,画面中竟然出现了一位女性形象。这是因为基希纳以画女性肖像著称,AI在处理这个不寻常的组合时,倾向于加入它认为符合该风格的典型元素。

这种现象反映了AI学习艺术的一个重要特点:它不仅学习绘画技法,还学习了艺术家的主题偏好和创作习惯。当遇到与艺术家常见主题不符的内容时,AI会尝试用该艺术家的典型元素来"补偿",创造出意想不到的融合效果。

为了确保研究结果的可靠性,研究团队使用了多种不同的阈值设置来分析注意力热图。无论是使用固定阈值还是基于百分位数的相对阈值,实验结果都保持一致,证明了发现的稳健性。统计检验显示,所有配置下的结果都具有高度显著性,排除了偶然性因素的影响。

这项研究对我们理解AI艺术创作具有重要意义。首先,它证明了大规模AI模型能够在没有明确指导的情况下,自发地学会区分艺术作品的内容和风格成分。这种能力的出现,为我们提供了AI如何理解和处理复杂艺术概念的珍贵洞察。

其次,研究揭示了AI艺术创作的细致入微之处。AI不仅仅是简单地复制和粘贴艺术元素,而是在深层次上理解了不同艺术家和艺术运动的特征,并能够智能地将这些特征应用到新的创作情境中。

第三,这些发现对改进AI艺术生成系统具有实用价值。了解AI如何处理内容和风格信息,可以帮助开发者设计更好的提示词策略,创造更精确、更富表现力的艺术作品。

研究也揭示了当前AI艺术系统的一些局限性。某些内容和风格的组合仍然会产生混淆,特别是当内容与特定艺术家的典型主题相冲突时。这提醒我们,AI虽然在艺术创作方面取得了令人印象深刻的进展,但仍然受到训练数据的偏见和局限性影响。

对于普通用户来说,这项研究提供了使用AI艺术工具的实用指导。在选择提示词时,考虑内容和风格的匹配程度可能会影响最终结果的质量。选择与特定艺术家常见主题相符的内容,可能会获得更好的风格表现效果。

展望未来,这项研究为AI艺术领域开辟了新的研究方向。研究团队表示,他们计划将这种分析方法扩展到其他文本生成图像模型,并与艺术领域专家合作,进行更深入的人类评估和分析。他们还计划探索不同的注意力提取方法和重叠度量标准,以更全面地理解AI的艺术创作机制。

这项研究的影响远远超出了技术层面。它让我们重新思考艺术创作的本质:什么是风格?什么是内容?它们之间的边界在哪里?当机器能够理解和模仿这些概念时,我们对艺术和创造力的定义又该如何演进?

说到底,这项研究告诉我们,AI已经不再是简单的图像复制机器,而是发展出了对艺术概念的深层理解能力。虽然这种理解可能与人类的艺术认知存在差异,但它代表了人工智能在理解和创造人类文化表达方面的重要进步。当我们下次使用AI创作艺术作品时,或许可以更加欣赏这个过程中隐藏的复杂性和智慧。毕竟,就连"伦勃朗的牛"也不只是简单的技术展示,而是AI对艺术理解的独特诠释。

对于那些对AI艺术创作感兴趣的读者,这项研究不仅提供了理论洞察,更开放了代码和数据集供进一步探索。研究团队希望这项工作能够促进更多关于AI艺术理解机制的研究,最终帮助我们创造出更加智能、更富创造力的AI艺术系统。

Q&A

Q1:AI绘画模型是如何区分"画什么"和"怎么画"的?

A:AI通过"交叉注意力热图"技术来处理这两个概念。当接收到"伦勃朗风格的牛"这样的指令时,AI会将注意力分成两部分:一部分专门关注"牛"这个内容对象,另一部分处理"伦勃朗风格"的绘画特征。这种分工不是人为设计的,而是AI在学习大量艺术作品后自发形成的能力。

Q2:为什么有些艺术家风格比其他风格更难与内容分离?

A:这主要取决于艺术家的创作习惯和主题偏好。比如伦勃朗以人物肖像和自画像著称,所以AI学到的"伦勃朗风格"与人物形象紧密关联,很难分离。写实主义艺术运动比抽象艺术运动更容易分离,因为写实主义强调准确描绘对象,而抽象主义往往改变对象形态。

Q3:这项研究对普通人使用AI绘画工具有什么实用价值?

A:研究发现可以帮助用户更好地设计提示词。选择与特定艺术家常见主题相符的内容(比如用伦勃朗画人物而不是动物)可能获得更好的风格效果。另外,动物类内容词汇比人物更容易与风格实现清晰分离,这可以指导用户在创作时的选择策略。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海电气这回是有够倒霉的

上海电气这回是有够倒霉的

财报时间
2026-07-04 08:32:50
保险卖不动了,700万人集体离场。

保险卖不动了,700万人集体离场。

流苏晚晴
2026-07-04 18:54:07
40架歼-10C+4架空警-500,俄罗斯垄断被打破,北非天空要变天

40架歼-10C+4架空警-500,俄罗斯垄断被打破,北非天空要变天

止戈军是我
2026-07-03 13:03:51
“退休后每月可领50万元养老金!”交费30年后突然变卦?深圳男子状告保险公司

“退休后每月可领50万元养老金!”交费30年后突然变卦?深圳男子状告保险公司

深圳晚报
2026-07-04 09:27:05
日本队输得不冤:一场表演式勤奋毁掉的不止世界杯 还有三十年国运

日本队输得不冤:一场表演式勤奋毁掉的不止世界杯 还有三十年国运

盘和林看经济
2026-07-04 12:30:08
麦家琪与老公分居两地,坦言爱已拆散,长居内地卖云吞但不会离婚

麦家琪与老公分居两地,坦言爱已拆散,长居内地卖云吞但不会离婚

潘殤旅行浪子
2026-06-21 18:42:27
大明皇家菜单,猜你不想吃

大明皇家菜单,猜你不想吃

汉周读书
2026-06-25 11:20:06
霉霉官宣完婚,麦迪逊广场大屏打出字幕,天空出现粉色霞光和彩虹

霉霉官宣完婚,麦迪逊广场大屏打出字幕,天空出现粉色霞光和彩虹

韩小娱
2026-07-04 18:44:40
一针见血!王治郅痛批中国男篮惨败:输球不是不努力,是不会打球

一针见血!王治郅痛批中国男篮惨败:输球不是不努力,是不会打球

冷桂零落
2026-07-04 10:10:52
赛格回应1154.6万罚款原因,多位造谣者被警方处罚

赛格回应1154.6万罚款原因,多位造谣者被警方处罚

映射生活的身影
2026-07-03 15:39:35
郭昊文正式签约NBA!将亮相国王队,薪水大概能是多少?

郭昊文正式签约NBA!将亮相国王队,薪水大概能是多少?

阿腩讲娱乐
2026-07-04 07:53:24
1天4个瓜!国外生子、被抓进去、自曝怀双胎、韩红最让人意外

1天4个瓜!国外生子、被抓进去、自曝怀双胎、韩红最让人意外

三石记
2026-06-25 11:54:09
3部大片亏超5亿,顶流明星集体失业:中国电影终于现了原形

3部大片亏超5亿,顶流明星集体失业:中国电影终于现了原形

陈意小可爱
2026-07-04 11:36:54
日媒:日印再次确认高铁合作计划

日媒:日印再次确认高铁合作计划

参考消息
2026-07-03 19:11:21
上海儿童医学中心真实案例:肠菌移植后,4岁男孩自闭症症状改善

上海儿童医学中心真实案例:肠菌移植后,4岁男孩自闭症症状改善

肠菌科普
2026-07-03 18:10:04
梅西头撞对手膝盖额头肿起大包,带伤鏖战加时!球迷:这是神的角

梅西头撞对手膝盖额头肿起大包,带伤鏖战加时!球迷:这是神的角

听我说球
2026-07-04 09:52:51
终止重大投资项目!千亿龙头,002709宣布

终止重大投资项目!千亿龙头,002709宣布

中国基金报
2026-07-04 15:15:42
终止重大项目!A股龙头,突发公告

终止重大项目!A股龙头,突发公告

数据宝
2026-07-04 17:59:28
人过80岁,哪怕身体再健康,也要记住这四句话,晚年远离病痛

人过80岁,哪怕身体再健康,也要记住这四句话,晚年远离病痛

观星赏月
2026-07-03 12:03:48
日本赞助商集体退出世界杯,中国制造崛起藏着这些真相

日本赞助商集体退出世界杯,中国制造崛起藏着这些真相

冰语历史
2026-07-04 15:58:56
2026-07-04 19:40:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19861文章数 49713关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

特朗普:美国很善良 给伊朗一周的时间办丧事

头条要闻

特朗普:美国很善良 给伊朗一周的时间办丧事

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
游戏
房产
手机
公开课

教育要闻

南阳2026年中考成绩将于7月5日公布!

索尼PS官号已“装死”48小时 这次是真的怕了?

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

手机要闻

W26排名分析:vivo、OPPO位置互换,华为、苹果霸占前二

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版