网易首页 > 网易号 > 正文 申请入驻

米兰大学:揭示AI绘画的"内容与技法"认知

0
分享至


当我们让AI画一幅"伦勃朗风格的牛"时,它的"大脑"里到底在想什么?这个听起来像科幻小说的问题,现在有了令人惊喜的答案。来自米兰大学计算机科学系的三位研究者——Alfio Ferrara、Sergio Picascia和Elisabetta Rocchetti——在2025年8月31日至9月3日举办的IEEE国际机器学习信号处理研讨会上发表了一项开创性研究。这项研究首次揭示了文本生成图像AI模型是如何理解和处理艺术作品中"画什么"和"怎么画"这两个基本概念的。感兴趣的读者可以通过https://github.com/umilISLab/artistic-prompt-interpretation访问研究代码和数据集。

这项研究就像给AI画家做了一次"大脑扫描"。研究团队发现,当我们告诉AI"画一只长颈鹿,用分析立体主义的风格"时,AI的注意力会神奇地分成两部分:一部分专门关注长颈鹿本身(内容),另一部分则专门处理分析立体主义的特征(风格)。更有趣的是,这种分工并不是人为设计的,而是AI在学习过程中自发形成的能力。

这个发现颠覆了我们对AI艺术创作的理解。传统上,计算机视觉领域一直认为内容和风格应该是完全独立的两个概念,就像做菜时的食材和烹饪方法一样。但问题是,现在这些AI模型在训练时并没有被明确告知什么是内容、什么是风格,它们只是看了数以亿计的图片,然后自己学会了画画。那么,它们是否真的理解了内容和风格的区别呢?

研究团队使用了一种叫做"交叉注意力热图"的技术来窥探AI的"思考过程"。这就像给AI戴上了一副特殊眼镜,让我们能看到AI在生成图片时,每个词语对画面不同区域的影响程度。当AI处理"一幅分析立体主义风格的长颈鹿画作"这样的指令时,研究人员发现,"长颈鹿"这个词主要影响画面中动物本身的区域,而"分析立体主义"则主要影响背景和纹理部分。

更引人注目的是"伦勃朗的牛"这个例子,这也是论文标题的由来。研究发现,当AI被要求画"伦勃朗风格的牛"时,它竟然给牛"穿"上了衣服!这是因为AI从大量伦勃朗的画作中学到,伦勃朗主要画人物肖像,所以当遇到牛这个不寻常的主题时,AI试图用它熟悉的伦勃朗元素(比如服装)来表达这种风格。这种现象揭示了AI学习艺术的独特方式:它不仅仅是在模仿技法,还在尝试理解和重新组合艺术元素。

为了验证这些发现,研究团队设计了一套严谨的实验方法。他们从微软COCO数据集中选取了80种不同的物体作为内容元素,从WikiArt数据集中选择了50种风格描述符,包括23位著名艺术家和27种艺术运动。这样的组合产生了16000个独特的画画指令,涵盖了从"毕加索风格的香蕉"到"印象派的自行车"等各种有趣的组合。

实验使用了Stable Diffusion XL这个目前最成熟的开源文本生成图像模型。研究团队为每个指令生成图像,然后分析AI在处理内容词汇和风格词汇时的注意力分布模式。他们使用一种叫做"交并比"的数学方法来测量内容和风格注意力区域的重叠程度。如果重叠很少,说明AI确实将内容和风格区分对待;如果重叠很多,则表明AI可能将这两个概念混淆了。

研究结果令人振奋。在大多数情况下,AI确实表现出了对内容和风格的清晰区分。统计分析显示,内容和风格词汇的注意力重叠程度显著低于随机基准,这意味着这种分离不是偶然现象,而是AI学会的一种系统性能力。

然而,这种分离能力并不是在所有情况下都表现一致。研究发现了一些有趣的规律:动物类的内容词汇(如长颈鹿、斑马、熊)往往能与风格词汇实现最清晰的分离,而"人"这个词汇的分离效果最差。这可能是因为在艺术史中,人物肖像本身就承载着强烈的风格信息,使得内容和风格更难区分。

在风格方面,研究发现写实主义艺术运动(如新写实主义、洛可可)比抽象艺术运动(如抽象表现主义、立体主义)更容易与内容实现分离。这个发现非常合理:写实主义强调准确描绘对象本身,而抽象主义往往会改变或重新诠释对象的形态,使得内容和风格更加交融。

最引人注意的发现是关于个别艺术家的特殊行为。在所有测试的艺术家中,只有伦勃朗出现了负的分离值,意味着当使用伦勃朗风格时,内容和风格的融合程度超过了平均水平。这种现象特别在画人物时更加明显,可能与伦勃朗大量的自画像作品有关——AI学到的"伦勃朗风格"与人物形象紧密关联,难以分离。

研究团队还发现了一些令人惊讶的边缘案例。比如,当AI被要求画"拉斐尔·基希纳风格的胡萝卜"时,画面中竟然出现了一位女性形象。这是因为基希纳以画女性肖像著称,AI在处理这个不寻常的组合时,倾向于加入它认为符合该风格的典型元素。

这种现象反映了AI学习艺术的一个重要特点:它不仅学习绘画技法,还学习了艺术家的主题偏好和创作习惯。当遇到与艺术家常见主题不符的内容时,AI会尝试用该艺术家的典型元素来"补偿",创造出意想不到的融合效果。

为了确保研究结果的可靠性,研究团队使用了多种不同的阈值设置来分析注意力热图。无论是使用固定阈值还是基于百分位数的相对阈值,实验结果都保持一致,证明了发现的稳健性。统计检验显示,所有配置下的结果都具有高度显著性,排除了偶然性因素的影响。

这项研究对我们理解AI艺术创作具有重要意义。首先,它证明了大规模AI模型能够在没有明确指导的情况下,自发地学会区分艺术作品的内容和风格成分。这种能力的出现,为我们提供了AI如何理解和处理复杂艺术概念的珍贵洞察。

其次,研究揭示了AI艺术创作的细致入微之处。AI不仅仅是简单地复制和粘贴艺术元素,而是在深层次上理解了不同艺术家和艺术运动的特征,并能够智能地将这些特征应用到新的创作情境中。

第三,这些发现对改进AI艺术生成系统具有实用价值。了解AI如何处理内容和风格信息,可以帮助开发者设计更好的提示词策略,创造更精确、更富表现力的艺术作品。

研究也揭示了当前AI艺术系统的一些局限性。某些内容和风格的组合仍然会产生混淆,特别是当内容与特定艺术家的典型主题相冲突时。这提醒我们,AI虽然在艺术创作方面取得了令人印象深刻的进展,但仍然受到训练数据的偏见和局限性影响。

对于普通用户来说,这项研究提供了使用AI艺术工具的实用指导。在选择提示词时,考虑内容和风格的匹配程度可能会影响最终结果的质量。选择与特定艺术家常见主题相符的内容,可能会获得更好的风格表现效果。

展望未来,这项研究为AI艺术领域开辟了新的研究方向。研究团队表示,他们计划将这种分析方法扩展到其他文本生成图像模型,并与艺术领域专家合作,进行更深入的人类评估和分析。他们还计划探索不同的注意力提取方法和重叠度量标准,以更全面地理解AI的艺术创作机制。

这项研究的影响远远超出了技术层面。它让我们重新思考艺术创作的本质:什么是风格?什么是内容?它们之间的边界在哪里?当机器能够理解和模仿这些概念时,我们对艺术和创造力的定义又该如何演进?

说到底,这项研究告诉我们,AI已经不再是简单的图像复制机器,而是发展出了对艺术概念的深层理解能力。虽然这种理解可能与人类的艺术认知存在差异,但它代表了人工智能在理解和创造人类文化表达方面的重要进步。当我们下次使用AI创作艺术作品时,或许可以更加欣赏这个过程中隐藏的复杂性和智慧。毕竟,就连"伦勃朗的牛"也不只是简单的技术展示,而是AI对艺术理解的独特诠释。

对于那些对AI艺术创作感兴趣的读者,这项研究不仅提供了理论洞察,更开放了代码和数据集供进一步探索。研究团队希望这项工作能够促进更多关于AI艺术理解机制的研究,最终帮助我们创造出更加智能、更富创造力的AI艺术系统。

Q&A

Q1:AI绘画模型是如何区分"画什么"和"怎么画"的?

A:AI通过"交叉注意力热图"技术来处理这两个概念。当接收到"伦勃朗风格的牛"这样的指令时,AI会将注意力分成两部分:一部分专门关注"牛"这个内容对象,另一部分处理"伦勃朗风格"的绘画特征。这种分工不是人为设计的,而是AI在学习大量艺术作品后自发形成的能力。

Q2:为什么有些艺术家风格比其他风格更难与内容分离?

A:这主要取决于艺术家的创作习惯和主题偏好。比如伦勃朗以人物肖像和自画像著称,所以AI学到的"伦勃朗风格"与人物形象紧密关联,很难分离。写实主义艺术运动比抽象艺术运动更容易分离,因为写实主义强调准确描绘对象,而抽象主义往往改变对象形态。

Q3:这项研究对普通人使用AI绘画工具有什么实用价值?

A:研究发现可以帮助用户更好地设计提示词。选择与特定艺术家常见主题相符的内容(比如用伦勃朗画人物而不是动物)可能获得更好的风格效果。另外,动物类内容词汇比人物更容易与风格实现清晰分离,这可以指导用户在创作时的选择策略。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海一消费者在米其林餐厅吃出鱼钩,消费六千多全免单餐厅致歉

上海一消费者在米其林餐厅吃出鱼钩,消费六千多全免单餐厅致歉

江西晨报
2026-01-04 16:14:52
表面“黄花大闺女”,背地却偷偷生子的4位女星,最后一个想不到

表面“黄花大闺女”,背地却偷偷生子的4位女星,最后一个想不到

青史楼兰
2026-01-04 09:24:27
6记三分轰31分,库里连创历史第一!追梦自爆后勇士净胜19分逆转

6记三分轰31分,库里连创历史第一!追梦自爆后勇士净胜19分逆转

锅子篮球
2026-01-04 15:58:45
人民币中间价调升58个基点报7.0230

人民币中间价调升58个基点报7.0230

北京商报
2026-01-05 10:44:05
最新通报!上海一公职人员被查

最新通报!上海一公职人员被查

新浪财经
2026-01-05 08:49:36
山西小区物业“我赔不起”,让各方沉默了,起火事故谁来赔偿?

山西小区物业“我赔不起”,让各方沉默了,起火事故谁来赔偿?

柏铭锐谈
2026-01-04 10:21:25
1950 年,毛主席毫无预兆地怒而下令,周总理与聂荣臻急忙起身应对,众人纷纷揣测:他为何突然发火?

1950 年,毛主席毫无预兆地怒而下令,周总理与聂荣臻急忙起身应对,众人纷纷揣测:他为何突然发火?

源溯历史
2026-01-03 14:55:11
7 点被告知项目被抢走,我7点12分就提交离职报告,拉黑所有同事

7 点被告知项目被抢走,我7点12分就提交离职报告,拉黑所有同事

今天说故事
2026-01-03 23:56:51
坐在沙发上穿黑色T恤衫的美女

坐在沙发上穿黑色T恤衫的美女

乡野小珥
2026-01-05 10:10:54
自曝与两名美女主持同床共枕,当了十年地下情人,如今56岁仍未婚

自曝与两名美女主持同床共枕,当了十年地下情人,如今56岁仍未婚

丰谭笔录
2026-01-05 10:49:01
“小寒吃3鲜,来年病不沾”,今日小寒,“3鲜”是什么?怎么吃?

“小寒吃3鲜,来年病不沾”,今日小寒,“3鲜”是什么?怎么吃?

马蹄烫嘴说美食
2026-01-05 10:05:31
42岁佟丽娅在美国过元旦!脸浮肿眼角皱纹多,发际线植发痕迹明显

42岁佟丽娅在美国过元旦!脸浮肿眼角皱纹多,发际线植发痕迹明显

宝藏风爷
2026-01-04 14:15:16
格林怒喷裁判被驱逐!库里却代表全队声援他!

格林怒喷裁判被驱逐!库里却代表全队声援他!

氧气是个地铁
2026-01-05 11:06:32
郭艾伦时刻重演!山东国手拯救邱彪,单场25分,谁说他三分不准?

郭艾伦时刻重演!山东国手拯救邱彪,单场25分,谁说他三分不准?

体坛大事记
2026-01-05 10:16:59
前国脚定居西班牙多年,卖5套房花费1000万,如今没有工作吃老本

前国脚定居西班牙多年,卖5套房花费1000万,如今没有工作吃老本

素衣读史
2025-12-30 18:06:27
马杜罗被抓,为什么依然不慌

马杜罗被抓,为什么依然不慌

臧启玉律师
2026-01-04 12:20:10
因长得太漂亮,7次拒绝导演要求遭打压,如今43岁才等到掌声

因长得太漂亮,7次拒绝导演要求遭打压,如今43岁才等到掌声

黎兜兜
2025-12-25 21:57:32
美国活捉马杜罗,给全球提了个醒,解放军全军演训,奔着实战而去

美国活捉马杜罗,给全球提了个醒,解放军全军演训,奔着实战而去

李健政观察
2026-01-05 10:14:29
蓝天白云不能牺牲老百姓冬天采暖!央视就华北部分农村取暖难发声

蓝天白云不能牺牲老百姓冬天采暖!央视就华北部分农村取暖难发声

阿纂看事
2026-01-05 09:37:55
特朗普放话:这次行动不会影响中美关系,因为中国能拿到更多石油

特朗普放话:这次行动不会影响中美关系,因为中国能拿到更多石油

头条爆料007
2026-01-04 05:30:57
2026-01-05 11:28:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15233文章数 49683关注度
往期回顾 全部

科技要闻

雷军新年首播:确认汽车业务降速

头条要闻

特朗普:美方正与委代总统接触 将在适当时候与其交谈

头条要闻

特朗普:美方正与委代总统接触 将在适当时候与其交谈

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

黄宗泽夺双料视帝,泪洒颁奖台忆往昔

财经要闻

李迅雷:扩内需要把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

房产
亲子
旅游
游戏
公开课

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

亲子要闻

2026年育儿补贴今天开始申领 操作指南请查收

旅游要闻

郑州黄河文化公园发布闭园公告

《血源》PC版画面mod发布更新 动态光影重塑雅南风光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版