网易首页 > 网易号 > 正文 申请入驻

AI生成图片正在反向对齐人类的审美?ICML 2026观点论文Spotlight

0
分享至



UBC 和 Weathon Software 的研究提出,图像的美学对齐正在削弱艺术表达。



  • 论文标题:Position: Universal Aesthetic Alignment Narrows Artistic Expression作者:郭闻起,钱青云,Khalad Hasan,Shan Du
  • 论文地址:
    https://arxiv.org/abs/2512.11883
  • 代码和数据(已开源):
    https://github.com/weathon/icml2026_position
  • 展览网站:
    https://weathon.github.io/icml2026_position/
  • ICML Event Page:https://icml.cc/virtual/2026/poster/67242

本文第一作者郭闻起是 University of British Columbia(UBC)的计算机系硕士生,主攻 AI 生成模型的安全和隐私问题。他和共同作者钱青云(法学系毕业生,UBC 计算机系本科在读)一起提出了对 AI 模型普遍追求单一价值对齐的担忧。此前两人曾批判模型在医学方向过度谨慎的情况。

本文主要讨论图像生成模型在美学对齐中对艺术表达的限制问题。本文的指导教授是 UBC 的 Khalad Hasan,主攻人机交互方向,以及 Shan Du,主要研究计算机视觉和计算机图形学。



该论文在 ICML 上的海报:一定程度上摆脱了传统学术海报的风格束缚。

当「更好看」成为默认目标

AI 图片生成模型最开始只能生成 8 根手指、扭曲面部等不符合正常生理结构的图片,而现在已经进化到了可以生成正常、符合人类生理结构的图片。

在解决了此类图像生成的正确性问题后,AI 开发者们的目标转向了如何让 AI 生成的图片更符合人类的审美。

于是,ImageReward、HPSv2、HPSv3 等图像质量评估模型被相继开发出来,且被广泛应用于对齐图像生成模型,以产出更符合人类偏好的图片。

然而,当图像生成模型被强制对齐到开发者们预先设定好的审美标准,被强化学习训练成只会产出网红风的「糖水片」——也就是色彩艳丽、对比度鲜明、在社交媒体上备受青睐的一类图片时,图像生成模型所能产出的图片是否已一步步偏离人类社会中真正的艺术?

艺术的表达本应是多元的,除去主流审美框架,艺术还应包含小众风格、非主流文化,甚至于是「丑陋」的文化。但是当此类色彩明艳、对比度鲜明的「糖水片」占据主流,而其他小众风格被悄然边缘化时,我们是否会产生一个疑问:百花齐放的艺术何时变成了一枝独秀的「色彩大片」?

这真的反映了全人类的审美偏好吗?或者说人类真的有所谓绝对意义上的通用审美偏好吗?用户在美学上的个性化需求需要让位于开发者所理解的通用人类审美吗?所谓的「使用美学对齐,生成更符合人类偏好的图片」,到底是开发者在训练模型去对齐人类的审美,还是处于相反的情况——模型正通过生产绝对数量的单独一种风格的图片,悄悄地把用户的审美反向对齐到模型自身的审美偏好上?



图中展示的这些是经过 DanceGRPO 对齐之后的 Flux Dev 生成的图片。客观地说,这些图片确实非常符合「大众」的口味和喜好:鲜艳的颜色、强烈的对比度,以及清晰的细节。

然而,对于这些被训练好的图片生成模型,无论用户提出的要求是什么,甚至即使用户明确要求避免此类风格(例如要求生成模糊昏暗的风格),它们仍然固执地运用同一套审美标准,输出同质化严重的「糖水大片」。这不仅违背了用户的真实需求,还在无形中限制了用户的想象空间。

六个相互关联的担忧


针对这种普适的、同质化的审美标准,本文作者郭闻起和钱青云提出了六个相互关联的担忧。

首先是关于开发者预设的通用审美标准影响用户个性化审美权利的担忧。采用这种通用审美真的能更好地服务用户,满足用户的审美需求吗?亦或者它的目的只是为了满足开发者规避声誉、法律和市场风险的私欲?

文章认为,这种预先排除非主流风格、只保留单一审美标准的做法可能会造成创造可能性的单一性。它通过算法设计,将生成的图片局限于预设的审美标准内,并剥夺了用户提出异议的权利。在此背景下,这套审美标准是否能真正满足用户偏好是存疑的。

其次是开发者在制定审美标准时引入的偏见性问题。即使开发者本身没有明显的利益需求,他们本身也没有有意识地引入偏见,他们对人类审美偏好的理解也会通过数据选择、标注实践和建模选择隐性地传递给模型,从而形成一种看似宽大,实则狭隘的通用人类偏好,排斥了多样化的审美。

比如:HPSv3 的标注者绝大部分都是年轻人,他们所选择的「好图像」可能会偏向年轻一代的审美。此外,HPSv3 还要求标注者必须通过一个和专家的标注结果保持一致的测试,这导致了标注结果无法跳出特定预设的审美框架。

第三是个体偏好和群体偏好的矛盾问题。当开发者事先制定好的审美标准,也就是这份带有隐性偏见的固有偏好,被设置为为所有用户提供服务时的默认质量标准时,这份「开发者眼中有利于大多数人的普适标准」可能会凌驾于部分用户的明确意愿之上。

这既导致了群体偏好对个体偏好的冲突——模型采用统一审美框架,而非遵从特定用户的明确指令;又导致了群体客户的审美同质化:在模型绝大多数只生成同一种风格的图片,而用户只能被动接受该类风格的图片时,用户的美学偏好被反向对齐到模型的偏好上了。

第四,被统一标准强行矫正过的审美框架可能会过度美化和修饰现实的问题。当图像生成模型在审美框架的限制下,只能生成光鲜亮丽、完美无瑕的图像时,与「完美图像」背道而驰的「丑」,亦或者其余小众的风格、现实中的黑暗,是否正在被悄悄地忽略?模型生成的图片可能无法代表用户想要的现实,而是只呈现了其理想化的一面。

第五,色彩过于鲜明的图片存在「正能量过剩」的问题。鉴于上述提及的审美框架,许多奖励模型会有针对性地给图片评分:他们会给带有强烈积极情绪和明亮色彩的图像更高的分数,并系统性地惩罚带有消极情绪和风格的图像。尝试让图片给予观众更多的积极情绪似乎是正确的,然而,拒绝消极风格的图像似乎又带来了另一个问题。消极情绪和风格在人类认知和社会互动中扮演着不可替代的角色,不允许消极风格的出现会扭曲情感表达,削弱模型的表现力。

第六,固定不变的、被称之为「人类普遍爱好的审美方向」存在艺术价值单一、去多元化的问题。美学是人类最丰富、最具争议、也最多元的价值之一,将其简化为单一的奖励分数是典型的价值捕获。它将多元、复杂、多维度的美学探索压缩成一个单一的数字,限制了不同风格艺术的出现,也压制了人类对于多元美学图片的探讨。

如何验证模型有多固执?


为了验证现在的模型有多固执地执行此类审美标准,本文作者设计了 300 条 prompt。这些 prompt 以 COCO 数据集中的 prompt 作为基底,再根据 VisionReward 中用于标注图像的 guideline 选择了一些「反美学」维度,如光线昏暗、颜色冲突、不合比例和负面情绪等,最后通过 Qwen3 合成反美学的图像,并生成数据集。

然后,他们将这些 prompt 送入主流的图像生成模型家族来测试生成的图片。为了形成对比,并排除「模型只是无法遵循复杂反美学 prompt」这一可能性,他们测试了同一家族内没有经过额外美学对齐的模型,以及经过社区或学术界额外美学对齐的模型。他们同时测试了图像生成模型和奖励模型。

奖励模型是否真的理解反美学?

为了评估奖励模型,他们把一张原始图片(由 COCO 基础 prompt 生成)和一张已成功生成的反美学图片同时给奖励模型,并明确提供希望生成反美学图片的 prompt,观察奖励模型会选择输出哪一张图片。同时,他们测试了简单的图文匹配模型:BLIP 和 CLIP。

结果显示,即使是最新的奖励模型,如 HPSv3 和 HPSv2.1,当拿到反美学 prompt 时,也几乎无法正确地选出那张反美学图片。而没有经过美学训练的 CLIP 和 BLIP 却可以完美地选出这张反美学图片。由于使用的是同样的反美学 prompt,这两项测试结果排除了反美学 prompt 过于复杂、模型无法理解的可能。



图像生成模型能否遵循反美学要求?


为了测试图像生成模型,本文作者用 COCO 原始 prompt 通过奖励模型给图片打分。在这种情况下,模型输出越偏离传统美学(也就是越成功地反美学),就越说明它能够遵循用户的反美学要求。

他们还在 VisionReward 数据集上训练了一个小的、不用 prompt 作为输入的裁判模型,用来判断在没有 prompt 的影响时,模型是否可以生成反美学图片。最后,他们用了 BLIP 模型(如前文所述,可以很好地判断反美学程度)来判断图片是否符合反美学 prompt。

表中的结果可以看出,模型在经过美学对齐之后,普遍获得了更低的反美学能力。唯一例外的是 Nano Banana,尽管用户对其美学质量感到惊叹,它依旧能在要求时成功地生成反美学图片。其生成的 COCO 基础 prompt 图片和反美学图片的 HPSv3 分数差异也是最大的,达到了 9.351。



成功与失败的反美学生成

成功(Nano Banana)和失败(DanceFlux)的反美学图像生成。两个模型都被给予了一个反美学 prompt(特征标注在图像上,如 clashing color,distortion)。Nano Banana 可以在一定程度上很好地表达出这些反美学特征,然而 DanceFlux 忽略了这些要求,生成出了传统的网美风图像,甚至在用户明确要求生成反美学图片时也依旧如此。



真实图片的测试


为了测试奖励模型在 AI 生成图像之外的表现,研究者还考察了真实的反美学摄影作品。他们从 AVA 数据集中以 agentic 的方式筛选出一批反美学照片。AVA 数据集来自专业摄影平台,其中的反美学摄影更接近有意的艺术表达,而不是单纯的失败作品。

具体来说,他们让 LLM 为这些图片生成两类标题:一类明确包含反美学元素,另一类只简单描述图片内容。随后,他们使用这些「简单表述图片内容的标题」作为 prompt,通过 AI 重新生成一张更「干净」的图片,再让 HPSv3 对真实反美学照片和 AI 生成的干净版本进行打分。结果显示,HPSv3 严重偏好后者,即使真实的反美学作品更符合原本 prompt 中的艺术表达。下图展示了一些极端案例。



美学对齐对情绪的偏见


本文作者的其中一个担忧是美学对齐会过度偏好正面情绪,且压制负面情绪的表达。为了测试这一点,研究者让 Nano Banana 生成 4 张除表情外几乎完全相同的照片,分别对应开心、愤怒、伤心和恐惧。结果发现,即使 prompt 明确要求负面情绪,HPSv3 仍然强烈偏好那张正面情绪的照片,HPSv3 成功选择负面情绪图片的准确率甚至低于随机猜测的 50%。而 HPSv2 和 ImageReward 的表现虽然好一些,但仍然达不到 BLIP 的水平。

在生成侧,这种现象同样存在:经过美学对齐的模型几乎无法稳定生成负面情绪。更值得警惕的是,当用户要求一张图片表达战争的残酷时,DanceFlux 生成的画面仍让废墟中的母亲带着一丝微笑,削弱了用户原本想表达的对战争的批判。这也引出了作者们对美学对齐更深一层的质疑:如果模型总是把图像修饰得积极、明亮、讨喜,它是否会让生成图像失去通过「负面情绪」「滑稽」「丑陋」等风格,对事物进行批判的能力?



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
坐标上海!被裁失业后的生活,引炸评论区,大家同为天涯沦落人…

坐标上海!被裁失业后的生活,引炸评论区,大家同为天涯沦落人…

慧翔百科
2026-05-13 11:30:11
《大表哥2》全员转生《GTA6》?R星偷懒还是另有深意

《大表哥2》全员转生《GTA6》?R星偷懒还是另有深意

游民星空
2026-06-25 16:30:25
祸从口出!默茨提议中方签署广场协议,欧洲央行行长紧急出面降温

祸从口出!默茨提议中方签署广场协议,欧洲央行行长紧急出面降温

面包夹知识
2026-06-24 18:15:04
iPhone 20全面曝光: 苹果憋了十年的"iPhone X时刻",赌注大得多

iPhone 20全面曝光: 苹果憋了十年的"iPhone X时刻",赌注大得多

明美无限
2026-06-23 15:48:07
委内瑞拉突发7.5级大地震,伤亡恐破万,美国会见死不救么?

委内瑞拉突发7.5级大地震,伤亡恐破万,美国会见死不救么?

罗富强说
2026-06-25 16:43:24
顶级阴阳!韩国记者提问:你们食物中毒了吗

顶级阴阳!韩国记者提问:你们食物中毒了吗

观察者网
2026-06-25 15:25:40
中国网友的造梗能力能拿世界杯冠军

中国网友的造梗能力能拿世界杯冠军

雷斯林
2026-06-25 14:27:51
央视将播!谍战大剧《千里江山图》来了!我敢说:陈道明又赌对了

央视将播!谍战大剧《千里江山图》来了!我敢说:陈道明又赌对了

草本纪年
2026-06-25 16:57:46
包养10位情妇,睡觉靠翻牌,生下11个私生子,75岁仍在拼命生娃!

包养10位情妇,睡觉靠翻牌,生下11个私生子,75岁仍在拼命生娃!

云舟史策
2026-03-15 17:04:48
确认了,台风+冷空气影响杭州!明天记得开窗!大反转马上就到

确认了,台风+冷空气影响杭州!明天记得开窗!大反转马上就到

19楼
2026-06-25 15:22:00
霍启山被曝11月将举办婚礼仅1天,女方被扒底朝天,郭晶晶没说错

霍启山被曝11月将举办婚礼仅1天,女方被扒底朝天,郭晶晶没说错

娱瓜酱
2026-06-23 14:41:23
离婚又爆挪用上亿公款!「戏剧女王」黄正音面露憔悴暴瘦一圈

离婚又爆挪用上亿公款!「戏剧女王」黄正音面露憔悴暴瘦一圈

ETtoday星光云
2026-06-25 17:11:41
官方出手!涉事者下场大快人心,张桂梅终于能松口气,宋佳没说错

官方出手!涉事者下场大快人心,张桂梅终于能松口气,宋佳没说错

好贤观史记
2026-06-25 14:32:58
我隐瞒拳击金牌身份入伍,低调了4年,直到那天6个老兵群殴我班长

我隐瞒拳击金牌身份入伍,低调了4年,直到那天6个老兵群殴我班长

荔枝人物记
2026-03-13 21:30:07
两岸已签约成功,大陆重大让步?蒋万安开始行动,台当局公开道歉

两岸已签约成功,大陆重大让步?蒋万安开始行动,台当局公开道歉

丁丁鲤史纪
2026-06-24 15:48:50
全网热议的“弟弟要钱买800多的鼠标”事件,炸出多少精神贵族!

全网热议的“弟弟要钱买800多的鼠标”事件,炸出多少精神贵族!

北纬的咖啡豆
2026-06-09 09:35:13
一场65-60!验出中国男篮最大水货,郭士强弃用“拖油瓶”成定局

一场65-60!验出中国男篮最大水货,郭士强弃用“拖油瓶”成定局

刘哥谈体育
2026-06-25 16:42:29
二战士兵怎么解决生理需求的?德国最好笑,美国最实用

二战士兵怎么解决生理需求的?德国最好笑,美国最实用

月光作笺a
2026-06-02 00:10:43
俄乌战争如果继续下去,普京可能被斩首,那将是俄罗斯解体的结局

俄乌战争如果继续下去,普京可能被斩首,那将是俄罗斯解体的结局

荷兰豆爱健康
2026-06-24 17:43:19
指数狂欢,4200股陪跑 A股极致分化行情何时休?

指数狂欢,4200股陪跑 A股极致分化行情何时休?

金融投资报
2026-06-25 16:36:22
2026-06-25 18:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13355文章数 142681关注度
往期回顾 全部

科技要闻

宇树机器人大降价

头条要闻

重卡司机称换不起85万的纯电重卡:追平45万差价要5年

头条要闻

重卡司机称换不起85万的纯电重卡:追平45万差价要5年

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

净利润涨近15倍!美光再次引爆行情

汽车要闻

2027款星途ES 天马1:11:36背后的实力

态度原创

教育
时尚
健康
本地
公开课

教育要闻

多少分可以上湖南工程学院?

最高级的夏季配色,来了!

医生如何快速诊断脑梗和脑出血?

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版