网易首页 > 网易号 > 正文 申请入驻

上海交大突破:AI精准学习人类审美偏好

0
分享至


这项由上海交通大学、上海人工智能实验室、中国科学技术大学和复旦大学联合开展的研究发表于2025年10月,论文编号为arXiv:2510.01982v1。研究团队开发了一套名为G?RPO的全新技术框架,专门用于让AI绘画模型更好地理解和满足人类的审美偏好。

要理解这项研究的意义,我们可以把AI绘画过程想象成一个学习画画的学生。传统方法就像给学生一张完整的作品后说"画得好"或"画得不好",但学生并不知道具体哪一笔画得好,哪一笔需要改进。这种模糊的反馈让学习过程变得缓慢而低效。

研究团队发现了现有AI绘画训练方法的两个关键问题。第一个问题是"奖励信号稀疏",就好比一位厨师做菜时,只有等整道菜完成后才能品尝,无法在烹饪过程中及时调整火候和调料。第二个问题是"评估不够全面",类似于只从一个角度评判一幅画作,而忽视了从不同距离、不同光线下观看的效果。

针对这些挑战,研究团队提出了创新的"颗粒化GRPO"解决方案。这套方案包含两个核心技术:单步随机采样策略和多粒度优势集成模块。

单步随机采样策略的工作原理就像给绘画过程装上了"定点导航系统"。传统方法在整个绘画过程中都会随机添加变化,就像在每个路口都可能随机转向,最终很难判断哪个转向决策导致了最终的结果。而新方法只在特定的一个关键步骤引入随机性,其他步骤都按照确定路径进行。这样一来,最终结果的好坏就能明确归因于那个关键步骤的决策,从而提供精准的学习信号。

多粒度优势集成模块则像是给作品安装了"多倍镜检查系统"。当评估一个绘画方向的优劣时,传统方法只看最终完成的作品,就像只看建筑的外观。而新方法会在不同的完成阶段都进行评估——有时看半成品,有时看粗稿,有时看精细版本,然后综合所有这些不同"分辨率"下的评估结果。这种多角度评估让AI能够更全面地理解什么样的绘画方向真正符合人类偏好。

研究团队在实验中使用了Flux.1-dev这一业界领先的流模型作为基础,并在包含103,700个训练提示和400个测试提示的HPSv2数据集上进行验证。实验涵盖了多个维度的评估指标,包括语义对齐度、视觉连贯性、美学质量和整体图像品质等。

实验结果显示,G?RPO在各项指标上都取得了显著改进。在核心的HPS-v2.1评估指标上,新方法相比现有的DanceGRPO基线方法实现了6.52%的相对提升。更重要的是,这种改进不仅体现在训练时使用的评估标准上,在其他独立的评估标准上也表现出色,证明了方法的泛化能力。

为了验证技术的稳健性,研究团队还测试了在不同推理步数下的表现。无论是50步、20步还是10步的快速生成模式,G?RPO都保持了一致的性能优势。这意味着这项技术不仅在高质量慢速生成场景下有效,在需要快速响应的实际应用中同样表现出色。

从视觉效果对比来看,使用G?RPO生成的图像在细节保真度和文本提示遵循性方面都有明显改善。比如在生成"国际象棋棋子表情"的复杂场景时,新方法能够准确捕捉到提示中描述的微妙表情差异。在生成"环保海报"等需要精确布局的图像时,新方法也能更好地理解和实现左右分割的空间要求。

这项研究的技术创新还体现在训练效率的提升上。由于单步随机采样策略中的多个样本可以共享同一个起始点的计算结果,整个训练过程变得更加高效。这就像批量生产时可以共用某些生产线设备,降低了整体成本。

研究团队特别关注了"模型偏好操纵"这一AI训练中的常见问题。传统方法容易让AI学会"投其所好"——专门迎合某个特定评估标准的偏好,但在其他标准下表现糟糕。G?RPO通过多粒度评估有效缓解了这个问题,让AI学到的是更加通用和真实的人类审美偏好。

从应用前景来看,这项技术的影响将是深远的。对于内容创作者而言,更精准的AI绘画助手能够更好地理解创作意图,减少反复调整的时间成本。对于普通用户来说,AI绘画工具将变得更加智能和贴心,能够生成更符合个人喜好的作品。

技术的可扩展性也值得关注。研究显示,多粒度优势集成的思路可以轻松适配不同数量的评估层次。实验表明,使用一层、两层或三层不同粒度的评估都能带来性能提升,为实际部署时的计算资源配置提供了灵活性。

说到底,这项研究解决的是AI如何更好地理解人类偏好这一根本问题。通过提供更精准、更全面的学习信号,G?RPO让AI绘画模型能够像一个真正用心的学生一样,从每一次练习中获得有价值的指导,不断改进自己的技能。这不仅是技术上的进步,更是AI与人类协作方式的优化,为未来更多AI应用的人性化发展提供了有价值的参考路径。

Q&A

Q1:G?RPO技术是什么?它解决了AI绘画的什么问题?

A:G?RPO是上海交大团队开发的AI绘画优化技术,主要解决两个问题:一是传统方法只能在整个绘画完成后给出好坏评价,无法精确指导每个绘画步骤的改进;二是评估维度单一,无法全面判断绘画质量。新技术就像给AI安装了"定点导航"和"多倍镜检查"系统,让学习过程更精准高效。

Q2:这项技术相比现有方法有什么具体改进?

A:G?RPO在核心评估指标上实现了6.52%的性能提升,而且这种改进不仅体现在训练标准上,在其他独立评估标准上也表现出色。更重要的是,技术在不同速度的生成模式下都保持稳定性能,生成的图像在细节保真度和文本遵循性方面都有明显改善。

Q3:普通用户什么时候能用上这项技术?会对AI绘画应用产生什么影响?

A:虽然论文没有明确商业化时间表,但技术已在业界主流的Flux.1-dev模型上验证有效。对普通用户而言,这意味着未来的AI绘画工具将更智能,能更准确理解用户需求,生成更符合个人喜好的作品,同时减少反复调整的时间成本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英媒:红军城万名乌克兰伤兵患气性坏疽

英媒:红军城万名乌克兰伤兵患气性坏疽

凤凰卫视
2025-11-13 11:26:28
中央定调,房地产已经完全明牌了!

中央定调,房地产已经完全明牌了!

山丘楼评
2025-11-12 18:29:13
石破茂卸任后直言:中日若开战,日本百分之百会亡国

石破茂卸任后直言:中日若开战,日本百分之百会亡国

丹徒生
2025-11-12 05:53:54
女性第一次性生活后会有怎样的变化?女性第一次后这些变化大

女性第一次性生活后会有怎样的变化?女性第一次后这些变化大

说点事
2025-11-08 14:49:53
成都通报“和平小屋”经营问题调查情况

成都通报“和平小屋”经营问题调查情况

界面新闻
2025-11-13 17:44:01
紧急提醒!戴口罩!戴口罩!戴口罩!东莞一学校通知停课!

紧急提醒!戴口罩!戴口罩!戴口罩!东莞一学校通知停课!

东莞好生活
2025-11-13 22:30:31
詹姆斯被下放至发展联盟进行恢复训练,揭露了三个不争的事实!

詹姆斯被下放至发展联盟进行恢复训练,揭露了三个不争的事实!

君子一剑似水流年
2025-11-13 07:33:28
一场2-0,给意大利续命了!9-0狂胜挪威=直通世界杯,小组3队出局

一场2-0,给意大利续命了!9-0狂胜挪威=直通世界杯,小组3队出局

侃球熊弟
2025-11-14 06:13:09
王家卫录音风波再升级! 袁立全平台喊冤,这下轮到张国立慌了

王家卫录音风波再升级! 袁立全平台喊冤,这下轮到张国立慌了

情感大头说说
2025-11-13 03:23:41
外媒:特朗普威胁诉讼后,斯塔默呼吁BBC“整顿”

外媒:特朗普威胁诉讼后,斯塔默呼吁BBC“整顿”

参考消息
2025-11-13 11:33:07
贝索斯旗下蓝色起源完成首个NASA发射任务,“新格伦”火箭助推器安全着陆

贝索斯旗下蓝色起源完成首个NASA发射任务,“新格伦”火箭助推器安全着陆

华尔街见闻官方
2025-11-14 07:09:33
中化泉州石化有限公司一装置发生火情,致7人受伤

中化泉州石化有限公司一装置发生火情,致7人受伤

界面新闻
2025-11-13 21:57:02
央视怒批,国务院点名封杀!这几位蒙骗老百姓的大网红,彻底凉凉

央视怒批,国务院点名封杀!这几位蒙骗老百姓的大网红,彻底凉凉

大鱼简科
2025-09-02 19:34:00
再调组织架构,理想汽车放弃华为说明书

再调组织架构,理想汽车放弃华为说明书

ZAKER新闻
2025-11-12 19:05:50
曾主任与祖副院长偷欢现场惊现反转!

曾主任与祖副院长偷欢现场惊现反转!

霹雳炮
2025-11-12 23:05:53
曾医生日常容颜,没有美颜的样子才是真实的

曾医生日常容颜,没有美颜的样子才是真实的

诗意世界
2025-11-12 20:52:54
我过了70岁才发现:拼搏半生换来的房子和存款,却成了一种负担

我过了70岁才发现:拼搏半生换来的房子和存款,却成了一种负担

蝉吟槐蕊
2025-11-07 10:29:57
河南女排主帅:原本目标只是保8争6,但朱婷让我们产生了质变

河南女排主帅:原本目标只是保8争6,但朱婷让我们产生了质变

丁丁鲤史纪
2025-11-13 12:49:36
乒乓球前世界冠军滕义受贿逾亿元获刑十四年:利用人脉关系谋不当利益

乒乓球前世界冠军滕义受贿逾亿元获刑十四年:利用人脉关系谋不当利益

澎湃新闻
2025-11-13 11:16:27
双十一最大「受害者」:买了iPhone17的人

双十一最大「受害者」:买了iPhone17的人

麦子熟了
2025-11-12 21:53:48
2025-11-14 07:39:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6220文章数 541关注度
往期回顾 全部

科技要闻

美国蓝色起源"新格伦"火箭实现推进器回收

头条要闻

泉州公安依法悬赏"台独"帮凶 两人曾上演"狗咬狗"戏码

头条要闻

泉州公安依法悬赏"台独"帮凶 两人曾上演"狗咬狗"戏码

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

家居
游戏
亲子
手机
公开课

家居要闻

莫奈时间 重构先锋概念

魔兽世界:时光服明日开放,即享双倍经验,玩家评论区阴阳怪气!

亲子要闻

产后如何重燃“性”趣?宝妈必看的“性福”恢复指南

手机要闻

12G 版本华为 Mate 70 Pro / Air 手机无法支持运存升级

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版