网易首页 > 网易号 > 正文 申请入驻

CVPR'24:文生图提示词自动优化,还发现三个小窍门,人大等机构

0
分享至

  • PAE团队 投稿至 凹非寺
    量子位 | 公众号 QbitAI

文生图也有自己的prompt优化工具了。

我们都知道,大模型输出的质量,很大程度上依赖于输入的prompt。尤其在文生图领域,对于prompt格外敏感。

来自中国人大、度小满等团队提出了一种全新的自动文本提示优化方法——动态提示自动编辑(Prompt Auto-Editing,PAE)。

它考虑了文本提示中的每个词在扩散生成过程的权重和注入时间步。

最终在多个公开数据集上进行了实验验证,包括Lexica.art、DiffusionDB和COCO。PAE方法不仅提高了图像的美学质量,还确保了图像与文本描述的语义一致性。

与传统方法相比,PAE在控制图像生成过程中的精确性和灵活性方面表现更优。

关键在动态prompt

当前,尽管用户可以通过手动修改提示来尝试生成更优质的图像,但这一过程不仅效率低下,而且难以精确控制。

为了提高效率并优化生成结果,团队研发了PAE方法,这一方法的关键在于采用了动态提示(Dynamic Prompts)。

首先是为用户输入的简短提示词扩充出更多修饰词,其次是通过动态调整新添加的修饰词的权重和注入时间步,自动细化优化文本提示,从而更精准地控制图像生成过程。

1、Dynamic Prompt的定义

具体来说,团队定义了一种新的提示格式,用以丰富初始提示的信息,命名为动态精细控制提示(DF-Prompt)

文本prompt中的每个token会被拓展成一个三元组,在原有基础上新添加了用来添加权重的浮点数,以及文本生效的时间步范围。

DF-Prompt是原本的提示词和修饰词的结合。DF-Prompt 的本质在于促进更精确和控制的生成。为了便于演示和代码实现,我们还定义了一个纯文本格式:[token:range:weight]

以portrait of a beautiful forest goddess, beauty, very aesthetic, masterpiece为例,其中beauty拓展成三元组可以表示为[beauty:0.5→0:0.75],其权重为0.75,生效的时间步范围为后50%的降噪步骤。

2、训练数据收集

DiffusionDB数据集收集了用户生成图像时使用的prompt,其中包含大量的修饰词、风格描述等,可以帮助我们训练提示词拓展与精细优化的自动化模型。

在DiffusionDB等数据集中,一般逗号之前的文本包含主要信息,描述图像的主题,而逗号之后的文本被视为次要文本,提供补充后缀作为修饰语。

比如“a red horse on the yellow grass, anime style”,主要信息为“a red horse on the yellow grass”,次要文本为“anime style”。

我们把逗号之前的文本作为短提示,剩余的文本(次要文本)形成了修饰词集合,以此来构建训练数据中的输入提示词和目标提示词。

最后,我们定义一个置信分数,利用美学指标和CLIP分数来筛选训练数据,确保用于训练的提示词能够引导生成高美学评分、高图文对齐度的图像。

3、训练阶段

如图所示,使用收集好的训练数据进行两阶段训练。

阶段一:监督式微调阶段。

在收集好的数据集上对语言模型进行微调,以生成优化后的文本提示。每条训练数据都包含了短提示词文本和修饰词集合,这里的优化目标就是让语言模型根据短提示词扩展出更多修饰词。在这种方式中,训练好的模型能够处理简短的提示,并预测适当的修饰词,从而提升生成图像的美学质量。

阶段二:强化学习阶段。

使用强化学习优化文本提示,通过多维度奖励系统来指导这一过程,考虑到美学评分、语义一致性和用户偏好。这一阶段的主要目的是为每一个修饰词添加权重和作用时间步,实现精细化的控制。我们使用 PPO 算法,在训练集上最大化期望累积奖励。奖励函数是在生成的图像上计算的,考虑了包括CLIP分数、PickScore、美学评分等指标。

通过观察自动学习到的权重分布、时间步范围统计信息,我们还有了一些有趣的发现:

  • 使用艺术家名称和纹理修饰词:通过引入艺术家的名字和纹理修饰词,可以显著提高生成图像的艺术质量,并保持语义的准确性。
  • 在扩散过程的后半阶段引入风格元素:在图像生成的扩散过程后半段引入风格化元素,可以更好地融合这些元素,从而提高整体的视觉和艺术效果。
  • 降低复杂术语的权重:对于复杂的术语,适当降低其权重可以确保图像生成既平衡又具吸引力,避免过分强调某些元素,从而影响图像的整体美观。

arxiv链接:https://arxiv.org/abs/2404.04095
代码链接:https://github.com/Mowenyii/PAE

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
D1804次列车受电弓遭异物击打,被困隧道内超2小时,乘客称全车停电闷热异常,身上像从水里捞出来的,备用列车已到现场并开始转运

D1804次列车受电弓遭异物击打,被困隧道内超2小时,乘客称全车停电闷热异常,身上像从水里捞出来的,备用列车已到现场并开始转运

台州交通广播
2026-05-30 13:47:54
80个座位只坐了30人,中国防长一缺席,“亚洲安全春晚”直接凉透

80个座位只坐了30人,中国防长一缺席,“亚洲安全春晚”直接凉透

菁菁子衿
2026-05-30 10:12:17
王菲看谢霆锋北京演唱会,害羞得躲在俞飞鸿身后,陈鲁豫也陪着

王菲看谢霆锋北京演唱会,害羞得躲在俞飞鸿身后,陈鲁豫也陪着

八卦宝宝
2026-05-30 21:40:10
大定破2万!余承东:全新M9是地球上最强SUV,没有之一!网友:广告法能不能管管他

大定破2万!余承东:全新M9是地球上最强SUV,没有之一!网友:广告法能不能管管他

大白聊IT
2026-05-28 21:21:39
我不是中国人!马来西亚博主疯狂吐槽,别自作多情了,我只是华人

我不是中国人!马来西亚博主疯狂吐槽,别自作多情了,我只是华人

小鋭有话说
2026-05-30 23:12:00
阿森纳痛失欧冠!名嘴黄健翔赛后犀利点评:输球纯属自作自受!

阿森纳痛失欧冠!名嘴黄健翔赛后犀利点评:输球纯属自作自受!

田先生篮球
2026-05-31 09:29:01
广厦vs上海G3前瞻:广厦背水一战,魔鬼主场力争扳回一城

广厦vs上海G3前瞻:广厦背水一战,魔鬼主场力争扳回一城

橙汁的味道123
2026-05-31 08:22:26
4吨SUV上市,马路扛不住了

4吨SUV上市,马路扛不住了

热点科技
2026-05-28 15:32:40
香会变调:美国在台海问题上收声

香会变调:美国在台海问题上收声

环球网资讯
2026-05-30 20:40:20
有人正偷偷“篡改”抗战历史!他们想毁掉的,不只是30万人的记忆

有人正偷偷“篡改”抗战历史!他们想毁掉的,不只是30万人的记忆

浪子说
2026-05-30 00:05:05
整晚播放音乐!不让马刺球员睡觉!雷霆球迷抢七大战搞事情

整晚播放音乐!不让马刺球员睡觉!雷霆球迷抢七大战搞事情

篮球教学论坛
2026-05-31 07:09:23
新闻联播都快"看不懂"了,近年出现了越来越多专业的新词汇

新闻联播都快"看不懂"了,近年出现了越来越多专业的新词汇

飘逸的云朵
2026-05-30 03:39:47
1夜7大转会!曼联第二签,阿莱格里执教那不勒斯,B席加盟巴萨!

1夜7大转会!曼联第二签,阿莱格里执教那不勒斯,B席加盟巴萨!

田先生篮球
2026-05-30 09:35:25
神二十一3名航天员返回后,脸部明显浮肿,得知原因后:牺牲太大

神二十一3名航天员返回后,脸部明显浮肿,得知原因后:牺牲太大

小兔子的快乐
2026-05-31 01:51:15
54岁李亚鹏再登热搜!近期一组照片引热议,网友感慨“老得太快”

54岁李亚鹏再登热搜!近期一组照片引热议,网友感慨“老得太快”

火山詩话
2026-05-29 10:56:03
普京表示,如果亚美尼亚想融入欧洲,将面临“乌克兰式的局面”

普京表示,如果亚美尼亚想融入欧洲,将面临“乌克兰式的局面”

山河路口
2026-05-30 14:11:30
重磅!利物浦官宣47岁斯洛特下课:投入5亿仅排第5 创2大耻辱纪录

重磅!利物浦官宣47岁斯洛特下课:投入5亿仅排第5 创2大耻辱纪录

风过乡
2026-05-30 19:33:04
朱可夫晚年吐露实情:德军撤出莫斯科当晚,斯大林发布了一道密令

朱可夫晚年吐露实情:德军撤出莫斯科当晚,斯大林发布了一道密令

磊子讲史
2026-05-28 19:30:16
2026款吉利牛仔上市:新增武士黑配色,限时7.59万-8.49万元

2026款吉利牛仔上市:新增武士黑配色,限时7.59万-8.49万元

IT之家
2026-05-30 20:40:07
一对夫妻上班途中突遇2米长眼镜王蛇,相距仅5米,专家:这样风险很大,安全距离为15米以上

一对夫妻上班途中突遇2米长眼镜王蛇,相距仅5米,专家:这样风险很大,安全距离为15米以上

环球网资讯
2026-05-31 08:31:17
2026-05-31 10:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12710文章数 176473关注度
往期回顾 全部

科技要闻

AI写小说的套路被扒光了

头条要闻

美国顶流网红现身中国陕西乡村 请求卡车司机捎他一段

头条要闻

美国顶流网红现身中国陕西乡村 请求卡车司机捎他一段

体育要闻

巴黎再度捧起欧冠奖杯 枪手众将黯然神伤

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

字节跳动的 "一盘大棋"

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

本地
家居
游戏
亲子
教育

本地新闻

用剪纸的方式,打开江苏扬州

家居要闻

云栖 舒展如流云

Remedy不担心《控制共振》挨着《GTA6》发售

亲子要闻

嗨,小朋友们,彩虹糖糖讲绘本啦,今天要讲的故事是《有你真..

教育要闻

《孩子高考在即 家长应知必会》公益专题访谈,5月30日19点30分进我直播间

无障碍浏览 进入关怀版