网易首页 > 网易号 > 正文 申请入驻

ChatGPT核心方法可用于AI绘画,效果飞升47%

0
分享至

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT中有这样一个核心训练方法,名叫“人类反馈强化学习(RLHF)”。

它可以让模型更安全、输出结果更遵循人类意图。

现在,来自谷歌Research和UC伯克利的研究人员发现,将该方法用在AI绘画上,“治疗”图像跟输入不完全匹配的情况,效果也奇好——

可以实现高达47%的改进。

△ 左为Stable Diffusion,右为改进后效果

这一刻,AIGC领域中两类大火的模型,似乎找到了某种“共鸣”。

如何将RLHF用于AI绘画?

RLHF,全称“Reinforcement Learning from Human Feedback”,是OpenAI和DeepMind于2017年合作开发的一种强化学习技术。

正如其名,RLHF就是用人类对模型输出结果的评价(即反馈)来直接优化模型,在LLM中,它可以使得“模型价值观”更符合人类价值观。

而在AI图像生成模型中,它可以让生成图像与文本提示得到充分对齐。

具体而言,首先,收集人类反馈数据

在这里,研究人员一共生成了27000余个“文本图像对”,然后让一些人类来打分。

为了简单起见,文本提示只包括以下四种类别,分别关乎数量、颜色、背景和混合选项;人类的反馈则只分“好”、“坏”与“不知道(skip)”。

其次,学习奖励函数。

这一步,就是利用刚刚获得的人类评价组成的数据集,训练出奖励函数,然后用该函数来预测人类对模型输出的满意度(公式红色部分)。

这样,模型就知道自己的结果究竟有几分符合文本。

除了奖励函数,作者还提出了一个辅助任务(公式蓝色部分)。

也就是当图像生成完成后,模型再给一堆文本,但其中只有一个是原始文本,让奖励模型“自己检查”图像是否跟该文本相匹配。

这种逆向操作可以让效果得到“双重保险”(可以辅助下图中的step2进行理解)。

最后,就是微调了。

即通过奖励加权最大似然估计(reward-weighted likelihood maximization)(下公式第一项),更新文本-图像生成模型。

为了避免过拟合,作者对预训练数据集上的NLL值(公式第二项)进行了最小化。这种做法类似于InstructionGPT(ChatGPT的“直系前辈”)。

效果提升47%,但清晰度下滑5%

如下一系列效果所示,相比原始的Stable Diffusion,用RLHF微调过后的模型可以:

(1)更正确地get文本里的“两只”和“绿色”;

(2)不会忽略“大海”作为背景的要求;

(3)想要红老虎,能给出“更红”的结果。

从具体数据来看,微调后的模型人类满意度为50%,相比原来的模型(3%),得到了47%的提高。

不过,代价是失去了5%的图像清晰度。

从下图我们也能很清楚的看到,右边的狼明显比左边的糊一些:

对此,作者表示,使用更大的人类评价数据集和更好的优化(RL)方法,可以改善这种情况。

关于作者

本文一共9位作者。

一作为谷歌AI研究科学家Kimin Lee,韩国科学技术院博士,博士后研究在UC伯克利大学展开。

华人作者三位:

Liu Hao,UC伯克利在读博士生,主要研究兴趣为反馈神经网络。

Du Yuqing,同UC伯克利博士在读,主要研究方向为无监督强化学习方法。

Shixiang Shane Gu(顾世翔),通讯作者,本科师从三巨头之一Hinton,博士毕业于剑桥大学。

△ 顾世翔

值得一提的是,写这篇文章时他还是谷歌人,如今已经跳槽至OpenAI,并在那里直接向ChatGPT负责人报告。

论文地址:

https://arxiv.org/abs/2302.12192

参考链接:
[1]https://twitter.com/kimin_le2/status/1629158733736718336
[2]https://openai.com/blog/instruction-following/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
史辨 | 李零先生有关昆仑石刻的评议

史辨 | 李零先生有关昆仑石刻的评议

尚曦读史
2025-09-17 03:23:14
美国球员汤森德抱怨中国食物:他们竟然吃野生的甲鱼和牛蛙

美国球员汤森德抱怨中国食物:他们竟然吃野生的甲鱼和牛蛙

懂球帝
2025-09-17 01:35:07
女优河北彩伽彻底变了!冷酷表情车厢内调教男优

女优河北彩伽彻底变了!冷酷表情车厢内调教男优

葫芦哥爱吐槽
2025-09-16 13:55:10
震惊!大批医院宣布退出医保!

震惊!大批医院宣布退出医保!

霹雳炮
2025-09-17 22:31:53
海南一女校长被丈夫用电锯虐杀,临死前15分钟,没发出一声呼救

海南一女校长被丈夫用电锯虐杀,临死前15分钟,没发出一声呼救

纪实录
2024-08-20 21:33:08
关于孩子,汪小菲这次说了心里话,张兰火力全开

关于孩子,汪小菲这次说了心里话,张兰火力全开

向天祈福
2025-09-16 20:31:25
根本逃不掉:微软将在Windows 11上强制安装Microsoft 365 Copilot!

根本逃不掉:微软将在Windows 11上强制安装Microsoft 365 Copilot!

快科技
2025-09-17 19:23:09
又一球星减重!恩比德明显变瘦引热议:身体状态或是生涯最佳水准

又一球星减重!恩比德明显变瘦引热议:身体状态或是生涯最佳水准

罗说NBA
2025-09-17 07:32:04
于朦胧临走前拿走朋友两块手表的行为,真实原因只有一个

于朦胧临走前拿走朋友两块手表的行为,真实原因只有一个

魔都姐姐杂谈
2025-09-12 05:01:34
惊爆!张雨绮直播卖内裤引热议,是她穿过的内裤?网友:真不尴尬吗?

惊爆!张雨绮直播卖内裤引热议,是她穿过的内裤?网友:真不尴尬吗?

八卦王者
2025-09-16 14:29:35
因为尿床爸爸把3岁女儿从窗户吊出去5分钟,妈妈发现已经太迟了

因为尿床爸爸把3岁女儿从窗户吊出去5分钟,妈妈发现已经太迟了

呱呱请你吃瓜
2025-09-03 06:09:33
毁了玖月奇迹的,从来不是因为分钱不均,而是两人各怀鬼胎

毁了玖月奇迹的,从来不是因为分钱不均,而是两人各怀鬼胎

厨房里的神
2025-09-16 20:20:54
女顾客带狗去西贝吃饭,用公筷喂狗 其它顾客很气愤 西贝:已消毒

女顾客带狗去西贝吃饭,用公筷喂狗 其它顾客很气愤 西贝:已消毒

水晶的视界
2025-09-18 00:56:55
女企业竟嫁19岁体育生,一天5次性生活,8年后得知丈夫隐藏身份

女企业竟嫁19岁体育生,一天5次性生活,8年后得知丈夫隐藏身份

今天说故事
2025-09-12 18:14:21
高速能跑140km/小时?网传新政引热议

高速能跑140km/小时?网传新政引热议

大象新闻
2025-09-16 12:47:03
痛心!相声演员修明炎去世,仅42岁,一家三口都没了,搭档曝死因

痛心!相声演员修明炎去世,仅42岁,一家三口都没了,搭档曝死因

翰飞观事
2025-09-17 16:10:50
盘点从俞敏洪手里出走的6位大佬,罗翔最让人意外,罗永浩混最差

盘点从俞敏洪手里出走的6位大佬,罗翔最让人意外,罗永浩混最差

户外钓鱼哥阿旱
2025-09-14 12:20:04
婚礼前一天河南父亲没收女儿手机:18.8万彩礼已给,连2万容不下

婚礼前一天河南父亲没收女儿手机:18.8万彩礼已给,连2万容不下

花心电影
2025-09-16 16:35:50
正式退出!亚马尔宣布意外决定,巴萨批准

正式退出!亚马尔宣布意外决定,巴萨批准

保持热爱0263
2025-09-17 00:17:19
越扒越劲爆!释永信在少林寺的奢靡生活,你想都不敢想!

越扒越劲爆!释永信在少林寺的奢靡生活,你想都不敢想!

混沌录
2025-09-17 23:25:04
2025-09-18 01:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
11332文章数 176279关注度
往期回顾 全部

科技要闻

网易评测iPhone 17系列:今年升级值得买吗

头条要闻

《731》首映黑龙江省委书记现场观看 导演泣不成声

头条要闻

《731》首映黑龙江省委书记现场观看 导演泣不成声

体育要闻

海港半场丢三球0-3神户胜利船 亚冠精英联赛5连败

娱乐要闻

第六代导演为什么没办法成为市场主流?

财经要闻

今晚,全球屏息:美联储重启降息……

汽车要闻

以用户为锚,“听劝”的岚图一路狂飙

态度原创

房产
教育
本地
健康
公开课

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

教育要闻

当青春遇上中考,谁能不心慌?

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

内分泌科专家破解身高八大谣言

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版