网易首页 > 网易号 > 正文 申请入驻

ChatGPT核心方法可用于AI绘画,效果飞升47%

0
分享至

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT中有这样一个核心训练方法,名叫“人类反馈强化学习(RLHF)”。

它可以让模型更安全、输出结果更遵循人类意图。

现在,来自谷歌Research和UC伯克利的研究人员发现,将该方法用在AI绘画上,“治疗”图像跟输入不完全匹配的情况,效果也奇好——

可以实现高达47%的改进。

△ 左为Stable Diffusion,右为改进后效果

这一刻,AIGC领域中两类大火的模型,似乎找到了某种“共鸣”。

如何将RLHF用于AI绘画?

RLHF,全称“Reinforcement Learning from Human Feedback”,是OpenAI和DeepMind于2017年合作开发的一种强化学习技术。

正如其名,RLHF就是用人类对模型输出结果的评价(即反馈)来直接优化模型,在LLM中,它可以使得“模型价值观”更符合人类价值观。

而在AI图像生成模型中,它可以让生成图像与文本提示得到充分对齐。

具体而言,首先,收集人类反馈数据

在这里,研究人员一共生成了27000余个“文本图像对”,然后让一些人类来打分。

为了简单起见,文本提示只包括以下四种类别,分别关乎数量、颜色、背景和混合选项;人类的反馈则只分“好”、“坏”与“不知道(skip)”。

其次,学习奖励函数。

这一步,就是利用刚刚获得的人类评价组成的数据集,训练出奖励函数,然后用该函数来预测人类对模型输出的满意度(公式红色部分)。

这样,模型就知道自己的结果究竟有几分符合文本。

除了奖励函数,作者还提出了一个辅助任务(公式蓝色部分)。

也就是当图像生成完成后,模型再给一堆文本,但其中只有一个是原始文本,让奖励模型“自己检查”图像是否跟该文本相匹配。

这种逆向操作可以让效果得到“双重保险”(可以辅助下图中的step2进行理解)。

最后,就是微调了。

即通过奖励加权最大似然估计(reward-weighted likelihood maximization)(下公式第一项),更新文本-图像生成模型。

为了避免过拟合,作者对预训练数据集上的NLL值(公式第二项)进行了最小化。这种做法类似于InstructionGPT(ChatGPT的“直系前辈”)。

效果提升47%,但清晰度下滑5%

如下一系列效果所示,相比原始的Stable Diffusion,用RLHF微调过后的模型可以:

(1)更正确地get文本里的“两只”和“绿色”;

(2)不会忽略“大海”作为背景的要求;

(3)想要红老虎,能给出“更红”的结果。

从具体数据来看,微调后的模型人类满意度为50%,相比原来的模型(3%),得到了47%的提高。

不过,代价是失去了5%的图像清晰度。

从下图我们也能很清楚的看到,右边的狼明显比左边的糊一些:

对此,作者表示,使用更大的人类评价数据集和更好的优化(RL)方法,可以改善这种情况。

关于作者

本文一共9位作者。

一作为谷歌AI研究科学家Kimin Lee,韩国科学技术院博士,博士后研究在UC伯克利大学展开。

华人作者三位:

Liu Hao,UC伯克利在读博士生,主要研究兴趣为反馈神经网络。

Du Yuqing,同UC伯克利博士在读,主要研究方向为无监督强化学习方法。

Shixiang Shane Gu(顾世翔),通讯作者,本科师从三巨头之一Hinton,博士毕业于剑桥大学。

△ 顾世翔

值得一提的是,写这篇文章时他还是谷歌人,如今已经跳槽至OpenAI,并在那里直接向ChatGPT负责人报告。

论文地址:

https://arxiv.org/abs/2302.12192

参考链接:
[1]https://twitter.com/kimin_le2/status/1629158733736718336
[2]https://openai.com/blog/instruction-following/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东航就一航班飞机与廊桥发生局部碰擦致歉:机上旅客安全

东航就一航班飞机与廊桥发生局部碰擦致歉:机上旅客安全

界面新闻
2026-05-02 13:39:19
0-3大反超?想多了!78分,西部最差季后赛球队诞生

0-3大反超?想多了!78分,西部最差季后赛球队诞生

体育新角度
2026-05-02 14:04:47
影帝这么矮小!五一假期梁朝伟现身南京,身高与随性穿搭引发热议

影帝这么矮小!五一假期梁朝伟现身南京,身高与随性穿搭引发热议

火山詩话
2026-05-02 08:30:27
篓子越捅越大!招体育生当医生、院长儿子吃空饷,不能再挖了

篓子越捅越大!招体育生当医生、院长儿子吃空饷,不能再挖了

小鋭有话说
2026-05-02 10:42:33
惨无人道!以军用军犬强奸巴勒斯坦囚犯,全程录像,受害者:想死

惨无人道!以军用军犬强奸巴勒斯坦囚犯,全程录像,受害者:想死

史行途
2026-05-01 12:29:39
继亨德利后,世锦赛六冠王戴维斯也痛批艾伦:“这让斯诺克蒙羞”

继亨德利后,世锦赛六冠王戴维斯也痛批艾伦:“这让斯诺克蒙羞”

求球不落谛
2026-05-02 10:35:55
李亚鹏香港慈善晚会请了30家公司,只获得336万元善款,王菲力挺

李亚鹏香港慈善晚会请了30家公司,只获得336万元善款,王菲力挺

椰黄娱乐
2026-05-02 12:22:54
吴宜泽艾伦打破单局时长历史纪录,老球王怒了:这是斯诺克的耻辱

吴宜泽艾伦打破单局时长历史纪录,老球王怒了:这是斯诺克的耻辱

杨华评论
2026-05-02 02:40:37
地球已经装不下追觅这么牛的公司了

地球已经装不下追觅这么牛的公司了

老斯基财经
2026-04-30 11:05:19
荷兰发达到什么程度了?人口仅1700万,却拥有12个世界五百强!

荷兰发达到什么程度了?人口仅1700万,却拥有12个世界五百强!

抽象派大师
2026-04-30 00:16:18
日本著名马桶公司TOTO杀入芯片行业大获成功

日本著名马桶公司TOTO杀入芯片行业大获成功

爆角追踪
2026-05-01 19:37:18
万科这颗雷,炸出了地铁公司的真面目

万科这颗雷,炸出了地铁公司的真面目

梳子姐
2026-05-01 21:31:42
美国最高院最新裁决,川普阵营赢得压倒性胜利

美国最高院最新裁决,川普阵营赢得压倒性胜利

壹家言
2026-05-02 09:21:56
吴宜泽连输5局原因曝光艾伦斯诺克小丑希金斯13-11墨菲赵心童服气

吴宜泽连输5局原因曝光艾伦斯诺克小丑希金斯13-11墨菲赵心童服气

曹说体育
2026-05-02 10:13:38
詹姆斯:我早已碾压时间老人 打雷霆一定要减少失误保护球权

詹姆斯:我早已碾压时间老人 打雷霆一定要减少失误保护球权

罗说NBA
2026-05-02 12:57:07
重磅:乌克兰击中两架俄军最强的苏57战机!奔袭1700公里

重磅:乌克兰击中两架俄军最强的苏57战机!奔袭1700公里

项鹏飞
2026-05-01 21:35:04
电磁炉为啥悄无声息退出中国家庭?内行人透底玄机,看完彻底懂了

电磁炉为啥悄无声息退出中国家庭?内行人透底玄机,看完彻底懂了

老特有话说
2026-04-30 11:36:13
范冰冰 大方公开 :18亿是真 ,没打算复合。

范冰冰 大方公开 :18亿是真 ,没打算复合。

In风尚
2026-05-02 06:04:17
44.4吨钚与9万亿军费:日本“核突破”倒计时,中方已正式出手

44.4吨钚与9万亿军费:日本“核突破”倒计时,中方已正式出手

起喜电影
2026-05-02 12:21:54
“最美丈母娘”沈丹萍:女儿婚房仅40平米,她处处替女婿家着想

“最美丈母娘”沈丹萍:女儿婚房仅40平米,她处处替女婿家着想

细品名人
2026-05-02 05:59:32
2026-05-02 14:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
12568文章数 176460关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

男子被诊断为疑似肝癌 辗转其他医院检查均无癌症依据

头条要闻

男子被诊断为疑似肝癌 辗转其他医院检查均无癌症依据

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

艺术
游戏
教育
旅游
军事航空

艺术要闻

色块与笔触的激情之旅!

《上古卷轴4湮灭》重制版发售一年 老毛病至今存在

教育要闻

2026高考机械电子专业前景如何?学长这样说!

旅游要闻

“五一”美团小团游订单增27%,新疆、云南、北京居热度Top3

军事要闻

特朗普:对伊战事结束 无限期延长停火

无障碍浏览 进入关怀版