网易首页 > 网易号 > 正文 申请入驻

ChatGPT核心方法可用于AI绘画,效果飞升47%

0
分享至

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT中有这样一个核心训练方法,名叫“人类反馈强化学习(RLHF)”。

它可以让模型更安全、输出结果更遵循人类意图。

现在,来自谷歌Research和UC伯克利的研究人员发现,将该方法用在AI绘画上,“治疗”图像跟输入不完全匹配的情况,效果也奇好——

可以实现高达47%的改进。

△ 左为Stable Diffusion,右为改进后效果

这一刻,AIGC领域中两类大火的模型,似乎找到了某种“共鸣”。

如何将RLHF用于AI绘画?

RLHF,全称“Reinforcement Learning from Human Feedback”,是OpenAI和DeepMind于2017年合作开发的一种强化学习技术。

正如其名,RLHF就是用人类对模型输出结果的评价(即反馈)来直接优化模型,在LLM中,它可以使得“模型价值观”更符合人类价值观。

而在AI图像生成模型中,它可以让生成图像与文本提示得到充分对齐。

具体而言,首先,收集人类反馈数据

在这里,研究人员一共生成了27000余个“文本图像对”,然后让一些人类来打分。

为了简单起见,文本提示只包括以下四种类别,分别关乎数量、颜色、背景和混合选项;人类的反馈则只分“好”、“坏”与“不知道(skip)”。

其次,学习奖励函数。

这一步,就是利用刚刚获得的人类评价组成的数据集,训练出奖励函数,然后用该函数来预测人类对模型输出的满意度(公式红色部分)。

这样,模型就知道自己的结果究竟有几分符合文本。

除了奖励函数,作者还提出了一个辅助任务(公式蓝色部分)。

也就是当图像生成完成后,模型再给一堆文本,但其中只有一个是原始文本,让奖励模型“自己检查”图像是否跟该文本相匹配。

这种逆向操作可以让效果得到“双重保险”(可以辅助下图中的step2进行理解)。

最后,就是微调了。

即通过奖励加权最大似然估计(reward-weighted likelihood maximization)(下公式第一项),更新文本-图像生成模型。

为了避免过拟合,作者对预训练数据集上的NLL值(公式第二项)进行了最小化。这种做法类似于InstructionGPT(ChatGPT的“直系前辈”)。

效果提升47%,但清晰度下滑5%

如下一系列效果所示,相比原始的Stable Diffusion,用RLHF微调过后的模型可以:

(1)更正确地get文本里的“两只”和“绿色”;

(2)不会忽略“大海”作为背景的要求;

(3)想要红老虎,能给出“更红”的结果。

从具体数据来看,微调后的模型人类满意度为50%,相比原来的模型(3%),得到了47%的提高。

不过,代价是失去了5%的图像清晰度。

从下图我们也能很清楚的看到,右边的狼明显比左边的糊一些:

对此,作者表示,使用更大的人类评价数据集和更好的优化(RL)方法,可以改善这种情况。

关于作者

本文一共9位作者。

一作为谷歌AI研究科学家Kimin Lee,韩国科学技术院博士,博士后研究在UC伯克利大学展开。

华人作者三位:

Liu Hao,UC伯克利在读博士生,主要研究兴趣为反馈神经网络。

Du Yuqing,同UC伯克利博士在读,主要研究方向为无监督强化学习方法。

Shixiang Shane Gu(顾世翔),通讯作者,本科师从三巨头之一Hinton,博士毕业于剑桥大学。

△ 顾世翔

值得一提的是,写这篇文章时他还是谷歌人,如今已经跳槽至OpenAI,并在那里直接向ChatGPT负责人报告。

论文地址:

https://arxiv.org/abs/2302.12192

参考链接:
[1]https://twitter.com/kimin_le2/status/1629158733736718336
[2]https://openai.com/blog/instruction-following/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
球霸姆巴佩!记者爆料:姆巴佩大闹训练场 欺负皇马员工

球霸姆巴佩!记者爆料:姆巴佩大闹训练场 欺负皇马员工

叶青足球世界
2026-05-01 09:17:27
伦敦世乒赛:首场大爆冷!世界冠军1:3输球无缘胜利,单局只得2分

伦敦世乒赛:首场大爆冷!世界冠军1:3输球无缘胜利,单局只得2分

国乒二三事
2026-05-01 06:28:40
禁止所有中国外交官入境,不准两岸统一,这个国家比美国还嚣张?

禁止所有中国外交官入境,不准两岸统一,这个国家比美国还嚣张?

知鉴明史
2026-04-30 18:55:06
掘金被淘汰后,穆雷与约基奇采访纷纷展失望,揽责回应问题点!

掘金被淘汰后,穆雷与约基奇采访纷纷展失望,揽责回应问题点!

篮球资讯达人
2026-05-01 14:56:16
CBA最新消息!杨鸣或执教北控男篮,广东宏远续约萨姆纳

CBA最新消息!杨鸣或执教北控男篮,广东宏远续约萨姆纳

体坛瞎白话
2026-05-01 07:39:27
受权发布|全国人民代表大会常务委员会决定任免的名单

受权发布|全国人民代表大会常务委员会决定任免的名单

新华社
2026-04-30 18:47:02
王毅同美国国务卿鲁比奥通电话:元首外交始终是中美关系的“定盘星”

王毅同美国国务卿鲁比奥通电话:元首外交始终是中美关系的“定盘星”

极目新闻
2026-04-30 22:55:15
以色列海军拦截“全球坚韧船队”,扣押约175名活动人士

以色列海军拦截“全球坚韧船队”,扣押约175名活动人士

界面新闻
2026-04-30 16:02:32
邓超景德镇被偶遇,黑外套逛茶园,和村民合影比剪刀手太圈粉!

邓超景德镇被偶遇,黑外套逛茶园,和村民合影比剪刀手太圈粉!

乡野小珥
2026-05-01 09:12:30
《黑袍》星光在GTA6“下海”!街头服务“揽客”

《黑袍》星光在GTA6“下海”!街头服务“揽客”

游民星空
2026-04-29 19:43:05
月销3万台背后:小米汽车渠道暗战

月销3万台背后:小米汽车渠道暗战

字节漫游指南
2026-05-01 09:26:42
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
还差2分!击败利物浦必进欧冠,马竞无法打破曼联的纪录

还差2分!击败利物浦必进欧冠,马竞无法打破曼联的纪录

嗨皮看球
2026-04-30 18:16:41
中纪委2026严查新方向,这6类岗位首当其冲

中纪委2026严查新方向,这6类岗位首当其冲

细说职场
2026-05-01 08:18:54
中国召集9国,伊朗撂下一句猛话!特朗普正在等一个绝佳翻盘机会

中国召集9国,伊朗撂下一句猛话!特朗普正在等一个绝佳翻盘机会

健身狂人
2026-04-29 11:09:38
雷军估计更绝望了,北京车展181款首发新车,卖给谁呢?

雷军估计更绝望了,北京车展181款首发新车,卖给谁呢?

DearAuto
2026-05-01 11:56:57
何小鹏透露公司改名原因

何小鹏透露公司改名原因

环球网资讯
2026-04-30 19:57:08
大衣哥朱之文在空白纸上给粉丝签名留日期,网友担心有风险,当事人回应:真的假不了,假的真不了,不能把不确定的因素乱想

大衣哥朱之文在空白纸上给粉丝签名留日期,网友担心有风险,当事人回应:真的假不了,假的真不了,不能把不确定的因素乱想

极目新闻
2026-05-01 10:56:23
南航一飞广州航班延误超1小时,最新通报:一乘机旅客戏言行李内有炸弹,被依法追责

南航一飞广州航班延误超1小时,最新通报:一乘机旅客戏言行李内有炸弹,被依法追责

晋江电视台
2026-05-01 12:15:18
5月起买烟大变天!不止涨价,这4件事老烟民必须提前懂

5月起买烟大变天!不止涨价,这4件事老烟民必须提前懂

椰青美食分享
2026-04-30 17:45:49
2026-05-01 15:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12565文章数 176458关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

山东舰遭日本侦察机抵近侦察 解放军一句警告将其喝退

头条要闻

山东舰遭日本侦察机抵近侦察 解放军一句警告将其喝退

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

家居
数码
房产
艺术
公开课

家居要闻

灵动实用 生活艺术场

数码要闻

三星停产LPDDR4/X内存,产能聚焦LPDDR5/X与HBM等AI产品

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

艺术要闻

刘明华 2026油画新作(2024-2026)

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版