网易首页 > 网易号 > 正文 申请入驻

麻省理工、Meta开源:无需人工标注,创新文生图模型

0
分享至

文生图领域一直面临着一个核心难题,就是有条件图像生成的效果,远超无条件的图像生成。有条件图像生成是指模型在生成图像的过程中,会额外使用类别、文本等辅助信息进行指导,这样可以更好的理解用户的文本意图,生成的图像质量也更高。

而无条件图像生成完全基于模型自己学习的数据分布,难以形成有效的指导,所以,我们经常会有的AI平台生成的图像驴唇不对马嘴,或者图像有重大缺陷

为了解决这个问题,麻省理工学院和Meta的AI研究人员开发了RCG模型(Representation-Conditioned imageGeneration)。

RCG是一种创新性的“基于表示条件的图像生成”模型。所谓“表示条件”,就是让模型自己从数据中提取表示来进行指导,而无需任何人工数据标注。所以,RCG能以更小的消耗,生成与有指导模型相媲美的图片。

开源地址:https://github.com/LTH14/rcg

论文地址:https://arxiv.org/abs/2312.03701

从RCG的论文来看,其图片生成流程采用了拟人化思路。先规划出要生成图片的大体轮廓,然后再根据这一构思去绘制图片的细节

就像我们人类画画一样,先在大脑中构思画作的整体思路,例如,想画一匹马,先想象马的形体;想画一个苹果,先想象个大红色的圆球,然后根据整体“表示”画出图像的细节。

图像编码器

图像编码器的作用是从图像中提取有意义的表示。这些表示在保留图像的语义信息的同时,也要比较简单、易于建模。

目前流行的自监督学习算法主要可以分为两大类:1)基于预训练任务,这类方法会人为设计一个预训练任务,让模型去预测一些伪标签。比如旋转预测任务,让模型预测图像被旋转的角度等。

2)基于对比学习,这类方法会构造正样本和负样本。让模型学会区分和拉远它们在表示空间的距离,代表性算法包括MoCo、SimCLR等。

实验证明,基于对比学习方法,可以获得更加有效的图像表示,因此RCG选择了这种方式。并使用了MoCo v3进行预训练,这是图像分类任务上效果最优的自监督对比学习算法之一。

为了使表示维度可控,RCG使用了带有预测头的Transformer模型。预测头会规划成256维的向量,这样就获得了编码器输出的表示。该表示同时还进行了归一化处理,以符合高斯分布。

表示生成模块

在提取到图像的表示之后,下一步就是对这些表示进行采样。通常,我们希望模型可以捕捉表示空间的分布,具有生成各种新颖表示的能力,从而指导下游的图像生成。

为此,RCG提出了表示扩散模型RDM。它使用全连接网络作为主干,包含数个残差块。每个块里面包括激活函数、线性层等。

RDM模块训练时,采用了DDIM算法。即先将真实图像表示加入高斯噪声,让RDM去除噪并重构原始表示;生成时,从完全噪声表示出发,逐步采样清晰的表示。

RDM模块的参数和计算量很小,所以即使增加块数和宽度,也不会带来太大的额外负担。这样我们可以充分发掘表示空间的丰富信息,指导下游生成。

像素生成器

提取表示并对其建模之后,最后一步就是根据表示来生成图像像素。RCG中的像素生成器可以使用任意的条件图像生成模型,只需要将原有的条件(比如类别标签)替换为RDM生成的表示即可。

训练时,MAGE接收带有遮蔽(Mask)的图像作为输入,其中带X的是被遮蔽的,同时也输入对应图像的表示,然后学习重构被遮蔽的内容。

为了验证RCG模型的效果,研究团队基于ImageNet测试平台中的256×256数据集进行了实验。

结果显示,RCG的FID分数为3.56和IS的253.4,超过了之前最好的无条件生成模型MAGE的结果,与当前状态最好的有条件模型CDM差不多。

本文素材来源RCG论文,如有侵权请联系删除

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法网女单彻底乱了:随着卫冕冠军爆大冷1-2,世界前十已有5将出局

法网女单彻底乱了:随着卫冕冠军爆大冷1-2,世界前十已有5将出局

侧身凌空斩
2026-05-31 02:25:54
曝森林狼引援锁定欧文!美媒列5换1方案:兰德尔迪文琴佐成筹码

曝森林狼引援锁定欧文!美媒列5换1方案:兰德尔迪文琴佐成筹码

罗说NBA
2026-05-31 06:38:18
金球奖二选一?登贝莱欧冠决赛破门 维球王获MVP 世界杯谁能夺冠

金球奖二选一?登贝莱欧冠决赛破门 维球王获MVP 世界杯谁能夺冠

念洲
2026-05-31 06:46:36
模仿黄仁勋走红后,“我现在很害怕”

模仿黄仁勋走红后,“我现在很害怕”

中国新闻周刊
2026-05-30 18:22:20
收割机爬梯被盗后续:官方火速处理,当事人表示满意

收割机爬梯被盗后续:官方火速处理,当事人表示满意

映射生活的身影
2026-05-30 19:54:21
古巴8个鲜为人知的事实:曾迫使数万华人流亡,从富裕国家滑落至极度困难

古巴8个鲜为人知的事实:曾迫使数万华人流亡,从富裕国家滑落至极度困难

三言四拍
2026-05-30 13:05:06
判了!释永信四罪并罚,资产私生子多,还有3位家喻户晓明星徒弟

判了!释永信四罪并罚,资产私生子多,还有3位家喻户晓明星徒弟

动漫里的童话
2026-05-31 01:11:33
刚刚,国务院一纸令下,在中国延续了68年的户口战争终于落幕

刚刚,国务院一纸令下,在中国延续了68年的户口战争终于落幕

浪子的烟火人间
2026-05-31 01:25:03
房主将自家住宅变“网约房” 邻居有权说“不”吗?

房主将自家住宅变“网约房” 邻居有权说“不”吗?

北青网-北京青年报
2026-05-30 21:06:09
给阿嬷的情书,新加坡官媒连批三天,最后承认:这东西,真挡不住

给阿嬷的情书,新加坡官媒连批三天,最后承认:这东西,真挡不住

娱说瑜悦
2026-05-30 17:03:54
55 年梦碎!阿尔特塔致命昏招!亲手葬送阿森纳欧冠首冠

55 年梦碎!阿尔特塔致命昏招!亲手葬送阿森纳欧冠首冠

奶盖熊本熊
2026-05-31 03:59:47
175年来首次!华裔学者出任美国顶尖大学校长

175年来首次!华裔学者出任美国顶尖大学校长

化学人生
2026-05-30 20:10:20
被中方代表现场发言“驱逐”,难怪日本防长在香会脸色不太不好!

被中方代表现场发言“驱逐”,难怪日本防长在香会脸色不太不好!

阿龙聊军事
2026-05-31 02:07:10
一念万劫!加布里埃尔最后一罚踢飞,伤心落泪,队友纷纷送上安慰

一念万劫!加布里埃尔最后一罚踢飞,伤心落泪,队友纷纷送上安慰

侧身凌空斩
2026-05-31 03:27:55
15万!蔚来"神车"官宣:5月29日 ,正式发布亮相

15万!蔚来"神车"官宣:5月29日 ,正式发布亮相

科技堡垒
2026-05-29 11:14:19
巴黎卫冕欧冠!复刻皇马奇迹,3战阿森纳全胜,连刷6大纪录

巴黎卫冕欧冠!复刻皇马奇迹,3战阿森纳全胜,连刷6大纪录

奥拜尔
2026-05-31 03:03:15
阿莫西林是消炎药?医生:不是!真正的消炎药只有这4种,别认错

阿莫西林是消炎药?医生:不是!真正的消炎药只有这4种,别认错

医者荣耀
2026-05-29 12:05:10
苏州、常州、盐城与扬州的足球赛结果更新,镇江垫底苏超积分榜

苏州、常州、盐城与扬州的足球赛结果更新,镇江垫底苏超积分榜

何揎室内设计
2026-05-30 21:57:57
整晚播放音乐!不让马刺球员睡觉!雷霆球迷抢七大战搞事情

整晚播放音乐!不让马刺球员睡觉!雷霆球迷抢七大战搞事情

篮球教学论坛
2026-05-31 07:09:23
斯皮尔伯格新片遭奥巴马“威胁”:我要用竖屏手机看!

斯皮尔伯格新片遭奥巴马“威胁”:我要用竖屏手机看!

影视情报室
2026-05-30 00:12:45
2026-05-31 07:55:00
AIGC开放社区
AIGC开放社区
AIGC开放社区是专注于AIGC(生成式人工智能)领域的开放性社区
542文章数 53关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

体育要闻

巴黎再度捧起欧冠奖杯 枪手众将黯然神伤

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

时尚
房产
游戏
本地
公开课

美回巅峰的她们,带火的这些爆款真的好用吗

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

巫师3新DLC跨十年:年轻玩家在初发售时还是小孩!

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版