网易首页 > 网易号 > 正文 申请入驻

文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题

0
分享至


新智元报道

编辑:alan

【新智元导读】近日,北大、斯坦福、以及Pika Labs发布了新的开源文生图框架,利用多模态LLM的能力成功解决文生图两大难题,表现超越SDXL和DALL·E 3

近日,北大、斯坦福、以及爆火的Pika Labs联合发表了一项研究,将大模型文生图的能力提升到了新的高度。


论文地址:https://arxiv.org/pdf/2401.11708.pdf

代码地址:https://github.com/YangLing0818/RPG-DiffusionMaster

论文作者提出了一个全新的免训练文本到图像生成/编辑框架,利用多模态大语言模型(MLLM)强大的思维链推理能力,来增强文本到图像扩散模型的组合性。

简单来说,就是能让文生图模型在面对「多个属性和关系的多个对象的复杂文本提示」时表现更出色。

话不多说,直接上图:


A green twintail girl in orange dress is sitting on the sofa while a messy desk under a big window on the left, a lively aquarium is on the top right of the sofa, realistic style. 一个穿着橙子连衣裙的绿色双马尾女孩坐在沙发上,左边的大窗户下是一张凌乱的办公桌,沙发右上方是一个活泼的水族馆,现实主义风格。

面对关系复杂的多个对象,模型给出的整个画面的结构、人与物品的关系都非常合理,使观者眼前一亮。

而对于同样的提示,我们来看一下当前最先进的SDXL和DALL·E 3的表现:


再看一下新框架面对多个对象绑定多个属性时的表现:


From left to right, a blonde ponytail Europe girl in white shirt, a brown curly hair African girl in blue shirt printed with a bird, an Asian young man with black short hair in suit are walking in the campus happily. 从左到右,一个穿着白色衬衫、扎着金发马尾辫的欧洲女孩,一个穿着印着小鸟的蓝色衬衫、棕色卷发的非洲女孩,一个穿着西装、黑色短发的亚洲年轻人正开心地在校园里散步。

研究人员将这个框架命名为RPG(Recaption,Plan and Generate),采用MLLM作为全局规划器,将复杂图像的生成过程分解为子区域内多个更简单的生成任务。


文中提出了互补的区域扩散,实现区域组合生成,还将文本引导的图像生成和编辑以闭环方式集成到了RPG框架中,从而增强了泛化能力。

实验表明,本文提出的RPG框架优于目前最先进的文本图像扩散模型,包括DALL·E 3和SDXL,尤其是在多类别对象合成以及文本图像语义对齐方面。

值得注意的是,RPG框架可以广泛兼容各种MLLM架构(如MiniGPT-4)和扩散骨干网络(如ControlNet)。

RPG

当前的文生图模型主要存在两个问题:1. 基于布局或基于注意力的方法只能提供粗略的空间引导,并且难以处理重叠的对象;2. 基于反馈的方法需要收集高质量的反馈数据,并产生额外的训练成本。

为了解决这些问题,研究人员提出了RPG的三个核心策略,如下图所示:


给定一个包含多个实体和关系的复杂文本提示,首先利用MLLM将其分解为基本提示和高度描述性的子提示;随后,利用多模态模型的CoT规划将图像空间划分为互补的子区域;最后,引入互补区域扩散来独立生成每个子区域的图像,并在每个采样步骤中进行聚合。

多模态重新调整

将文本提示转换为高度描述性的提示,提供信息增强的提示理解和扩散模型中的语义对齐。

使用MLLM来识别用户提示y中的关键短语,获得其中的子项:

使用LLM将文本提示符分解为不同的子提示符,并进行更详细的重新描述:

通过这种方式,可以为每个子提示生成更密集的细粒度细节,以有效地提高生成图像的保真度,并减少提示和图像之间的语义差异。

思想链规划

将图像空间划分为互补的子区域,并为每个子区域分配不同的子提示,同时将生成任务分解为多个更简单的子任务。

具体来说,将图像空间H×W划分为若干互补区域,并将每个增强子提示符分配给特定区域R:

利用MLLM强大的思维链推理能力,进行有效的区域划分。通过分析重新获得的中间结果,就能为后续的图像合成生成详细的原理和精确的说明。

补充区域扩散

在每个矩形子区域内,独立生成由子提示引导的内容,随后调整大小和连接的方式,在空间上合并这些子区域。


这种方法有效地解决了大模型难以处理重叠对象的问题。此外,论文扩展了这个框架,以适应编辑任务,采用基于轮廓的区域扩散,从而对需要修改的不一致区域精确操作。

文本引导的图像编辑


如上图所示。在复述阶段,RPG采用MLLM作为字幕来复述源图像,并利用其强大的推理能力来识别图像和目标提示之间的细粒度语义差异,直接分析输入图像如何与目标提示对齐。

使用MLLM(GPT-4、Gemini Pro等)来检查输入与目标之间关于数值准确性、属性绑定和对象关系的差异。由此产生的多模态理解反馈将被交付给MLLM,用于推理编辑计划。

我们来看一下生成效果在以上三个方面的表现,首先是属性绑定,对比SDXL、DALL·E 3和LMD+:


我们可以看到在全部三项测试中,只有RPG最准确地反映了提示所描述的内容。

然后是数值准确性,展示顺序同上(SDXL、DALL·E 3、LMD+、RPG):


——没想到数数这件事情对于文生图大模型还挺难的,RPG轻松战胜对手。

最后一项是还原提示中的复杂关系:


此外,还可以将区域扩散扩展为分层格式,将特定子区域划分为更小的子区域。

如下图所示,当增加区域分割的层次结构时,RPG可以在文本到图像的生成方面实现显著的改进。这为处理复杂的生成任务提供了一个新的视角,使我们有可能生成任意组成的图像。


参考资料:

https://arxiv.org/pdf/2401.11708.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
7月将掀起一轮援乌打俄新高潮!

7月将掀起一轮援乌打俄新高潮!

凡事一定有办法13119
2024-06-18 13:37:33
大家做好准备:不出10年,燃油车或将变得“很难用”,原因很真实

大家做好准备:不出10年,燃油车或将变得“很难用”,原因很真实

通文知史
2023-11-09 15:14:41
1.77亿,再见勇士!两核心确定离队,管理层换血早已决定了清算

1.77亿,再见勇士!两核心确定离队,管理层换血早已决定了清算

呆哥聊球
2024-06-19 22:18:50
19点整!女排奥运分组抽签,中国队出线形势分析,最差八强不入

19点整!女排奥运分组抽签,中国队出线形势分析,最差八强不入

跑者排球视角
2024-06-19 09:47:53
国家统计局:5月不包含在校生的16-24岁劳动力失业率14.2%,连续两个月下降

国家统计局:5月不包含在校生的16-24岁劳动力失业率14.2%,连续两个月下降

澎湃新闻
2024-06-19 15:48:27
银行,还是扛不住了!

银行,还是扛不住了!

小白读财经
2024-06-18 21:36:28
有没有发现?美系车在国内不好卖的最重要的原因是,真的太实在了!

有没有发现?美系车在国内不好卖的最重要的原因是,真的太实在了!

娱乐圈的笔娱君
2024-06-17 07:55:13
楠火锅致歉:顾客舌头发黑系铁锅养护不当所致

楠火锅致歉:顾客舌头发黑系铁锅养护不当所致

界面新闻
2024-06-19 08:15:54
今天,A股为什么没有出现上涨?

今天,A股为什么没有出现上涨?

生哥财经
2024-06-19 15:03:18
比亚迪要把车险价格打下来了!博主:24万元腾势N7首年保费仅6500元,同价位宝马首年保费通常超万元

比亚迪要把车险价格打下来了!博主:24万元腾势N7首年保费仅6500元,同价位宝马首年保费通常超万元

和讯网
2024-06-19 10:25:51
迅速升温的朝俄关系危害东北亚地区的长远战略利益

迅速升温的朝俄关系危害东北亚地区的长远战略利益

诉说人世间
2024-06-19 09:08:42
我国又一项技术被卡脖子?日本撤走空调压缩机产线,国产谁能替代

我国又一项技术被卡脖子?日本撤走空调压缩机产线,国产谁能替代

飞花文史
2024-06-18 15:59:26
茅台崩了呀!酒价大跌,股价大跌,一天就没了 630 亿

茅台崩了呀!酒价大跌,股价大跌,一天就没了 630 亿

流苏晚晴
2024-06-13 16:56:45
女子批评某地火车站:进站途中仿佛走进商场,绕来绕去严重影响效率!

女子批评某地火车站:进站途中仿佛走进商场,绕来绕去严重影响效率!

可达鸭面面观
2024-06-18 17:13:37
山东一新郎与父亲布置婚房,无意中一句话,竟被父亲3刀砍死

山东一新郎与父亲布置婚房,无意中一句话,竟被父亲3刀砍死

安妮Emotiong
2024-06-11 18:52:22
实在荒唐!已婚少妇被邻居强奸后竟要求再来一次,声称是在找证据

实在荒唐!已婚少妇被邻居强奸后竟要求再来一次,声称是在找证据

石辰搞笑日常
2024-06-19 15:49:22
四川省委书记、省长同时担任主任,省委新机构亮相

四川省委书记、省长同时担任主任,省委新机构亮相

鲁中晨报
2024-06-19 16:27:11
国际乒联公布奥运单打邀请名单:王曼昱自动入围,陈梦暂未上榜

国际乒联公布奥运单打邀请名单:王曼昱自动入围,陈梦暂未上榜

全言作品
2024-06-19 12:21:13
飞机上这五样东西是“免费”提供的,乘客不要求,空姐不会主动给

飞机上这五样东西是“免费”提供的,乘客不要求,空姐不会主动给

飞花文史
2024-06-19 18:11:55
导弹从天而降,四个国家向以色列发起车轮战,战火向美国本土蔓延

导弹从天而降,四个国家向以色列发起车轮战,战火向美国本土蔓延

莫将离
2024-06-19 22:41:03
2024-06-19 23:52:49
新智元
新智元
AI产业主平台领航智能+时代
11171文章数 65537关注度
往期回顾 全部

科技要闻

618观察:谁为高强度的低价竞争买单?

头条要闻

胖东来"爆改"的永辉超市营业挤满顾客:员工月薪涨千元

头条要闻

胖东来"爆改"的永辉超市营业挤满顾客:员工月薪涨千元

体育要闻

欧洲杯最大的混子,非他莫属

娱乐要闻

黄一鸣“杀疯了” 直播间卖大葱养孩子

财经要闻

深化科创板改革 证监会发布八条措施

汽车要闻

双肾格栅变化大/内饰焕新 新一代宝马X3官图发布

态度原创

家居
游戏
时尚
旅游
房产

家居要闻

自然开放 实现灵动可变空间

《猎人:荒野的呼唤》DLC上线 追踪13种野生动物

几个小物件,打造宅家时的「inner peace」

旅游要闻

遭遇极端高温天气导致希腊多名游客死亡

房产要闻

17.9亿!终于,有民企在三亚大手笔拿地了!周边房价10万+!

无障碍浏览 进入关怀版