网易首页 > 网易号 > 正文 申请入驻

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开

0
分享至

机器之心专栏

机器之心编辑部

商汤大模型团队提出的文生图大模型RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,速度极快。

自从 2022 年开始,以 Stable Diffusion、ChatGPT 为代表的生成式 AI 席卷了整个 AI 社区,AI 大模型也走进了公众的视野。

但是,现有的绝大部分模型仍然做不到生成高质量且符合文本描述的图。

本文将介绍商汤大模型团队提出的文生图大模型 RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,而且生成速度极快,并且在各项测试上击败了 Stable Diffusion XL,DALL-E 2,DeepFloyd 等模型。

论文地址:
https://arxiv.org/pdf/2305.18295.pdf

该研究还提供了将 RAPHAEL 作为基座的 artist v0.3.0 beta 模型的在线试玩链接,可以在
https://miaohua.sensetime.com/zh-CN/ 中免费试玩(注意不要选错模型了)。同时,研究者也设置了反馈按钮(在生成图的旁边)来帮他们不断优化,希望大家可以积极体验并进行反馈。

效果展示

方法介绍

本文共提出了三个组件: Space-MoE, Time-MoE, 以及 Edge-supervised learning 模块。

Space-MoE 找出了文本中每一个 token 在图片中对应的区域,用不同的 expert 来处理不同的区域,最后再融合。

Time-MoE 模块使得模型能够在不同的 timestep 上选择不同的 expert;这些 MoE 事实上组成了一系列的 diffusion path,用来画某一类名词,动词,或者形容词。这些词的 diffusion path 都可以被 XGBoost 算法分开,证明了每一个 path 负责一个词。如下图所示:

Edge-supervised learning 使用物体的轮廓纹理来监督 attention 模块的学习,帮助模型更好的学习到图片的结构信息。

该研究也做了充分的消融实验来验证这三个模块的效果,具体可见论文的正文部分。研究者使用了清洗后的 LAION-5B 以及一些内部数据集来训练 RAPHAEL,LAION-5B 的清洗方案参考了 Stable Diffusion,超参数文中都有提供。同时,为了使得网络能够生成任意长宽比的图片,受到目标检测领域的启发,研究者提出了多尺度训练:即把不同尺度的图,根据这一尺度的图的数量,输入不同的 GPU 训练。具体的网络结构见下图:

实验结果

该研究首先在 FID 上进行了测试,FID 是一个衡量图片生成质量和多样性的指标,常常被用于评测生成模型的能力,实验在这一指标上击败了如 Stable Diffusion,DALL-E 2 等模型,达到 6.61。

此外,研究者同时也基于人类评估给出了一些指标,结论发现 RAPHAEL 在图文匹配度以及生成质量上均超过了 Stable Diffusion XL,DeepFloyd,文心一格以及 DALL-E 2,如下图所示:

一些小技巧

可能很多读者没有练习过怎么写文生图的 prompt,因而本文也提供了描述词优化的功能,可以将简单的 prompt 扩展成能得到优秀效果的 prompt。当然,一些国外的网站也提供了一些优秀的 prompt 库:

  • https://lexica.art/
  • https://www.midjourney.com/app/feed/
  • https://app.prompthub.studio/

同时建议大家把步数拉到 100,图片质量会更佳。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
明日立夏,建议大家:少吃辛辣食物,多吃4样,应季而食健康入夏

明日立夏,建议大家:少吃辛辣食物,多吃4样,应季而食健康入夏

第一名厨官方
2026-05-04 00:24:18
66岁陈永贵,退休后对秘书发脾气,李先念下令:不许再给他送文件

66岁陈永贵,退休后对秘书发脾气,李先念下令:不许再给他送文件

简史档案馆
2026-04-02 11:05:03
潘石屹再次预判我国楼市!不出意外,未来3年,楼市或迎来3大走向

潘石屹再次预判我国楼市!不出意外,未来3年,楼市或迎来3大走向

巢客HOME
2026-05-03 05:05:03
柳州刑案致4死1伤!死者含重大嫌疑,事发老旧小区引关注

柳州刑案致4死1伤!死者含重大嫌疑,事发老旧小区引关注

琴音缭绕回
2026-05-04 04:11:55
发现没有,如今在农村,好多的父母都不愿意给儿女带孩子了!

发现没有,如今在农村,好多的父母都不愿意给儿女带孩子了!

农夫也疯狂
2026-05-02 20:44:01
个人收款被查了!2026年个人收款高于这个数,要小心!

个人收款被查了!2026年个人收款高于这个数,要小心!

新浪财经
2026-04-21 22:04:32
孙俪:“我们家的狗装死把邓超吓晕了”

孙俪:“我们家的狗装死把邓超吓晕了”

韩小娱
2026-05-03 15:45:22
太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

橙星文娱
2026-04-17 13:19:56
7换1!NBA重磅大交易!东部新贵史诗级加强

7换1!NBA重磅大交易!东部新贵史诗级加强

林子说事
2026-05-03 16:26:44
有趣的医学案例:直肠射精!

有趣的医学案例:直肠射精!

黯泉
2026-04-07 21:58:25
离谱!良陈美锦女主颜值被丫鬟吊打,任敏古装又翻车了

离谱!良陈美锦女主颜值被丫鬟吊打,任敏古装又翻车了

阿废冷眼观察所
2026-05-04 00:42:30
乌克兰空军飞入俄罗斯领土摧毁机库!击落扎波罗热苏34轰炸机

乌克兰空军飞入俄罗斯领土摧毁机库!击落扎波罗热苏34轰炸机

项鹏飞
2026-05-03 21:59:37
亚洲最穷国,落后中国30年,女性却惊人开放,很多土豪都想去定居

亚洲最穷国,落后中国30年,女性却惊人开放,很多土豪都想去定居

手里有读
2026-05-01 08:48:47
申花锋霸康复时间表曝光!盖伊伤后首发声,能否成下一个范佩西?

申花锋霸康复时间表曝光!盖伊伤后首发声,能否成下一个范佩西?

体坛鉴春秋
2026-05-03 14:30:07
中央定调!2026年养老金调整方向有变,定额涨到50元到底行不行?

中央定调!2026年养老金调整方向有变,定额涨到50元到底行不行?

云鹏叙事
2026-05-02 08:54:38
钱是有灵性的,养成“这5个”好习惯,日子越过越好,钱越存越多

钱是有灵性的,养成“这5个”好习惯,日子越过越好,钱越存越多

Home范
2026-05-02 17:40:03
光芯片+光通信+光模块+光学引擎+光纤光缆+车载光学等等!

光芯片+光通信+光模块+光学引擎+光纤光缆+车载光学等等!

Thurman在昆明
2026-05-02 13:39:14
跳水世界杯开赛仅1天,陈芋汐迎来噩耗,原来她早走上全红婵老路

跳水世界杯开赛仅1天,陈芋汐迎来噩耗,原来她早走上全红婵老路

笑谈历史阿晡
2026-05-01 16:19:29
张文宏谈长寿,又爆金句!决定寿命的不一定是基因!做好几件事,活100岁也不稀奇

张文宏谈长寿,又爆金句!决定寿命的不一定是基因!做好几件事,活100岁也不稀奇

犀利辣椒
2026-05-03 06:23:36
首批去雄安的北京高校2027年开学!上这些大学不去北京,是去河北

首批去雄安的北京高校2027年开学!上这些大学不去北京,是去河北

狐狸先森讲升学规划
2026-05-01 05:55:03
2026-05-04 05:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12905文章数 142639关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

妻子给陌生人发儿子照片 丈夫亲子鉴定三个娃两个非亲生

头条要闻

妻子给陌生人发儿子照片 丈夫亲子鉴定三个娃两个非亲生

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

本地
旅游
健康
公开课
军事航空

本地新闻

用青花瓷的方式,打开西溪湿地

旅游要闻

五一假期,全国最拥堵10个地方出炉:放眼望去一片黑压压的人头

干细胞治烧烫伤面临这些“瓶颈”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版