网易首页 > 网易号 > 正文 申请入驻

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开

0
分享至

机器之心专栏

机器之心编辑部

商汤大模型团队提出的文生图大模型RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,速度极快。

自从 2022 年开始,以 Stable Diffusion、ChatGPT 为代表的生成式 AI 席卷了整个 AI 社区,AI 大模型也走进了公众的视野。

但是,现有的绝大部分模型仍然做不到生成高质量且符合文本描述的图。

本文将介绍商汤大模型团队提出的文生图大模型 RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,而且生成速度极快,并且在各项测试上击败了 Stable Diffusion XL,DALL-E 2,DeepFloyd 等模型。

论文地址:
https://arxiv.org/pdf/2305.18295.pdf

该研究还提供了将 RAPHAEL 作为基座的 artist v0.3.0 beta 模型的在线试玩链接,可以在
https://miaohua.sensetime.com/zh-CN/ 中免费试玩(注意不要选错模型了)。同时,研究者也设置了反馈按钮(在生成图的旁边)来帮他们不断优化,希望大家可以积极体验并进行反馈。

效果展示

方法介绍

本文共提出了三个组件: Space-MoE, Time-MoE, 以及 Edge-supervised learning 模块。

Space-MoE 找出了文本中每一个 token 在图片中对应的区域,用不同的 expert 来处理不同的区域,最后再融合。

Time-MoE 模块使得模型能够在不同的 timestep 上选择不同的 expert;这些 MoE 事实上组成了一系列的 diffusion path,用来画某一类名词,动词,或者形容词。这些词的 diffusion path 都可以被 XGBoost 算法分开,证明了每一个 path 负责一个词。如下图所示:

Edge-supervised learning 使用物体的轮廓纹理来监督 attention 模块的学习,帮助模型更好的学习到图片的结构信息。

该研究也做了充分的消融实验来验证这三个模块的效果,具体可见论文的正文部分。研究者使用了清洗后的 LAION-5B 以及一些内部数据集来训练 RAPHAEL,LAION-5B 的清洗方案参考了 Stable Diffusion,超参数文中都有提供。同时,为了使得网络能够生成任意长宽比的图片,受到目标检测领域的启发,研究者提出了多尺度训练:即把不同尺度的图,根据这一尺度的图的数量,输入不同的 GPU 训练。具体的网络结构见下图:

实验结果

该研究首先在 FID 上进行了测试,FID 是一个衡量图片生成质量和多样性的指标,常常被用于评测生成模型的能力,实验在这一指标上击败了如 Stable Diffusion,DALL-E 2 等模型,达到 6.61。

此外,研究者同时也基于人类评估给出了一些指标,结论发现 RAPHAEL 在图文匹配度以及生成质量上均超过了 Stable Diffusion XL,DeepFloyd,文心一格以及 DALL-E 2,如下图所示:

一些小技巧

可能很多读者没有练习过怎么写文生图的 prompt,因而本文也提供了描述词优化的功能,可以将简单的 prompt 扩展成能得到优秀效果的 prompt。当然,一些国外的网站也提供了一些优秀的 prompt 库:

  • https://lexica.art/
  • https://www.midjourney.com/app/feed/
  • https://app.prompthub.studio/

同时建议大家把步数拉到 100,图片质量会更佳。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:信号很强烈,请做好准备,明天周一,很可能将迎来更大的转变

A股:信号很强烈,请做好准备,明天周一,很可能将迎来更大的转变

虎哥闲聊
2026-04-26 09:25:03
善恶终有报,57岁央视女主持王小丫,原来早已经走上另一条大路

善恶终有报,57岁央视女主持王小丫,原来早已经走上另一条大路

听风喃
2026-03-24 05:39:34
正式签约!加盟雄鹿!字母哥被孤立

正式签约!加盟雄鹿!字母哥被孤立

篮球教学论坛
2026-04-25 16:29:48
中国需做最坏打算:俄罗斯解体后617万土地绝不能失守

中国需做最坏打算:俄罗斯解体后617万土地绝不能失守

王藁侃世界
2026-04-23 07:05:34
迪文华子伤退多孙穆狂砍43分 森林狼3胜掘金拿到赛点

迪文华子伤退多孙穆狂砍43分 森林狼3胜掘金拿到赛点

仰卧撑FTUer
2026-04-26 12:31:11
李启言父亲病逝,日夜照顾瘫痪儿子病倒,曾拒绝李泽楷千万救济金

李启言父亲病逝,日夜照顾瘫痪儿子病倒,曾拒绝李泽楷千万救济金

开开森森
2026-04-25 18:07:45
谈不拢就打!商务部下达第20号令, 对欧封锁开始, 冯德莱恩故作镇

谈不拢就打!商务部下达第20号令, 对欧封锁开始, 冯德莱恩故作镇

小正说娱乐
2026-04-26 11:18:22
2026年,如果你的家庭存款突破100万,会发现一个惊人的真相!

2026年,如果你的家庭存款突破100万,会发现一个惊人的真相!

蓝色海边
2026-04-24 17:11:02
外媒:中东美军基地遭袭损失远超五角大楼承认

外媒:中东美军基地遭袭损失远超五角大楼承认

参考消息
2026-04-26 13:18:23
56岁健康母亲赴瑞士安乐死:儿子已走4年,我只想体面离开

56岁健康母亲赴瑞士安乐死:儿子已走4年,我只想体面离开

胡一舸南游y
2026-04-25 16:22:22
正式测定:蒙古发生6.0级地震 震源深度15千米

正式测定:蒙古发生6.0级地震 震源深度15千米

每日经济新闻
2026-04-26 13:00:05
外媒:中资工厂正将996加班文化传入欧洲,挤压当地正常就业岗位

外媒:中资工厂正将996加班文化传入欧洲,挤压当地正常就业岗位

凡人学电脑
2026-04-25 23:23:58
无视禁令,首艘中资油船出港,伊军100万人到位,特朗普踩下刹车

无视禁令,首艘中资油船出港,伊军100万人到位,特朗普踩下刹车

大熊欢乐坊
2026-04-26 13:07:47
TVB老戏骨忍无可忍含泪揭家丑,每月接济儿子五万,走了向太老路

TVB老戏骨忍无可忍含泪揭家丑,每月接济儿子五万,走了向太老路

翰飞观事
2026-04-22 19:35:28
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

一窥究竟
2026-04-26 00:52:15
独生子女家庭注意!5月集中办理窗口开启,3笔现金补助别忘申请

独生子女家庭注意!5月集中办理窗口开启,3笔现金补助别忘申请

复转这些年
2026-04-25 18:51:48
果然不出中国所料!特朗普怂了,伊朗宣布赢家,美要付出更高代价

果然不出中国所料!特朗普怂了,伊朗宣布赢家,美要付出更高代价

轩逸阿II
2026-04-26 00:31:22
1995年,在香港高档餐厅里,34岁的洪晃与63岁的父亲洪君彦的合影

1995年,在香港高档餐厅里,34岁的洪晃与63岁的父亲洪君彦的合影

娱乐洞察点点
2026-04-25 21:55:38
疯爽的债主破产了!456和队友抢富二代!

疯爽的债主破产了!456和队友抢富二代!

八卦疯叔
2026-04-26 11:12:01
杜兰特G4出战成疑!乌度卡透露踝伤好转:我原以为他可以打G3

杜兰特G4出战成疑!乌度卡透露踝伤好转:我原以为他可以打G3

罗说NBA
2026-04-26 04:19:21
2026-04-26 13:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12855文章数 142636关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

白宫枪手系教师兼游戏开发者 曾向哈里斯总统竞选捐款

头条要闻

白宫枪手系教师兼游戏开发者 曾向哈里斯总统竞选捐款

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

艺术
亲子
家居
房产
公开课

艺术要闻

郑丽文访问清华附中引发热议,蒋中正信札字迹真实性遭质疑

亲子要闻

妈妈记录下宝宝的第一次拥抱,最幸福的瞬间

家居要闻

自然肌理 温润美学

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版