网易首页 > 网易号 > 正文 申请入驻

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开

0
分享至

机器之心专栏

机器之心编辑部

商汤大模型团队提出的文生图大模型RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,速度极快。

自从 2022 年开始,以 Stable Diffusion、ChatGPT 为代表的生成式 AI 席卷了整个 AI 社区,AI 大模型也走进了公众的视野。

但是,现有的绝大部分模型仍然做不到生成高质量且符合文本描述的图。

本文将介绍商汤大模型团队提出的文生图大模型 RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,而且生成速度极快,并且在各项测试上击败了 Stable Diffusion XL,DALL-E 2,DeepFloyd 等模型。

论文地址:
https://arxiv.org/pdf/2305.18295.pdf

该研究还提供了将 RAPHAEL 作为基座的 artist v0.3.0 beta 模型的在线试玩链接,可以在
https://miaohua.sensetime.com/zh-CN/ 中免费试玩(注意不要选错模型了)。同时,研究者也设置了反馈按钮(在生成图的旁边)来帮他们不断优化,希望大家可以积极体验并进行反馈。

效果展示

方法介绍

本文共提出了三个组件: Space-MoE, Time-MoE, 以及 Edge-supervised learning 模块。

Space-MoE 找出了文本中每一个 token 在图片中对应的区域,用不同的 expert 来处理不同的区域,最后再融合。

Time-MoE 模块使得模型能够在不同的 timestep 上选择不同的 expert;这些 MoE 事实上组成了一系列的 diffusion path,用来画某一类名词,动词,或者形容词。这些词的 diffusion path 都可以被 XGBoost 算法分开,证明了每一个 path 负责一个词。如下图所示:

Edge-supervised learning 使用物体的轮廓纹理来监督 attention 模块的学习,帮助模型更好的学习到图片的结构信息。

该研究也做了充分的消融实验来验证这三个模块的效果,具体可见论文的正文部分。研究者使用了清洗后的 LAION-5B 以及一些内部数据集来训练 RAPHAEL,LAION-5B 的清洗方案参考了 Stable Diffusion,超参数文中都有提供。同时,为了使得网络能够生成任意长宽比的图片,受到目标检测领域的启发,研究者提出了多尺度训练:即把不同尺度的图,根据这一尺度的图的数量,输入不同的 GPU 训练。具体的网络结构见下图:

实验结果

该研究首先在 FID 上进行了测试,FID 是一个衡量图片生成质量和多样性的指标,常常被用于评测生成模型的能力,实验在这一指标上击败了如 Stable Diffusion,DALL-E 2 等模型,达到 6.61。

此外,研究者同时也基于人类评估给出了一些指标,结论发现 RAPHAEL 在图文匹配度以及生成质量上均超过了 Stable Diffusion XL,DeepFloyd,文心一格以及 DALL-E 2,如下图所示:

一些小技巧

可能很多读者没有练习过怎么写文生图的 prompt,因而本文也提供了描述词优化的功能,可以将简单的 prompt 扩展成能得到优秀效果的 prompt。当然,一些国外的网站也提供了一些优秀的 prompt 库:

  • https://lexica.art/
  • https://www.midjourney.com/app/feed/
  • https://app.prompthub.studio/

同时建议大家把步数拉到 100,图片质量会更佳。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从杀猪盘到19天13板!嘉美包装股价大反转,是狂欢还是陷阱?

从杀猪盘到19天13板!嘉美包装股价大反转,是狂欢还是陷阱?

财经市界
2026-01-18 22:28:31
李亚鹏必须道歉,否则房租涨价也不会租给他了,房东最新回应

李亚鹏必须道歉,否则房租涨价也不会租给他了,房东最新回应

汉史趣闻
2026-01-17 17:40:36
欧洲8个国家发表联合声明

欧洲8个国家发表联合声明

澎湃新闻
2026-01-18 23:56:03
随着利雅得新月2-1逆转,沙特联最新积分榜:C罗率队落后榜首7分

随着利雅得新月2-1逆转,沙特联最新积分榜:C罗率队落后榜首7分

侧身凌空斩
2026-01-19 04:10:49
美军为什么越来越拉胯,根源来自资本主义制度!

美军为什么越来越拉胯,根源来自资本主义制度!

北山浮生
2026-01-18 12:13:43
40岁左右得女性这样打扮,既优雅又有成熟女人的魅力

40岁左右得女性这样打扮,既优雅又有成熟女人的魅力

牛弹琴123456
2025-12-28 16:35:58
出大事了,美军战机求救后失踪,搜救队曝出重大秘密,美日都慌了

出大事了,美军战机求救后失踪,搜救队曝出重大秘密,美日都慌了

孤单是寂寞的毒
2026-01-18 12:41:31
李亚鹏称被李嫣拉黑,3岁夏夏出镜力挺爸,海哈金喜感谢大家捐钱

李亚鹏称被李嫣拉黑,3岁夏夏出镜力挺爸,海哈金喜感谢大家捐钱

阳春三月天晴
2026-01-18 14:49:06
太狂妄!越南媒体:5大优势让越南有希望击败中国U23!

太狂妄!越南媒体:5大优势让越南有希望击败中国U23!

邱泽云
2026-01-18 17:29:00
左小青这状态,鲨疯了!明媚动人,若隐若现

左小青这状态,鲨疯了!明媚动人,若隐若现

只要高兴就好
2025-12-10 19:09:26
嫁法国老头真相大白5个月,41岁李宇春近况曝光,一点也不意外

嫁法国老头真相大白5个月,41岁李宇春近况曝光,一点也不意外

小熊侃史
2026-01-17 07:50:11
夫妻性生活中的“小动作”技巧:让妻子“爽”到骨子里的四个秘诀

夫妻性生活中的“小动作”技巧:让妻子“爽”到骨子里的四个秘诀

精彩分享快乐
2025-12-04 13:26:44
国内卖不动狂降价,海外却被抢着买!中国燃油车这波操作太绝了

国内卖不动狂降价,海外却被抢着买!中国燃油车这波操作太绝了

李砍柴
2026-01-17 20:47:51
北京下了死命令,2027年底前,所有中小学必须告别“校外配餐”

北京下了死命令,2027年底前,所有中小学必须告别“校外配餐”

小郑说史
2026-01-18 18:42:29
陳百祥血管爆了展示傷勢大片瘀黑好駭人,看淡生死不排斥安樂死

陳百祥血管爆了展示傷勢大片瘀黑好駭人,看淡生死不排斥安樂死

粤睇先生
2026-01-18 01:51:44
徐寅生:国家用纳税人的钱培养运动员 打不打奥运会不该由WTT决定

徐寅生:国家用纳税人的钱培养运动员 打不打奥运会不该由WTT决定

念洲
2026-01-18 16:12:52
搞钱的前提,从来不是你有多少本钱,而是你有没有悟透这3大逻辑

搞钱的前提,从来不是你有多少本钱,而是你有没有悟透这3大逻辑

第一桶金学派
2025-11-03 10:23:55
聂卫平追悼会!大儿子仍未改姓,棺木覆盖党旗,妻子花圈摆在中间

聂卫平追悼会!大儿子仍未改姓,棺木覆盖党旗,妻子花圈摆在中间

裕丰娱间说
2026-01-18 12:12:33
埃梅里:埃弗顿配得上这场胜利,我们位居前四并不是理所当然

埃梅里:埃弗顿配得上这场胜利,我们位居前四并不是理所当然

懂球帝
2026-01-19 03:36:11
庄则栋走了,穆铁柱走了,聂卫平走了,体育界4大脊梁就他还活着

庄则栋走了,穆铁柱走了,聂卫平走了,体育界4大脊梁就他还活着

林子说事
2026-01-18 15:05:56
2026-01-19 04:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12134文章数 142544关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

手机
本地
房产
艺术
旅游

手机要闻

荣耀Magic8 Pro Air手机线下展出,影像、显示等核心参数公开

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

艺术要闻

放大看油画,细节之美令人惊叹不已!

旅游要闻

泸溪河畔藏千年,避开商业化,这座千年古镇才是真江南!

无障碍浏览 进入关怀版