网易首页 > 网易号 > 正文 申请入驻

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开

0
分享至

机器之心专栏

机器之心编辑部

商汤大模型团队提出的文生图大模型RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,速度极快。

自从 2022 年开始,以 Stable Diffusion、ChatGPT 为代表的生成式 AI 席卷了整个 AI 社区,AI 大模型也走进了公众的视野。

但是,现有的绝大部分模型仍然做不到生成高质量且符合文本描述的图。

本文将介绍商汤大模型团队提出的文生图大模型 RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,而且生成速度极快,并且在各项测试上击败了 Stable Diffusion XL,DALL-E 2,DeepFloyd 等模型。

论文地址:
https://arxiv.org/pdf/2305.18295.pdf

该研究还提供了将 RAPHAEL 作为基座的 artist v0.3.0 beta 模型的在线试玩链接,可以在
https://miaohua.sensetime.com/zh-CN/ 中免费试玩(注意不要选错模型了)。同时,研究者也设置了反馈按钮(在生成图的旁边)来帮他们不断优化,希望大家可以积极体验并进行反馈。

效果展示

方法介绍

本文共提出了三个组件: Space-MoE, Time-MoE, 以及 Edge-supervised learning 模块。

Space-MoE 找出了文本中每一个 token 在图片中对应的区域,用不同的 expert 来处理不同的区域,最后再融合。

Time-MoE 模块使得模型能够在不同的 timestep 上选择不同的 expert;这些 MoE 事实上组成了一系列的 diffusion path,用来画某一类名词,动词,或者形容词。这些词的 diffusion path 都可以被 XGBoost 算法分开,证明了每一个 path 负责一个词。如下图所示:

Edge-supervised learning 使用物体的轮廓纹理来监督 attention 模块的学习,帮助模型更好的学习到图片的结构信息。

该研究也做了充分的消融实验来验证这三个模块的效果,具体可见论文的正文部分。研究者使用了清洗后的 LAION-5B 以及一些内部数据集来训练 RAPHAEL,LAION-5B 的清洗方案参考了 Stable Diffusion,超参数文中都有提供。同时,为了使得网络能够生成任意长宽比的图片,受到目标检测领域的启发,研究者提出了多尺度训练:即把不同尺度的图,根据这一尺度的图的数量,输入不同的 GPU 训练。具体的网络结构见下图:

实验结果

该研究首先在 FID 上进行了测试,FID 是一个衡量图片生成质量和多样性的指标,常常被用于评测生成模型的能力,实验在这一指标上击败了如 Stable Diffusion,DALL-E 2 等模型,达到 6.61。

此外,研究者同时也基于人类评估给出了一些指标,结论发现 RAPHAEL 在图文匹配度以及生成质量上均超过了 Stable Diffusion XL,DeepFloyd,文心一格以及 DALL-E 2,如下图所示:

一些小技巧

可能很多读者没有练习过怎么写文生图的 prompt,因而本文也提供了描述词优化的功能,可以将简单的 prompt 扩展成能得到优秀效果的 prompt。当然,一些国外的网站也提供了一些优秀的 prompt 库:

  • https://lexica.art/
  • https://www.midjourney.com/app/feed/
  • https://app.prompthub.studio/

同时建议大家把步数拉到 100,图片质量会更佳。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一场比赛出现4名35岁+老将 北京国安主帅蒙哥马利蜜月期要结束了

一场比赛出现4名35岁+老将 北京国安主帅蒙哥马利蜜月期要结束了

80后体育大蜀黍
2026-04-26 12:22:08
25万,逆天啊...

25万,逆天啊...

放毒
2026-04-25 17:06:44
改口改口又改口!美伊和谈突变!A股要爆了!

改口改口又改口!美伊和谈突变!A股要爆了!

龙行天下虎
2026-04-26 11:50:26
玉米粥立大功!医生发现:糖尿病常喝玉米粥、能降低5种并发症

玉米粥立大功!医生发现:糖尿病常喝玉米粥、能降低5种并发症

荷兰豆爱健康
2026-04-26 11:15:47
中吉乌铁路开工一年,回过神的俄罗斯要加入,依旧想当中亚操盘手

中吉乌铁路开工一年,回过神的俄罗斯要加入,依旧想当中亚操盘手

通鉴史智
2026-04-26 12:23:51
残阵森林狼112-96打崩掘金,华子+迪文伤退,道苏姆爆砍43分,约基奇遭驱逐!

残阵森林狼112-96打崩掘金,华子+迪文伤退,道苏姆爆砍43分,约基奇遭驱逐!

慢歌轻步谣
2026-04-26 12:40:33
驻泰大使馆急了!

驻泰大使馆急了!

梳子姐
2026-04-25 08:37:22
雷霆121-109再胜太阳!亚历山大创34年NBA纪录,不愧是MVP

雷霆121-109再胜太阳!亚历山大创34年NBA纪录,不愧是MVP

篮球大视野
2026-04-26 06:38:32
演员蔡文静上海机场被挤哭,被代拍疯狂围堵挤到缺氧,崩溃哭泣大喊:你们让一下

演员蔡文静上海机场被挤哭,被代拍疯狂围堵挤到缺氧,崩溃哭泣大喊:你们让一下

台州交通广播
2026-04-25 13:47:38
伊朗好猛,特朗普被戏耍,以色列看不下去了,敦促他重启军事打击

伊朗好猛,特朗普被戏耍,以色列看不下去了,敦促他重启军事打击

心灵的触动a
2026-04-26 12:13:42
北约无奈选中“全球眼”后,俄媒:空警-3000工作距离1000千米!

北约无奈选中“全球眼”后,俄媒:空警-3000工作距离1000千米!

壹知眠羊
2026-04-26 12:00:37
东风雪铁龙:全面拥抱电动化、智能化 开启“龙友共创计划”

东风雪铁龙:全面拥抱电动化、智能化 开启“龙友共创计划”

经济观察报
2026-04-25 11:08:19
陈毅接管上海却镇不住场子,陈赓推荐了一个人,让他彻底放下了心

陈毅接管上海却镇不住场子,陈赓推荐了一个人,让他彻底放下了心

老谢谈史
2026-04-23 05:24:38
丁俊晖扛了19年,赵心童跪地鼓掌:这一跪,是中国斯诺克最体面的传承

丁俊晖扛了19年,赵心童跪地鼓掌:这一跪,是中国斯诺克最体面的传承

带你逛体坛
2026-04-25 15:54:08
上海楼市,开始变得离谱了

上海楼市,开始变得离谱了

暮色史观
2026-04-26 01:43:49
记者:赛后于根伟脸上没有任何高兴表情,因为比赛太惨烈了

记者:赛后于根伟脸上没有任何高兴表情,因为比赛太惨烈了

懂球帝
2026-04-25 23:05:02
八旬大爷自述:住过儿子和女儿家后才明白,余生最好的归宿在哪里

八旬大爷自述:住过儿子和女儿家后才明白,余生最好的归宿在哪里

拾代谈生活
2026-04-26 12:21:06
董白莲故意刁难前夫!唐艺昕被做局了!

董白莲故意刁难前夫!唐艺昕被做局了!

八卦疯叔
2026-04-26 11:31:18
秘鲁总统突遭弹劾下台,中国刚建好的钱凯港,会被美国抢走吗?

秘鲁总统突遭弹劾下台,中国刚建好的钱凯港,会被美国抢走吗?

说宇宙
2026-04-26 12:15:03
女子酒店抓获丈夫出轨,无法容忍不戴避孕套,丈夫:她是我朋友

女子酒店抓获丈夫出轨,无法容忍不戴避孕套,丈夫:她是我朋友

李晚书
2026-04-24 10:39:33
2026-04-26 13:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12854文章数 142636关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

白宫晚宴枪击案或为"独狼式"袭击 特朗普:妻子躲得快

头条要闻

白宫晚宴枪击案或为"独狼式"袭击 特朗普:妻子躲得快

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

旅游
房产
教育
时尚
军事航空

旅游要闻

视频丨179趟旅游列车上线 “五一”坐火车出游攻略请收好

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

教育要闻

高考地理中的层理构造类型

伊姐周六热推:电视剧《方圆八百米》;电视剧《金关》......

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版