网易首页 > 网易号 > 正文 申请入驻

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开

0
分享至

机器之心专栏

机器之心编辑部

商汤大模型团队提出的文生图大模型RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,速度极快。

自从 2022 年开始,以 Stable Diffusion、ChatGPT 为代表的生成式 AI 席卷了整个 AI 社区,AI 大模型也走进了公众的视野。

但是,现有的绝大部分模型仍然做不到生成高质量且符合文本描述的图。

本文将介绍商汤大模型团队提出的文生图大模型 RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,而且生成速度极快,并且在各项测试上击败了 Stable Diffusion XL,DALL-E 2,DeepFloyd 等模型。

论文地址:
https://arxiv.org/pdf/2305.18295.pdf

该研究还提供了将 RAPHAEL 作为基座的 artist v0.3.0 beta 模型的在线试玩链接,可以在
https://miaohua.sensetime.com/zh-CN/ 中免费试玩(注意不要选错模型了)。同时,研究者也设置了反馈按钮(在生成图的旁边)来帮他们不断优化,希望大家可以积极体验并进行反馈。

效果展示

方法介绍

本文共提出了三个组件: Space-MoE, Time-MoE, 以及 Edge-supervised learning 模块。

Space-MoE 找出了文本中每一个 token 在图片中对应的区域,用不同的 expert 来处理不同的区域,最后再融合。

Time-MoE 模块使得模型能够在不同的 timestep 上选择不同的 expert;这些 MoE 事实上组成了一系列的 diffusion path,用来画某一类名词,动词,或者形容词。这些词的 diffusion path 都可以被 XGBoost 算法分开,证明了每一个 path 负责一个词。如下图所示:

Edge-supervised learning 使用物体的轮廓纹理来监督 attention 模块的学习,帮助模型更好的学习到图片的结构信息。

该研究也做了充分的消融实验来验证这三个模块的效果,具体可见论文的正文部分。研究者使用了清洗后的 LAION-5B 以及一些内部数据集来训练 RAPHAEL,LAION-5B 的清洗方案参考了 Stable Diffusion,超参数文中都有提供。同时,为了使得网络能够生成任意长宽比的图片,受到目标检测领域的启发,研究者提出了多尺度训练:即把不同尺度的图,根据这一尺度的图的数量,输入不同的 GPU 训练。具体的网络结构见下图:

实验结果

该研究首先在 FID 上进行了测试,FID 是一个衡量图片生成质量和多样性的指标,常常被用于评测生成模型的能力,实验在这一指标上击败了如 Stable Diffusion,DALL-E 2 等模型,达到 6.61。

此外,研究者同时也基于人类评估给出了一些指标,结论发现 RAPHAEL 在图文匹配度以及生成质量上均超过了 Stable Diffusion XL,DeepFloyd,文心一格以及 DALL-E 2,如下图所示:

一些小技巧

可能很多读者没有练习过怎么写文生图的 prompt,因而本文也提供了描述词优化的功能,可以将简单的 prompt 扩展成能得到优秀效果的 prompt。当然,一些国外的网站也提供了一些优秀的 prompt 库:

  • https://lexica.art/
  • https://www.midjourney.com/app/feed/
  • https://app.prompthub.studio/

同时建议大家把步数拉到 100,图片质量会更佳。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度尴尬了!继众多羽毛球名将弃赛后,国乒携男单前20也集体退了

印度尴尬了!继众多羽毛球名将弃赛后,国乒携男单前20也集体退了

十点街球体育
2026-01-18 00:00:03
章泽天这次翻车,真的不冤

章泽天这次翻车,真的不冤

独立鱼
2026-01-17 22:41:59
南京一女子用假币向75岁老人买红薯被制止时受伤,反索赔近17万元

南京一女子用假币向75岁老人买红薯被制止时受伤,反索赔近17万元

深圳晚报
2026-01-17 20:39:24
中国“绝密人物”曝光,美国惊呼不可能!而他最亏欠的是这个女人

中国“绝密人物”曝光,美国惊呼不可能!而他最亏欠的是这个女人

何氽简史
2026-01-17 21:09:57
年薪120万欧,樊振东给德甲俱乐部赚到了多少钱?续约条件诱人

年薪120万欧,樊振东给德甲俱乐部赚到了多少钱?续约条件诱人

乐聊球
2026-01-17 12:04:55
不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

凡知
2025-08-16 09:25:44
松赞干布的视角看李世民有多恐怖?你所谓的天才只是见我的门槛

松赞干布的视角看李世民有多恐怖?你所谓的天才只是见我的门槛

云景侃记
2026-01-16 11:32:42
台湾终极解决方案:土地回归中国,人员往来自由,两岸统一新路径

台湾终极解决方案:土地回归中国,人员往来自由,两岸统一新路径

叹为观止易
2026-01-16 10:20:22
以色列总理公开叫板美国:美公布的加沙地带“和平委员会”执委会成员名单未与以方协调,且与以政策相悖

以色列总理公开叫板美国:美公布的加沙地带“和平委员会”执委会成员名单未与以方协调,且与以政策相悖

极目新闻
2026-01-18 10:07:49
双色球大变天!3红中奖5元,头奖封顶亿,这回咋玩?

双色球大变天!3红中奖5元,头奖封顶亿,这回咋玩?

小李子体育
2026-01-18 11:07:09
随着韩国2-1,中国4-2,亚洲杯彻底乱了:8大劲旅已经回家

随着韩国2-1,中国4-2,亚洲杯彻底乱了:8大劲旅已经回家

侧身凌空斩
2026-01-18 01:42:40
悲催!南通一注册资本80亿元建筑公司破产重整,原因就是回不了款

悲催!南通一注册资本80亿元建筑公司破产重整,原因就是回不了款

火山诗话
2026-01-18 09:42:54
最新消息!大雪暴雪将抵山西!半个山西地图都灰了...

最新消息!大雪暴雪将抵山西!半个山西地图都灰了...

太原全接触
2026-01-18 09:47:24
美媒猜测“中国第六代战机项目”

美媒猜测“中国第六代战机项目”

环球时报国际
2026-01-18 12:01:33
满屏荷尔蒙!Netflix这一脱,又赢麻了

满屏荷尔蒙!Netflix这一脱,又赢麻了

来看美剧
2026-01-16 20:05:37
全场梦游!利物浦王牌彻底迷失  斯洛特该把他摁替补席了

全场梦游!利物浦王牌彻底迷失 斯洛特该把他摁替补席了

澜归序
2026-01-18 02:01:03
雷霆打破73胜?真的没有奇迹了!

雷霆打破73胜?真的没有奇迹了!

篮球大图
2026-01-18 13:05:35
藏不住了!陈建斌自爆当年分手内幕,难怪吴越至今不婚不育

藏不住了!陈建斌自爆当年分手内幕,难怪吴越至今不婚不育

车窗起雾q
2026-01-18 02:26:34
外媒消息,中国已经向巴基斯坦提供40架歼35

外媒消息,中国已经向巴基斯坦提供40架歼35

三叔的装备空间
2026-01-17 22:32:36
CBA排名一夜大变!两场大爆冷,广东不降反升,辽宁北京喜从天降

CBA排名一夜大变!两场大爆冷,广东不降反升,辽宁北京喜从天降

篮球看比赛
2026-01-18 10:47:36
2026-01-18 14:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12134文章数 142544关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

特朗普:伊朗该换领导层了

头条要闻

特朗普:伊朗该换领导层了

体育要闻

越南媒体:李昊将成为越南U23面临的巨大挑战

娱乐要闻

43岁贾玲退出春晚、解散公司

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

本地
旅游
房产
数码
公开课

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

旅游要闻

世遗土楼迎远客 中外游人提前解锁闽味新年

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

数码要闻

华为MateBook Pro电脑通过OpenHarmony 6.0 Release认证

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版