网易首页 > 网易号 > 正文 申请入驻

首个中文Stable Diffusion模型开源,IDEA研究院封神榜团队开启中文AI艺术时代

0
分享至

生成内容一直被视为 AI 领域中最具有挑战性的能力,最近大火的 AI 绘画背后,是 Stable Diffusion 模型的开源,催生了众多 AI 绘画的应用,得益于 Stability AI 的开源精神,这一创变推动了整个以英文为主的下游文生图生态的蓬勃发展。

然而在国内,目前大部分团队主要是基于翻译 API + 英文 stable diffusion 模型进行开发,但由于中英文之间所得存在文化差异导致遇到中文独特的叙事和表达时,这种模型就很难给出正确匹配的图片内容。因此,IDEA 研究院认知计算与自然语言研究中心(IDEA CCNL)开源了第一个中文版本的 stable diffusion 模型“太乙 Stable Diffusion”,让中文的世界真正拥有具备中国文化内核的 AIGC 模型。

太乙 Stable Diffusion 纯中文版本: https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1 太乙 Stable Diffusion 中英双语版本: https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1
一、中文运笔,意境浮现

君不见黄河之水天上来 ,唯美,油画

滔滔江水,连绵不绝 ,唯美,插画

飞流直下三千尺 ,唯美,插画

长城,清晨,朦胧,唯美,插画

梦回江南,中国古代小镇,唯美,插画

云南苗家古寨,原始森林,鸟语花香,唯美,插画

中国的未来城市,科幻插画

二、中文 vs 英文的图片生成

三、中文指导的特定风格生成

小桥流水人家,水彩

(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)

小桥流水人家,Van Gogh style

(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)

四、太乙系列文本生成图像模型技术揭秘

第一个开源中文 CLIP 模型

2022 年 7 月,IDEA CCNL开源了第一个中文 CLIP 模型,目前已经有 4 个版本。

  • Taiyi-CLIP-Roberta-102M-Chinese:

https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese

  • Taiyi-CLIP-Roberta-large-326M-Chinese:

https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese

  • Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese:

https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese

  • Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese:

https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese

以 Taiyi-CLIP-Roberta-large-326M-Chinese 为例,IDEA CCNL用中文语言模型替换了开源的英文 CLIP 中语言编码器,在训练过程中冻结了视觉编码器并且只微调这个中文语言模型,在 1 亿级别的中文数据上训练了 24 个 epoch,一共过了约 30 亿中文图文数据,得到了这个包含图片信息的中文表征语言模型,为后续训练中文 Diffusion 相关的模型奠定了重要的基础。

第一个开源中文 Disco Diffusion 模型

2022 年 10 月,IDEA CCNL开源了第一个中文 Disco Diffusion 模型 Taiyi-Diffusion-532M-Nature-Chinese,该模型由 Katherine Crowson's 的无条件扩散模型在自然风景图上微调而来。结合 Taiyi-CLIP-Roberta-large-326M-Chinese 可以实现中文生成各种风格的风景图片。

东临碣石,以观沧海,水何澹澹,山岛竦峙:

第一个开源中文 Stable Diffusion 的模型

2022 年 11 月,IDEA CCNL开源了第一个中文 Stable Diffusion 的模型和中英双语 Stable Diffusion 模型。

  • 太乙 Stable Diffusion 纯中文版本(Taiyi-Stable-Diffusion-1B-Chinese-v0.1)

该模型利用已经开源的太乙 CLIP 模型 (Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese) 替换了英文 stable-diffusion-v1-4 中的语言编码器,因为太乙 CLIP 模型已经具备了很强的中文图文概念,所以直接冻结英文 stable diffusion 的生成模型部分,在亿级别的高质量数据上微调语言编码器,调整学习率等超参数,将太乙 CLIP 模型理解的中文图文概念与 stable diffusion 生成能力对齐。

  • 太乙 Stable Diffusion 中英双语版本(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)

不同于太乙 Stable Diffusion 纯中文版本,这个模型希望在支持中文的情况下,同时能保留 stable-diffusion-v1-4 的英文生成能力。由于 stable-diffusion-v1-4 原有语言模型不具备太乙 CLIP 模型强大的中文图文概念,IDEA CCNL希望在它的基础上增加了中文数据训练,这里采取了两阶段的训练。第一阶段也是冻住 stable-diffusion-v1-4 的生成模型部分,在亿级别的高质量数据上微调语言编码器,调整学习率等超参数,训练语言模型中文部分的表征。第二阶段放开 stable-diffusion-v1-4 的生成模型部分,增强中文引导图片生成的能力,目前训练中的一个 checkpoint 已取得不错的效果并进行了开源。

五、使用方法

如果需要进行古诗场景、中文概念生成,建议尝试中文版本 Taiyi-Stable-Diffusion-1B-Chinese-v0.1。如果需要一些通用场景和概念的生成,尤其是有中文混合英文需要,建议尝试中英双语版本 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1。

中文版本:

中英双语版本:

六、太乙 - 中文 Stable Diffusion 的未来

目前在庞大的中国市场中,有将近 10 亿的文化产业正在被 AIGC 冲击并快速创新发展,也有更多的新机遇在裂变中产生。由于此前的 AIGC 模型还无法和特殊的中国文化背景相结合,致力于成为中文认知智能的基础设施的 IDEA 研究院认知计算与自然语言中心,希望通过推出太乙模型,助力加快在 AIGC 全球市场化中中国的文化产业数字化转型的创新发展,促进各个相关行业的升级。而太乙所在的封神榜预训练模型开源体系,已经开源 80 个模型,覆盖 AIGC、自然语言理解、受控文本生成等多个领域,成为中文最大的预训练模型开源体系。基于封神榜模型的 GTS 模型生产平台,自动生产的 1 亿参数模型,击败众多百亿千亿参数模型,进入 FewCLUE 榜单前三名,机器自动化生成模型的能力达到了算法专家水平,AI 生产 AI 的时代正在到来。

IDEA CCNL认为,在 AIGC 中,人的作用是更为重要的,生成式 AI 应悄无声息地融入大众生活中并更好地帮助拓展人类的想象力边界。所以,与 AI 互动生产的内容,是帮助AIGC走向下一个生产力阶段的关键。因此,IDEA CCNL除了基础模型和基础算法的研究之外,还在研究更精准的文本生成和基中文于文本的交互式图片编辑。以太乙为核心的 AIGC 模型会持续更新和升级,敬请期待。

欢迎对太乙感兴趣的小伙伴们联系IDEA CCNL,一起共建中文 AIGC 的新世界。

封神榜相关链接:

  • 封神榜总论文(中英双语):

https://arxiv.org/abs/2209.02970

  • 封神榜主页:

https://github.com/IDEA-CCNL/Fengshenbang-LM

(封神榜大模型)是 IDEA 研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文认知智能的基础设施。

  • huggingface 地址:

https://huggingface.co/IDEA-CCNL

  • 封神榜 doc:

https://fengshenbang-doc.readthedocs.io/zh/latest/

作者:公众号【机器之心】

Illustratio n by Pixel true from Ico n Scout

-The End-

扫码观看!

本周上新!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
敢炸莫斯科?凌晨3:30俄军疯狂复仇:导弹厂、F-16机场全都报销了

敢炸莫斯科?凌晨3:30俄军疯狂复仇:导弹厂、F-16机场全都报销了

李健政观察
2026-03-18 16:55:27
“三姐妹给父亲上坟被炸身亡案”家属发声:直播时两次遭网友死亡威胁,警方已立案侦查

“三姐妹给父亲上坟被炸身亡案”家属发声:直播时两次遭网友死亡威胁,警方已立案侦查

大风新闻
2026-03-20 10:37:08
王传福、王兴兴、何小鹏现场助阵!小米新SU7售价21.99万元起,雷军强调车门把手符合新国标

王传福、王兴兴、何小鹏现场助阵!小米新SU7售价21.99万元起,雷军强调车门把手符合新国标

澎湃新闻
2026-03-19 22:28:28
张康阳现状证明,不怕富二代躺平就怕有野心,仅5年千亿身价归零

张康阳现状证明,不怕富二代躺平就怕有野心,仅5年千亿身价归零

以茶带书
2026-03-19 17:34:09
内塔尼亚胡的这个"秘密",终于藏不住了!

内塔尼亚胡的这个"秘密",终于藏不住了!

斐君观点
2026-03-19 20:59:07
美国家情报总监承认:伊朗不构成核威胁

美国家情报总监承认:伊朗不构成核威胁

参考消息
2026-03-19 14:34:04
特朗普:台湾属于中国,中方武统是自由,但一动手美国会不高兴

特朗普:台湾属于中国,中方武统是自由,但一动手美国会不高兴

混沌录
2026-03-19 21:49:10
突发!内塔尼亚胡宣布:以军摧毁伊朗里海全部舰队

突发!内塔尼亚胡宣布:以军摧毁伊朗里海全部舰队

老马拉车莫少装
2026-03-20 06:58:45
路虎别停奔驰车后续:对方疯狂打电话提要求,当事人受威胁很害怕

路虎别停奔驰车后续:对方疯狂打电话提要求,当事人受威胁很害怕

潮鹿逐梦
2026-03-20 08:38:29
美最新报告涉台表述“有变化”,中方:台湾问题不容任何外部势力干涉

美最新报告涉台表述“有变化”,中方:台湾问题不容任何外部势力干涉

环球网资讯
2026-03-20 06:39:49
我国成品汽油价格,和国际油价渐行渐远

我国成品汽油价格,和国际油价渐行渐远

安安小小姐姐
2026-03-20 06:35:03
黄仁勋公开演讲时暴怒:我讨厌的事不多 到底是谁的手机响了!

黄仁勋公开演讲时暴怒:我讨厌的事不多 到底是谁的手机响了!

快科技
2026-03-19 15:28:12
52岁北京炒股冠军罕见发声:如果手里有10万,建议死啃美人肩战法

52岁北京炒股冠军罕见发声:如果手里有10万,建议死啃美人肩战法

股经纵横谈
2026-03-16 21:56:42
“一半中国男性活不过67.7岁”刷屏,真相比数字更荒诞!

“一半中国男性活不过67.7岁”刷屏,真相比数字更荒诞!

网络辟谣
2026-03-19 13:45:03
莫斯科扛住72小时猛攻!谁也没料到!俄军直接斩掉:法国军官窝点

莫斯科扛住72小时猛攻!谁也没料到!俄军直接斩掉:法国军官窝点

李健政观察
2026-03-19 16:41:41
詹姆斯三双助力湖人8连胜,多数据历史第一,他的年龄让人怀疑

詹姆斯三双助力湖人8连胜,多数据历史第一,他的年龄让人怀疑

姜大叔侃球
2026-03-20 11:11:50
从销冠插混到纯电上新,别克重新定义什么是“放心家用MPV”

从销冠插混到纯电上新,别克重新定义什么是“放心家用MPV”

大众侃车
2026-03-19 23:36:31
内塔尼亚胡:要实现伊朗“政权更迭”,光靠空袭不行,得有“地面部分”;伊朗:以色列密谋袭击沙特石油设施嫁祸伊朗

内塔尼亚胡:要实现伊朗“政权更迭”,光靠空袭不行,得有“地面部分”;伊朗:以色列密谋袭击沙特石油设施嫁祸伊朗

每日经济新闻
2026-03-20 08:48:03
果然不出所料,见完特朗普,高市早苗发长文,提到了中国和朝鲜

果然不出所料,见完特朗普,高市早苗发长文,提到了中国和朝鲜

风信子的花
2026-03-20 09:45:02
60岁当太奶奶,40岁当奶奶!上海财经博主称,这四世同堂令人羡慕

60岁当太奶奶,40岁当奶奶!上海财经博主称,这四世同堂令人羡慕

火山詩话
2026-03-20 09:20:56
2026-03-20 11:32:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2318文章数 596关注度
往期回顾 全部

科技要闻

小米新SU7首发评测:到底有哪些新升级?

头条要闻

中企员工:古巴每天停电超10个小时 到使馆附近蹭网

头条要闻

中企员工:古巴每天停电超10个小时 到使馆附近蹭网

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

蔡康永小S“康熙合体”,两人拥抱落泪

财经要闻

黄金、白银、铝、铜……大宗商品巨震

汽车要闻

体验岚图泰山L3公开上路 896线激光雷达实测如何?

态度原创

时尚
本地
教育
旅游
公开课

边生活,边艺术:LEDIN「智趣千金」的灵感手记

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

教育要闻

内切圆直径公式推导过程,一个视频学会!

旅游要闻

春风已至,花期正好,这个春天,在济南百花公园与春意撞个满怀

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版