网易首页 > 网易号 > 正文 申请入驻

GLM-Image开源:原创架构、国产芯片训练、擅长汉字生成

0
分享至


始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区,始终坚持“中立、开放、共建、共创、合作”五项基本原则,欢迎加入共同成长。


智谱联合华为开源新一代图像生成模型GLM-Image,模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的SOTA多模态模型。GLM-Image已经发布在始智AI wisemodel开源社区,欢迎大家前往尝试。


模型地址

https://wisemodel.cn/models/ZhipuAI/GLM-Image

GLM-Image采用自主创新的「自回归+扩散解码器」混合架构,实现了图像生成与语言模型的联合,是我们面向以Nano Banana Pro为代表的新一代「认知型生成」技术范式的一次重要探索。

核心亮点如下:

  • 架构革新,面向「认知型生成」的技术探索:采用创新的「自回归 + 扩散编码器」混合架构,兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题,向探索以Nano Banana Pro为代表的新一代“知识+推理”的认知型生成模型迈出了重要一步。

  • 首个在国产芯片完成全程训练的SOTA模型:模型自回归结构基座基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架,完成了从数据预处理到大规模训练的全流程构建,验证了在国产全栈算力底座上训练前沿模型的可行性。

  • 文字渲染开源SOTA:在CVTG-2K(复杂视觉文本生成)和LongText-Bench(长文本渲染)榜单获得开源第一,尤其擅长汉字生成任务。

  • 高性价比与速度优化:API调用模式下,生成一张图片仅需0.1元,速度优化版本即将更新。

01.

架构创新:读懂指令,写对文字

近期,以Nano Banana Pro为代表的闭源图像生成模型正在推动图像生成与大语言模型的深度融合。技术范式正从单一的图像生成,进化为兼具世界知识与推理能力的「认知型生成」。这些模型在海报、PPT、科普图等知识密集型场景及高保真细节呈现上表现惊艳,展现了这一技术范式的优势。

GLM-Image正是面向「认知型生成」技术范式一次重要探索。这是首个开源的工业表现级离散自回归图像生成模型,希望借此与开源社区分享我们在这一前沿方向的技术路径与实践思考。

  • 创新架构让模型读懂写对:面对传统模型在“理解复杂指令”与“精准绘制文字”上难以兼顾的问题,GLM-Image 引入了「自回归+扩散解码器」混合架构,创新地融合了9B大小的自回归模型与7B大小的DiT扩散解码器。前者利用其语言模型的底座优势,专注于提升对指令的语义理解和画面的全局构图;后者配合Glyph Encoder的文本编码器,专注于还原图像的高频细节和文字笔画,以此改善模型“提笔忘字”的现象。

  • 多分辨率自适应:通过改进Tokenizer策略,GLM-Image能够自适应处理多种分辨率,原生支持从1024x1024到2048×2048尺寸的任意比例图像的生成任务,无需重新训练。


通用pipeline


解码器结构示意图

GLM-Image技术报告:https://z.ai/blog/glm-image

02.

开源SOTA:更擅长文字密集生成任务

基于上述架构创新,GLM-Image在文字渲染的权威榜单中达到开源SOTA水平。



  • CVTG-2K(复杂视觉文字生成)榜单核心考察模型在图像中同时生成多处文字的准确性。在多区域文字生成准确率上,GLM-Image凭借0.9116的Word Accuracy(文字准确率)成绩,位列开源模型第一。在NED(归一化编辑距离)指标上,GLM-Image同样以0.9557领先,表明其生成的文字与目标文字高度一致,错字、漏字情况更少。

  • LongText-Bench(长文本渲染)榜单考察模型渲染长文本、多行文字的准确性,覆盖招牌、海报、PPT、对话框等8种文字密集场景,并分设中英双语测试,GLM-Image以英文0.952、中文0.979的成绩位列开源模型第一。

03.

首个国产芯片训练出的SOTA模型

GLM-Image是我们对国产计算生态的一次深度探索与验证。其自回归结构基座从早期的数据预处理到最终的大规模预训练,全流程均在昇腾Atlas 800T A2设备上完成。

依托昇腾NPU和昇思MindSpore AI框架,使用动态图多级流水下发、高性能融合算子、多流并行等特性,我们自研了模型训练套件,全面优化数据预处理、预训练、SFT和RL的端到端流程。通过动态图的多级流水优化机制,将Host侧算子下发的关键阶段流水化并高度重叠,消除下发瓶颈;通过多流并行策略,通信和计算互掩,打破文本梯度同步、图像特征广播等操作的通信墙,极致优化性能;使用AdamW EMA、COC、RMS Norm等昇腾亲和的高性能融合算子,同步提升训练的稳定性和性能。

GLM-Image是首个在国产芯片上完成全流程训练的SOTA多模态模型,验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性。我们希望这一实践能为社区挖掘国产算力潜力提供有价值的参考。

04.

实测案例

下面来看看GLM-Image在实际的复杂图文任务中的表现。

场景一:科普插画

GLM-Image 更擅长绘制包含复杂逻辑流程与文字说明的科普插画及原理示意图。


场景二:多格图画

在生成电商图、漫画等多格图画时,GLM-Image能够保持风格和主体的一致性,并保障多处文字生成的准确率。


场景三:社交媒体图文封面

GLM-Image 适用于制作社交媒体封面及内容等排版复杂的图片,让您的创作更自由丰富。


场景四:商业海报

GLM-Image 能够生成构图富有设计感、文字嵌入准确的节日海报与商业宣传图。


场景五:写实摄影

在文字渲染以外,GLM-Image也同样擅长生成各种景别和尺寸的人像、宠物、风景、静物。


最后,用GLM-Image生成的一张图总结一下模型的核心要点。


----- END -----


wisemodel相关:

系列模型:


关于wisemodel更多


1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张艺谋没想到,化“轻薄妆”杀疯全场的60岁巩俐,再次证实他眼光

张艺谋没想到,化“轻薄妆”杀疯全场的60岁巩俐,再次证实他眼光

冷紫葉
2026-01-14 22:19:27
红运:一种主动的能量场

红运:一种主动的能量场

疾跑的小蜗牛
2026-01-15 21:01:58
难怪特朗普要“弃台”,美绝密报告曝光:中国电子战已经压制美军

难怪特朗普要“弃台”,美绝密报告曝光:中国电子战已经压制美军

历史有些冷
2026-01-14 20:50:03
印度驻伊朗大使馆发布声明:敦促所有印度公民离开伊朗

印度驻伊朗大使馆发布声明:敦促所有印度公民离开伊朗

财联社
2026-01-14 20:48:52
一滴也别喝!科学家调查发现,2020年全球有74万人因饮酒患癌

一滴也别喝!科学家调查发现,2020年全球有74万人因饮酒患癌

蜉蝣说
2026-01-15 10:50:10
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
中国队出线仅1小时,连获2个利好!1/4决赛时间确定,进四强有戏

中国队出线仅1小时,连获2个利好!1/4决赛时间确定,进四强有戏

侃球熊弟
2026-01-14 23:00:06
太敢拍了!索尼PS2经典广告引热议:现在根本播不了

太敢拍了!索尼PS2经典广告引热议:现在根本播不了

游民星空
2026-01-15 17:03:40
远华集团老总赖昌星,在狱中对董文华的回忆,让无数人咋舌

远华集团老总赖昌星,在狱中对董文华的回忆,让无数人咋舌

晓艾故事汇
2025-01-09 22:01:49
2026春节档陆续有十部电影上映,周星驰两部,你期待哪几部?

2026春节档陆续有十部电影上映,周星驰两部,你期待哪几部?

小Q侃电影
2026-01-14 13:42:26
以为是假新闻其实是真新闻,从袁立到王星,件件离谱又惊人

以为是假新闻其实是真新闻,从袁立到王星,件件离谱又惊人

上官晚安
2026-01-06 08:08:35
河北多地农民陆续收到采暖补贴,每户200元

河北多地农民陆续收到采暖补贴,每户200元

记录刘杰
2026-01-15 20:09:24
绝了!蒸一蒸这水果,喉咙里的痰“唰唰”消失,全家都抢着喝

绝了!蒸一蒸这水果,喉咙里的痰“唰唰”消失,全家都抢着喝

江江食研社
2025-12-29 14:30:09
呆呆发文暂时退网,不接受任何采访!本人就一个账号,没商业代言

呆呆发文暂时退网,不接受任何采访!本人就一个账号,没商业代言

鋭娱之乐
2026-01-14 15:24:52
广东40分输球揪出最大毒瘤!他上场24分钟,正负值-48,打的真差

广东40分输球揪出最大毒瘤!他上场24分钟,正负值-48,打的真差

篮球专区
2026-01-15 22:24:04
大雪+中雪!河北大范围降雪将上线

大雪+中雪!河北大范围降雪将上线

鲁中晨报
2026-01-15 14:51:39
换帅如换刀!从6战5负到9战8胜,只因换了一个教练 球迷:CBA奇迹

换帅如换刀!从6战5负到9战8胜,只因换了一个教练 球迷:CBA奇迹

体育哲人
2026-01-15 09:03:54
变天了!2026年燃油车迎来降价潮,最大降幅50%,合资车霸榜​​

变天了!2026年燃油车迎来降价潮,最大降幅50%,合资车霸榜​​

夜深爱杂谈
2026-01-14 19:39:52
北京台春晚就差报肖战身份证号了!暗号式官宣,这波偏爱藏不住

北京台春晚就差报肖战身份证号了!暗号式官宣,这波偏爱藏不住

手工制作阿歼
2026-01-15 10:01:19
瑶瑶弟弟回应二审结果:“金毛”父亲请来优秀律师,还想让他活命

瑶瑶弟弟回应二审结果:“金毛”父亲请来优秀律师,还想让他活命

汉史趣闻
2026-01-15 10:21:19
2026-01-15 23:07:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
441文章数 14关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

车主称4S店只卖套餐不给单换:刹车油线下价是线上3倍

头条要闻

车主称4S店只卖套餐不给单换:刹车油线下价是线上3倍

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

本地
游戏
数码
教育
公开课

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

苦等三年!《泰拉瑞亚》更新 这次是真"最后"一次?

数码要闻

石头G30S Pro扫地机器人1月20日上市,越障高度突破8.8cm

教育要闻

学习节奏乱了,怎么补都白搭

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版