刚刚发生了两件事,放在一起看很有意思
第一件:来自英伟达
英伟达 H200 对华出口限制,正式放宽
第二件:来自「华为 x 智谱」
首个在国产芯片上,完成全流程训练的多模态模型,GLM-Image 发布并开源,从数据预处理到大规模预训练,全程跑在昇腾 Atlas 800T A2
![]()
不得不说,是个创举 先看效果
效果图:商业海报
效果图:科普插画
效果图:社交媒体封面
主打文字渲染,尤其擅长中文
在 CVTG-2K(复杂视觉文字生成)和 LongText-Bench(长文本渲染)两个榜单上都是开源第一
![]()
榜单成绩 国产芯片全流程
这是这次发布最核心的部分
官方说法:自回归结构基座从数据预处理到大规模预训练,全流程在昇腾 Atlas 800T A2 上完成
具体怎么做的:
基于昇思 MindSpore 框架,智谱自研了一套训练套件
覆盖数据预处理、预训练、SFT、RL,端到端全流程
优化上,用动态图多级流水下发消除下发瓶颈,用多流并行让通信和计算互掩
算子层面,用了 AdamW EMA、COC、RMS Norm 等昇腾亲和的融合算子
![]()
国产算力训练流程 架构
GLM-Image 采用「自回归 + 扩散解码器」混合架构
两个模块,各管一摊
自回归部分,9B
负责语义理解和全局构图,全程在昇腾上训练
扩散解码器部分,7B
DiT 结构,配合 Glyph Encoder 做文字渲染,解决「提笔忘字」的问题
前者管「读懂」,后者管「写对」
![]()
GLM-Image 架构图
这个方向和 Google 去年 11 月发的 Nano Banana Pro 一致
Nano Banana Pro 基于 Gemini 3 Pro,核心思路是把语言模型的推理能力和图像生成结合起来
智谱管这叫「认知型生成」
![]()
解码器结构示意图 一个细节
还有一个值得关注的点:分辨率支持任意比例
传统图像生成模型的分辨率是 4:3、16:9 这样的预设比例。GLM-Image 通过改进 Tokenizer 策略,原生支持从 1024x1024 到 2048x2048 尺寸的任意比例图像生成,比如1240x1600 这种非标分辨率
对海报、社交媒体封面这类需要自定义尺寸的场景比较实用
价格与开源
API 调用 0.1 元/张
开源地址:
• GitHub:
https://github.com/zai-org/GLM-Image• Hugging Face:
https://huggingface.co/zai-org/GLM-Image• 魔搭社区:
https://modelscope.cn/models/ZhipuAI/GLM-Image
在线体验已在智谱开放平台上线,Z.ai 和智谱清言即将接入
技术报告:https://z.ai/blog/glm-image
![]()
智谱用 GLM-Image 生成的总结图
H200 解禁了,这是好事
但智谱用国产芯片跑通全流程这件事,证明了另一条路也能走
有没有一种可能...互为因果
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.