网易首页 > 网易号 > 正文 申请入驻

国产Nano Banana开源!用华为AI芯片训练,1张图只要1毛钱

0
分享至


智东西
作者 李水青
编辑 心缘

智东西1月14日报道,今天,首个在国产芯片上完成全程训练的SOTA(最佳水平)多模态模型开源。

这是智谱联合华为开源的图像生成模型GLM-Image从数据到训练的全流程,该模型完全基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成构建。

截至今日午间休市,智谱股价涨16.83%

在聚焦文字渲染的CVTG-2K、LongText-Bench榜单上,GLM-Image的得分超越了以谷歌Nano Banana Pro为代表的认知型生成模型。


▲GLM-Image在文字渲染的CVTG-2K、LongText-Bench榜单中达到开源SOTA水平

GLM-Image实现了图像生成与语言模型的联合,核心亮点如下:

1、架构革新,面向「认知型生成」的技术探索:采用创新的「自回归 + 扩散编码器」混合架构,兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题。

2、首个在国产芯片完成全程训练的SOTA模型:模型自回归结构基座基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架,验证了在国产全栈算力底座上训练前沿模型的可行性。

3、文字渲染开源SOTA:在CVTG-2K(复杂视觉文本生成)和LongText-Bench(长文本渲染)榜单获得开源第一,尤其擅长汉字生成任务。

4、高性价比与速度优化:API调用模式下,生成一张图片仅需0.1元,速度优化版本即将更新。

智东西第一时间对GLM-Image进行了体验,发现模型在汉字生成上准确度很高,优于谷歌Nano Banana Pro以及多款头部国内模型;能够较准确理解深层语义和知识概念,并将其转化为正确的视觉元素;能够在保证全局构图的同时较精准刻画局部细节

同时,GLM-Image也存在字体风格呈现不准、生成需要等待时间、一些科学概念理解不足等问题;且相比于一些免费选择,其仍需要收取少量费用。

体验地址:
https://bigmodel.cn/trialcenter/modeltrial/image
GitHub地址:
https://github.com/zai-org/GLM-Image
技术报告地址:
https://z.ai/blog/glm-image


▲GLM-Image体验界面

一、从数据到训练,首个国产芯片训练出的SOTA模型

GLM-Image自回归结构基座从早期的数据预处理,到最终的大规模预训练,全流程均在昇腾Atlas 800T A2设备上完成。

依托昇腾NPU和昇思MindSpore AI框架,使用动态图多级流水下发、高性能融合算子、多流并行等特性,智谱自研了模型训练套件,全面优化数据预处理、预训练、SFT和RL的端到端流程。

具体来说,通过动态图的多级流水优化机制,团队将Host侧算子下发的关键阶段流水化并高度重叠,消除下发瓶颈;通过多流并行策略,通信和计算互掩,团队打破文本梯度同步、图像特征广播等操作的通信墙,极致优化性能;使用AdamW EMA、COC、RMS Norm等昇腾亲和的高性能融合算子,团队同步提升训练的稳定性和性能。

作为首个在国产芯片上完成全流程训练的SOTA多模态模型,GLM-Image验证了在国产全栈算力底座上训练高性能多模态生成模型的可行性。

二、文字渲染达开源SOTA,实测汉字生成超Nano Banana Pro

GLM-Image在文字渲染的权威榜单中达到开源SOTA水平。

CVTG-2K(复杂视觉文字生成)榜单核心考察模型在图像中同时生成多处文字的准确性。在多区域文字生成准确率上,GLM-Image凭借0.9116的Word Accuracy(文字准确率)成绩,位列开源模型第一。在NED(归一化编辑距离)指标上,GLM-Image同样以0.9557领先,表明其生成的文字与目标文字高度一致,错字、漏字情况更少。

LongText-Bench(长文本渲染)榜单考察模型渲染长文本、多行文字的准确性,覆盖招牌、海报、PPT、对话框等8种文字密集场景,并分设中英双语测试,GLM-Image以英文0.952、中文0.979的成绩位列开源模型第一。

智东西对GLM-Image的实测体验侧重文字渲染能力,对比谷歌Nano Banana Pro、豆包、阿里通义万相2.6几款常见同类模型,GLM-Image在文字渲染准确度和细节刻画上表现较好,但也存在字体风格不准确、科学概念理解不足等问题,不过后面这几个问题Nano Banana Pro也难幸免。

提示词1:
设计一个“新中式奶茶店”的商标(Logo)和店铺外观概念图。
Logo部分:需要包含“茶悦”二字,设计要融合传统书法韵味和现代简约风格。
店铺外观:是一个现代玻璃橱窗小店,但门头、招牌或装饰中要巧妙运用竹元素或山水纹样。
整体感觉:干净、雅致、有文化气息,同时吸引年轻人。
生成建议:“茶悦”二字可以尝试用细笔触的行书,搭配一个抽象的茶杯或茶叶形状。店铺外观可以是浅木色和留白为主,用竹格栅做装饰,玻璃上若有若无地映出山水画痕迹。

如下图所示,GLM-Image在汉字生成上比较准确,但未采用“行书”;对文字描述的设计细节呈现准确,抽象的茶杯设计较传神;对中国文化元素(书法、竹、山水)的理解和现代转译能力较强;室内陈设格局清晰,符合商业设计场景要求。


▲GLM-Image生成的图片

谷歌Nano Banana Pro没有能够准确生成汉字,但对于画面的呈现也比较准确,室内的陈设清晰且细节丰富,实拍感较强。


▲Nano Banana Pro生成的图片

豆包没有准确生成“茶悦”二字,没有按要求生成“一个抽象的茶杯或茶叶形状”,但在门头、招牌或装饰中要巧妙运用了竹元素或山水纹样,设计比较独特。


▲豆包生成的图片

阿里通义万相2.6准确生成了“茶悦”二字,也按要求生成了一个抽象的茶杯或茶叶形状,但字体同样没有采用“行书”,店面的内部构造生成细节相对不多。


▲阿里通义万相2.6生成的图片

提示词2:

画一张给小学生看的“光合作用示意图”。图中需要包含一棵有笑脸的植物、一个大太阳、代表二氧化碳(CO₂)的箭头从空气指向叶子、代表氧气(O₂)的箭头从叶子中冒出。在图片下方,用清晰易懂的字体标注解释:“植物利用阳光、水和二氧化碳,制造出氧气和养分”。整体风格需生动可爱,兼具科学性和趣味性。

如下图所示,GLM-Image保证了全局构图风格可爱、场景完整,对“光合作用”这一科学概念有一定的理解能力,但氧气的箭头打反了,释放氧气应该是箭头向外。


▲GLM-Image生成的图片

不过,Nano Banana Pro也没有做对这道题,氧气的箭头也画反了,且汉字生成上一塌糊涂,全都乱码了。


▲Nano Banana Pro生成的图片

豆包在这道题上完成度较高,不仅准确生成了汉字,还理解了光合作用概念,将抽象概念转却转化为了具象的视觉符号。


▲豆包生成的图片

阿里通义万相2.6也能够准确生成文字,并且用视觉符号呈现了“光合作用”吸收二氧化碳、释放氧气的过程,但仍有一个二氧化碳的箭头向外打,可能将“呼吸作用”也考虑进来了;比其他模型多表现了根系吸收水分这一部分原理。


▲阿里通义万相2.6生成的图片

三、自回归 + 扩散编码器架构创新:读懂指令,写对文字

当下,以Nano Banana Pro为代表的闭源图像生成模型,正在推动图像生成与大语言模型的深度融合。模型在海报、PPT、科普图等知识密集型场景及高保真细节上的表现,展现了认知型生成模型的技术优势。

GLM-Image是首个开源的工业表现级离散自回归图像生成模型,是智谱面向认知型生成技术范式的一次重要探索。

创新架构,让模型能够读懂写对。面对传统模型在“理解复杂指令”与“精准绘制文字”上难以兼顾的问题,GLM-Image 引入了「自回归+扩散解码器」混合架构,创新地融合了9B大小的自回归模型与7B大小的DiT扩散解码器。

前者利用其语言模型的底座优势,专注于提升对指令的语义理解和画面的全局构图;后者配合Glyph Encoder的文本编码器,专注于还原图像的高频细节和文字笔画,以此改善模型“提笔忘字”的现象。

GLM-Image还具备多分辨率自适应能力。通过改进Tokenizer策略,GLM-Image能够自适应处理多种分辨率,原生支持从1024×1024到2048×2048尺寸的任意比例图像的生成任务,无需重新训练。


▲通用pipeline


▲解码器结构示意图

结语:纯血国产大模型进击,从“可用”到“好用”

GLM-Image的诞生,标志着国产大模型探索进入了从“可用”到“好用”的关键阶段。它以“自回归+扩散”的混合架构破解了“图文协同”的生成难题,同时凭借在国产昇腾算力上完成全流程训练的实践,证明了自主技术栈支撑前沿AI创新的可行性。

作为一款在文字渲染任务上达到开源SOTA的模型,它为海报设计、知识科普等需要精准图文融合的场景提供了高性价比的新选择,同时有望为整个AI产业生态的自主化与多元化打基础。

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不出中国所料,李在明刚离开日本,韩国就喊话中国:我们尽快谈判

不出中国所料,李在明刚离开日本,韩国就喊话中国:我们尽快谈判

面包夹知识
2026-01-16 16:05:48
柬埔寨副首相放话:特朗普让我们惊醒,不能只依靠中国

柬埔寨副首相放话:特朗普让我们惊醒,不能只依靠中国

扬子晚报
2026-01-15 12:30:47
周琦眼睛出现不适,赵继伟赛季首秀完美,CBA又来超级外援!

周琦眼睛出现不适,赵继伟赛季首秀完美,CBA又来超级外援!

中国篮坛快讯
2026-01-17 00:01:47
升西部第二!文班22+10受伤惊魂 马刺最多领先39分大胜雄鹿

升西部第二!文班22+10受伤惊魂 马刺最多领先39分大胜雄鹿

醉卧浮生
2026-01-16 11:23:40
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
性能突破性提升!我国攻克半导体材料世界难题

性能突破性提升!我国攻克半导体材料世界难题

环球网资讯
2026-01-16 20:33:08
马斯克:2026年科技牛市6大核心主线,核心公司出炉,催化剂明确

马斯克:2026年科技牛市6大核心主线,核心公司出炉,催化剂明确

鹏哥投研
2026-01-16 20:18:53
被禁止关注不到24小时,李湘被扒底朝天,高调炫富仅是冰山一角

被禁止关注不到24小时,李湘被扒底朝天,高调炫富仅是冰山一角

有范又有料
2026-01-16 18:22:52
夫妻性生活的“黄金时长”是多少?别再被电影骗了!

夫妻性生活的“黄金时长”是多少?别再被电影骗了!

精彩分享快乐
2025-11-29 00:00:03
中足联官方:同意上海赛更达、大连可为名称认定事宜

中足联官方:同意上海赛更达、大连可为名称认定事宜

懂球帝
2026-01-16 20:57:11
防守倒是比较积极,但湖人后场新援的得分能力完全没有发挥出来?

防守倒是比较积极,但湖人后场新援的得分能力完全没有发挥出来?

稻谷与小麦
2026-01-17 00:12:40
你知道女性的阴道有多长吗?或许与你所想,完全不同!

你知道女性的阴道有多长吗?或许与你所想,完全不同!

战争茶馆
2025-11-26 10:33:50
1月16日俄乌:美俄配合默契, 欧洲愈发强硬

1月16日俄乌:美俄配合默契, 欧洲愈发强硬

山河路口
2026-01-16 18:15:09
别羡慕“秒睡”的人!医生提醒:“倒头就睡”可能是身体在报警

别羡慕“秒睡”的人!医生提醒:“倒头就睡”可能是身体在报警

人民日报健康客户端
2026-01-03 15:33:43
冬至夜黄晓明带前妻回青岛团圆,婆媳相拥破镜难重圆却获赞体面

冬至夜黄晓明带前妻回青岛团圆,婆媳相拥破镜难重圆却获赞体面

老吴教育课堂
2026-01-16 05:08:31
泡沫破裂!高端白酒价格大跳水

泡沫破裂!高端白酒价格大跳水

中国能源网
2026-01-16 10:32:11
闫学晶风波再升级!一人已被行拘,婚变丑闻被扒,这回恐彻底栽了

闫学晶风波再升级!一人已被行拘,婚变丑闻被扒,这回恐彻底栽了

奇思妙想草叶君
2026-01-14 22:49:54
单论军事指挥能力而言,十大元帅该怎么排名,徐帅肯定不是第八

单论军事指挥能力而言,十大元帅该怎么排名,徐帅肯定不是第八

兴趣知识
2026-01-16 14:56:20
CBA|刘传兴:并非有意弄伤曾凡博

CBA|刘传兴:并非有意弄伤曾凡博

北青网-北京青年报
2026-01-16 13:18:05
神仙姐姐的野生图,太美了。

神仙姐姐的野生图,太美了。

微微热评
2026-01-09 12:20:53
2026-01-17 00:40:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11085文章数 116943关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

数码
教育
旅游
健康
公开课

数码要闻

熊猫MX34U7 34英寸带鱼屏显示器发布,售价1299元

教育要闻

寒假指南|你的国美寒假生活一站式指南,请查收!

旅游要闻

忻州古城的本真味道

血常规3项异常,是身体警报!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版