网易首页 > 网易号 > 正文 申请入驻

智谱和华为搞波大的:中国首个国产芯片训练出的SOTA多模态模型!

0
分享至

来源:市场资讯

(来源:量子位)

智谱华为,这个组合刚刚搞了波大的:

开源新一代图像生成模型GLM-Image,是中国首个全程在国产芯片上完成训练的SOTA多模态模型!

GLM-Image尤其擅长文字渲染,像最近很火的AI手抄报、插画、海报都能信手拈来:



不难看出,如此多的汉字,在GLM-Image的手上可以说是轻松拿捏、精准无误。

并且GLM-Image一出道就拿下了CVTG-2K(复杂视觉文字生成)和LongText-Bench(长文本渲染)双榜单的第一


再细分来看,在CVTG-2K中,GLM-Image凭借0.9116的Word Accuracy(文字准确率)和0.9557的NED(归一化编辑距离)拿下双料第一,表明生成的文字在准确性上做到了高度一致。

以及LongText-Bench中的中文、英文或平均分数,都位列开源模型中的第一。

除此之外,再划个重点:

用GLM-Image的API生成图片,现在一张图只要一毛钱(0.1元)!

咱就是说,国产芯+国产模型,这次真的赢麻了。

天下苦AI生图不识字已经久矣。

以前让AI画个海报,画面虽然美如画,但文字却是乱如麻:不是缺笔少划,就是自创火星文。

这次GLM-Image最大的卖点,可以说就是能读懂且写对

那么接下来,我们就来给GLM-Image一些刁钻的难题,考验考验它的能力。

做小红书封面可以用“说”的

首先是咱们熟悉的“小红书风”。

这种图片不仅要求审美在线,最关键的是标题要大、要醒目,还得和画面完美融合。

我们扔给GLM-Image一段描述比较笼统的描述,让它先来自我发挥一下:

Prompt:生成一张小红书封面,图文并茂,表达泰国旅游最全攻略,要有人物和风景,有趣的设计。


讲真,是有一点惊艳在身上的。

感觉GLM-Image已然get到了小红书封面的奥义,鲜艳的配色、醒目的文字,还有逼真的人物,一下子就让人想点进去了解一番。

还有小红书上比较流行的科普详解图,GLM-Image可以根据智谱官方推文直接生成亮点内容图解:


以后啊,要想做一个小红书或者其它社交媒体的封面,只要0.1元,让GLM-Image来处理就好了。

而且GLM-Image原生支持1024x1024至2048x2048的任意比例输出。智谱开放平台体验中心提供了10个尺寸的选项,可以适配各种类型的社交媒体平台。


商业海报,1毛钱直出

假如你现在想要做一张有艺术感的商业广告大片,那么只要把你的想法转成Prompt即可,例如:

Prompt:大师级摄影,获奖作品,东方禅意,神秘氛围。中心构图,极致负空间留白,一位沉静内省的男性背影,戴浅色宽檐帽,处于绝对静止剪影状态。中景:浓雾弥漫充满全部画面。双重曝光,人物透明叠加于中景,透明晕染重叠,重叠处露出黄昏都市,暖金色暮光逆侧光,建筑轮廓与霓虹因慢门化作动态模糊、拖曳的暖黄色光轨。光影:黑柔滤镜,轮廓光勾勒帽檐肩线,面部阴影中有微妙的深灰至灰渐变,强烈明暗对比。色调:低饱和度暖调(浅棕、暖黄、灰绿,阴影泛青灰),富士怀旧负片胶片质感。后期:空气透视,朦胧诗意,印象派氛围。视觉张力,虚实结合,情绪氛围摄影,电影帧叙事。标语:“流光过隙,我自静观。” 半透明标题“SILENCE”嵌入雾中。


再如我们现在做一个关于白酒的广告片,Prompt如下:

Prompt:以中式酒饮为主题,搭配古朴松枝。场景为白色背景的展示台,营造典雅氛围。构图上,将酒瓶摆放于黑色怪石,白色花艺自然穿插点缀,突出层次。色彩以画面风格追求国风雅韵,借中式元素(传统绘画、松枝 )传递东方美学,背景简洁渐变,聚焦产品与国风意境融合,打造具有文化底蕴的茶饮展示效果 。酒瓶身自然地嵌入中文“松酒”。


嗯,是有点设计感在身上的。

人物、场景,逼真得分不清是AI

真实性,也是考验图片生成能力的重要因素。

接下来,我们就让GLM-Image生成几张真实人物的照片:

Prompt:一位男模特,行走于都市天台,风衣下摆被大风扬起,动态模糊,大场景,强透视,低角度仰拍,胶片粗颗粒质感,黑金色调,前卫艺术美学,力量感,高级感,时尚大片视角,8K,大师杰作。


像极了在现实生活中拍出来的男模特。

我们再来试试一张有点影视剧照的风格:

Prompt:营造出优雅浪漫的古典闲适氛围。中国宋代古典装束、精致器物,搭配窗外的自然景致,传递出远离尘嚣的诗意与雅致,让观者感受到那份古典浪漫中的松弛感。超写实风格暗黑。


如何?是不是有够逼真的?

哦对了,在GLM-Image这里,多图拼接也是可以的哦~


看完效果,相信很多小伙伴要不禁问了:这到底是怎么做到的?

尤其是在目前高性能显卡受限的大背景下,GLM-Image不仅做出来了,还号称是首个全程在国产芯片上完成训练的SOTA模型

这背后的技术含金量,值得咱们好好聊一聊。

混血架构:自回归 + 扩散解码器

目前从大方向来看生图领域技术的发展,主要有两大流派:

但GLM-Image的玩法是这样的:小孩子才做选择,成年人我全都要。

于是,它搞出了一个“自回归 + 扩散解码器”的混合架构,可以理解为一个大脑和笔画的组合:

这就是为什么它在处理CVTG-2K这种榜单时能拿第一的原因。因为它不仅仅是在生成像素,而是在先理解布局,再填充内容。

华为A2芯片+Mindspeed-LLM

这或许是这次发布内容中最为硬核的地方。

我们都知道,训练一个几十亿参数的SOTA模型,对算力的稳定性、通信带宽要求极高。以往大家默认只有英伟达的卡能干这事儿。

但GLM-Image却选择了国产:它全程基于华为Ascend A2芯片进行训练。

为了让这套国产硬件发挥出最大效能,智谱和华为配合,深度优化了Mindspeed-LLM框架。


尤其是最为关键的 RL(强化学习)后训练阶段,在华为Ascend A2算力集群上,智谱团队针对RL训练流程进行了专项优化:

这种深度适配带来的结果是显而易见的。GLM-Image 不仅是国产芯片训出来的,更是在国产算力极限压力测试下卷出来的SOTA 模型。

值得一提的是,GLM-Image并非仅在微调阶段使用国产芯片,而是从海量数据预处理、大规模预训练到最后的RLHF过程,全部在华为Ascend A2算力集群上完成。

它证明了国产算力底座+自研架构创新,完全可以支撑起RL这种最前沿、最复杂的模型优化路径。

分辨率的原生支持

还有一个技术细节也值得一提。

传统的模型,如果你想生成个长条图(比如16:9)或者竖图(9:16),往往需要裁剪或者后期重绘,容易变形。

GLM-Image改进了Tokenizer策略,原生支持从1024x1024到2048×2048的任意比例和分辨率。



这意味着你可以直接让它生成一张超长的招牌,或者一张超宽的横幅广告,它都不需要重新训练,直接就能算出来。

在图像生成这个领域,大家似乎都习惯了盯着国外的Flux、Midjourney、Ideogram看。每当国外发布一个新模型,大家就感叹一句“差距又拉大了”。

但GLM-Image的出现,是一次有力的回应,主要可以从三个方面来看:

Nano Banana固然很好,但那毕竟是别人家的,还是闭源的那种。

但现在,我们有了自己的Open Banana——GLM-Image:开源的、国产算力训练的、懂中文、会写汉字的。

无论你是想做个不重样的小红书博主,还是想搞个自动生成海报的创业项目,或者单纯就是想体验一下国产之光的生图能力,GLM-Image都值得你上手一试。

话不多说,赶紧去试试这个“国产大香蕉”到底香不香!

API接入地址:

https://docs.bigmodel.cn/cn/guide/models/image-generation/glm-image

GitHub:

https://github.com/zai-org/GLM-Image

Hugging Face:

https://huggingface.co/zai-org/GLM-Image

魔搭社区:

https://modelscope.cn/models/ZhipuAI/GLM-Image

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
征战23载NBA!詹姆斯退役后退休金曝光,数额让网友直呼意外

征战23载NBA!詹姆斯退役后退休金曝光,数额让网友直呼意外

篮球看比赛
2026-01-15 11:22:21
2020年,央视成蕾像往常一样接受采访,因说错一句话曝光间谍身份

2020年,央视成蕾像往常一样接受采访,因说错一句话曝光间谍身份

猫眼观史
2024-08-31 15:28:17
好友透露贺娇龙坠马细节,疑似问题在马镫,那匹马她养了很多年

好友透露贺娇龙坠马细节,疑似问题在马镫,那匹马她养了很多年

辣条小剧场
2026-01-15 14:58:25
2026年韩国最低时薪10320韩元!最低月薪是…

2026年韩国最低时薪10320韩元!最低月薪是…

奋斗在韩国
2026-01-04 14:03:39
太会买了!紫金矿业连涨4天,这家机构15只基金集体“吃肉”超亿元

太会买了!紫金矿业连涨4天,这家机构15只基金集体“吃肉”超亿元

华夏时报
2026-01-15 22:30:10
《玉茗茶骨》大结局:6人圆满2人悲惨,陆江来成为最大赢家!

《玉茗茶骨》大结局:6人圆满2人悲惨,陆江来成为最大赢家!

安海客
2026-01-14 18:27:27
广东宏远今日早报!徐杰重返男篮,朱芳雨回购徐昕,麦考尔将复出

广东宏远今日早报!徐杰重返男篮,朱芳雨回购徐昕,麦考尔将复出

多特体育说
2026-01-15 07:40:03
43岁演员演女特工摇头晃脑像傻白甜,张颂文也带不动

43岁演员演女特工摇头晃脑像傻白甜,张颂文也带不动

春天来了啊
2026-01-05 22:16:16
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

丞丞故事汇
2025-12-28 00:13:54
A股:没必要等待周五开盘,行情已经有变化,明天大概率将这样走

A股:没必要等待周五开盘,行情已经有变化,明天大概率将这样走

财经大拿
2026-01-15 13:50:52
杨瀚森参加混音赛后大合影!站在最边上出镜 搂住队友一脸微笑

杨瀚森参加混音赛后大合影!站在最边上出镜 搂住队友一脸微笑

罗说NBA
2026-01-15 15:06:11
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
研究发现:高血压的人若经常喝白酒,不用多长时间,或有5变化

研究发现:高血压的人若经常喝白酒,不用多长时间,或有5变化

蜉蝣说
2026-01-15 11:02:52
1月13日,美军展示了一个照片,几乎等于承认和中方没法打!

1月13日,美军展示了一个照片,几乎等于承认和中方没法打!

安安说
2026-01-15 14:30:22
3年1.25亿美金!3项生涯新低!莫兰特迈阿密买房,莱利侮辱性报价

3年1.25亿美金!3项生涯新低!莫兰特迈阿密买房,莱利侮辱性报价

篮球看比赛
2026-01-15 11:29:51
北京周六夜间到周日白天将迎降雪,下周气温全线跌入冰点以下

北京周六夜间到周日白天将迎降雪,下周气温全线跌入冰点以下

新京报北京知道
2026-01-15 12:25:11
人均25元,现炒“三剑客”来了

人均25元,现炒“三剑客”来了

中国新闻周刊
2026-01-14 21:57:15
双休日北京迎降雪降温 周六最高温跌破冰点

双休日北京迎降雪降温 周六最高温跌破冰点

北青网-北京青年报
2026-01-15 13:29:07
美国已正式开始出售委内瑞拉石油

美国已正式开始出售委内瑞拉石油

新京报
2026-01-15 11:24:24
全新丰田凯美瑞上市!售价亲民,全新外观年轻动感,搭载2.5L双擎

全新丰田凯美瑞上市!售价亲民,全新外观年轻动感,搭载2.5L双擎

小史谈车
2026-01-15 09:00:03
2026-01-15 23:12:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2047921文章数 5267关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

车主称4S店只卖套餐不给单换:刹车油线下价是线上3倍

头条要闻

车主称4S店只卖套餐不给单换:刹车油线下价是线上3倍

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

家居
本地
游戏
数码
公开课

家居要闻

自在自宅 个性自由

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

苦等三年!《泰拉瑞亚》更新 这次是真"最后"一次?

数码要闻

石头G30S Pro扫地机器人1月20日上市,越障高度突破8.8cm

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版