网易首页 > 网易号 > 正文 申请入驻

智谱2025开源年第一枪!60亿参数文生图模型亮相,达到SOTA

0
分享至

智东西3月4日消息,今天,大模型独角兽智谱发布首个支持生成汉字的开源文生图模型——CogView4

该模型有60亿参数,支持原生中文输入和中文文本到图像生成。其主要更新在于,CogView4可以理解中英文双语提示词,且将中英文字符融入图像之中,并支持上百字复杂提示词输入。

与CogView3-Plus-3B相比,CogView4的提示词长度上限从224 Tokens增加到了1024 Tokens

CogView4在文生图基准测试DPG-Bench中综合评分排名第一。

目前,CogView4-6B-0304版本已经开源,将于3月13日上线智谱清言(chatglm.cn)。

这也是是首个遵循Apache 2.0协议的图像生成模型,后续智谱会陆续增加ControlNet、ComfyUI等生态支持,并即将推出全套的微调工具包。

GitHub地址:

https://github.com/THUDM/CogView4/blob/main/README_zh.md

一、中英文海报原图直出,上百字提示词精准理解

CogView4支持中英双语提示词输入,擅长理解和遵循中文提示词,能根据用户需求将中英文字符融入生成的图像中。

如下图所示的“无敌炒面”海报:

还能根据图像风格变换字体:

英文和数字也可以与画面内容自然融合:

CogView4可以为古诗词制作插图,根据诗句意境描绘出对应的画面:

如下图的提示词是:野径云俱黑,江船火独明。黑云、船、灯光、野径,这些主要元素都呈现了出来。

此外,CogView4支持超长提示词生成四格漫画,或者超长且复杂的提示词生成更为精细的画面。

下方生成的四格漫画其提示词近700个字,包含漫画的主要人物、四段剧情等。

如果用户对画面细节要求高,也可以通过完整的表述将画面的每一个细节都概括到位,如:

一幅超现实微距摄影或3D数字艺术,画面左边是一半的蒲公英花冠。花冠的半边超微距特写占据了整个画面,极致细节,种子上缀满晶莹剔透的水滴,如梦如幻。蒲公英的花梗细小,花冠的细丝纤细透明,每一根上都附着着微小的水珠,折射出周围的光线,形成无数微小的光斑,营造出梦幻而精致的视觉体验。景深效果,淡紫色背景并灰色渐变,使背景呈现出柔和的模糊渐变,增强画面纵深感。带有微微的冷色调光晕,使画面更加宁静而神秘。画面光效极为细腻,每一颗水珠都像微型镜头一般,折射出世界的微观景象,增强了精密与梦幻的氛围。高动态范围(HDR)光影效果,确保水滴的透明度、反射和折射层次丰富,极具视觉吸引力。

二、DPG-Bench基准测试排名第一,中文文字准确率评测超快手可图

在文本到图像生成的DPG-Bench基准测试中,CogView4综合评分排名第一,在开源文生图模型中达到SOTA。DPG-Bench主要关注模型在复杂语义对齐和指令跟随能力方面的表现。

在Geneval基准测试中,CogView4综合评分为0.73,排名第二。

在用于开放式世界组合式文本到图像生成的综合基准T2I-CompBench中,CogView4综合评分0.7786,排名第二。

中文文字准确率评测中,其结果显示,CogView4表现效果好于国产开源绘画模型快手可图。

三、擅长理解中文,支持任意分辨率

CogView4的技术优势体现在两个方面:

首先,支持中英双语提示词输入,擅长理解和遵循中文提示词,是首个能够在画面中生成汉字的开源文生图模型。

CogView4将文本编码器从纯英文的T5 encoder换为具备双语能力的GLM-4 encoder,并通过中英双语图文对进行训练,使CogView4模型具备双语提示词输入能力。

其次,该模型支持输入任意长度提示词,能生成范围内任意分辨率图像。CogView4模型实现了任意长度的文本描述(caption)和任意分辨率图像的混合训练范式。

图像位置编码CogView4采用二维旋转位置编码(2D RoPE)来建模图像的位置信息,并通过内插位置编码的方式支持不同分辨率的图像生成任务。

扩散生成建模模型采用Flow-matching方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。

DiT模型架构上,CogView4延续上一代的Share-param DiT架构,并为文本和图像模态分别设计独立的自适应LayerNorm层,以实现模态间的高效适配。

CogView4采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段训练方式不仅覆盖了广泛的图像分布,还确保生成的图像具有高美感并符合人类偏好。

训练框架优化,从文本角度CogView4突破了传统固定Token长度的限制,允许更高的Token上限,并显著减少了训练过程中的文本Token冗余。

当训练caption的平均长度在200-300 Token时,与固定512 Tokens的传统方案相比,CogView4减少了约50%的Tokens冗余,并在模型递进训练阶段实现了5%-30%的效率提升。

结语:智谱开源年启动,全面拥抱AI普惠

此前,智谱预告2025年将是其开源年,要陆续开源基础模型、推理模型、多模态模型、Agent模型等,并将这些模型全部开放源代码,CogView4正是这一系列的第一个开源模型。

这也是近日智谱完成一笔超10亿元战略融资以来,其最新动向。智谱GLM系列大模型已在金融、医疗、教育等多个行业得到广泛应用。智谱从2019年成立就定下了实现AGI的愿景,并拥抱开源,致力于AI普惠。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
19分惨败日本!苏群批中国队:打得没有特点没有核心,出线都悬了

19分惨败日本!苏群批中国队:打得没有特点没有核心,出线都悬了

林小湜体育频道
2026-07-03 21:42:34
极氪翻倍增长、出口首破10万,吉利交出高质量半年答卷

极氪翻倍增长、出口首破10万,吉利交出高质量半年答卷

汽车公社
2026-07-02 19:58:00
高市早苗与莫迪“兄妹情深”却不肯喝印度水,漱口也不行,日媒爆料专机上装满了矿泉水

高市早苗与莫迪“兄妹情深”却不肯喝印度水,漱口也不行,日媒爆料专机上装满了矿泉水

极目新闻
2026-07-03 20:57:42
日本签证费暴涨700元,中国体育代表团不玩了?乒协公布参赛名单

日本签证费暴涨700元,中国体育代表团不玩了?乒协公布参赛名单

小马姨
2026-07-03 12:36:58
突发!Claude 将对中国用户下狠手!VPN、中转站、海外壳、云服务商全封禁

突发!Claude 将对中国用户下狠手!VPN、中转站、海外壳、云服务商全封禁

云头条
2026-07-03 13:39:42
睡到曾经的女神是什么体验?网友说你不舍得的车其实早已千人骑了

睡到曾经的女神是什么体验?网友说你不舍得的车其实早已千人骑了

黯泉
2026-07-03 12:42:38
世界杯巨大争议!克罗地亚压哨绝平被吹,魔笛气笑了,1场3球无效

世界杯巨大争议!克罗地亚压哨绝平被吹,魔笛气笑了,1场3球无效

奥拜尔
2026-07-03 09:26:17
关于俄罗斯,评论区让我大吃一惊

关于俄罗斯,评论区让我大吃一惊

常识群
2026-07-03 12:21:07
A股:今晚2.5亿股民,要兴奋到睡不着觉了,你知道为什么吗?

A股:今晚2.5亿股民,要兴奋到睡不着觉了,你知道为什么吗?

夜深爱杂谈
2026-07-03 19:53:02
中国高规格出席哈梅内伊葬礼

中国高规格出席哈梅内伊葬礼

凤眼论
2026-07-03 11:22:54
推举三连任!金正恩这十年来的兜兜转转

推举三连任!金正恩这十年来的兜兜转转

IN朝鲜
2026-07-03 15:31:23
C罗姐姐放出重磅消息:葡萄牙若不敌克罗地亚,C罗就退出国家队

C罗姐姐放出重磅消息:葡萄牙若不敌克罗地亚,C罗就退出国家队

夜白侃球
2026-07-03 10:41:51
快讯!特朗普再次对台湾表态了!

快讯!特朗普再次对台湾表态了!

做个平凡的轩友
2026-07-03 19:11:48
成都一女子不洗手抱孙子,儿媳怒斥不卫生,儿子一拳打面中,母亲扬言要儿子坐牢,儿子却说:她活该!6年后现状曝光...

成都一女子不洗手抱孙子,儿媳怒斥不卫生,儿子一拳打面中,母亲扬言要儿子坐牢,儿子却说:她活该!6年后现状曝光...

背包旅行
2026-07-02 14:33:11
国外AI大模型不让抄了 ,行业哀嚎一片

国外AI大模型不让抄了 ,行业哀嚎一片

难得君
2026-07-03 11:37:07
记者:厄瓜多尔球员遭墨西哥贩毒集团威胁,5名球员被联系

记者:厄瓜多尔球员遭墨西哥贩毒集团威胁,5名球员被联系

懂球帝
2026-07-03 19:03:23
菲律宾政坛大变天!捅了马蜂窝的马科斯,突然对中国低头表态

菲律宾政坛大变天!捅了马蜂窝的马科斯,突然对中国低头表态

流史岁月
2026-07-02 14:40:06
凡是普通人买不起的东西,现在全在塌!

凡是普通人买不起的东西,现在全在塌!

黯泉
2026-07-03 16:52:10
莫德里奇:如果情况反过来裁判就不会判点球,这就不该是点球

莫德里奇:如果情况反过来裁判就不会判点球,这就不该是点球

懂球帝
2026-07-03 14:33:19
中美脱钩越发严重

中美脱钩越发严重

谭谈投研
2026-07-03 20:37:50
2026-07-04 01:23:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12175文章数 117117关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

以色列被指计划暗杀伊朗外长和议长 以方回应

头条要闻

以色列被指计划暗杀伊朗外长和议长 以方回应

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

亲子
旅游
本地
时尚
公开课

亲子要闻

我们这一大家人在韩国又相聚啦

旅游要闻

滇中山崖惊现完整脚掌印记,岩层原生无改造,揭开百年民间传说!

本地新闻

国内足球之旅?这座小城给你高分答案

下雨时,这3套富有层次感搭配,超时髦!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版