网易首页 > 网易号 > 正文 申请入驻

实测开源版 nano banana:更聪明的超长文本渲染,彻底告别 AI 汉字鬼画符

0
分享至

最近腾讯开源了一个新模型——混元图像 3.0。

它的宣传点很直白:不仅能画图,还能准确「理解」,和利用世界知识「推理」。比如我们想做一张广告海报,它能把商品画出来,还顺手把文字排版好;想做一套漫画,输入一句话,它就能帮我们画好分镜。

听起来是很强,但也让人好奇,它真能替代设计师吗?还是只是多了点「聪明」的生图?

毕竟我们手上已经有 nano banana 这样强大的图像编辑模型,更不用说其他层出不穷的生图模型。


体验地址:https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual

在开始我们的实测之前,先看看这次 3.0 更新了什么内容。

这是首个开源的工业级原生多模态生图模型。多模态的能力,意味着它不仅能画画,还具备语言模型的理解和推理能力,在画之前,它可以先想清楚要画什么。

开源方面,混元图像 3.0 的体量和能力都处于最前列,参数规模高达 80B,是目前最大的开源生图模型。


腾讯混元图像 3.0 模型框架图,80B 参数的 MoE 结构

原生多模态架构,也让一个模型,就可以同时处理文字、图像、视频、音频的输入输出,而不是把几个不同模型拼凑在一起;

此外,文本生成的能力,也是混元图像 3.0 的一大主打,它号称能解析千字级别的复杂语义内容,精确生成长文本文字。

腾讯混元把它形容成一个自带「大脑」的画家。用户只需给出大方向,它就能用常识和世界知识把画面补全,生成真实、细腻、带有美学质感的图像。


采用了常用于评估图像生成效果的 GSB(好/一样/差)评价方法。总共使用了1000 个文本提示,100 多名专业评估人员,混元图像 3.0 与 nano banana 和字节跳动的 Seedream,以及 GPT-IMG 对比,一样好的情况占比最多,而深灰色部分,则代表混元图像 3.0 更好,浅灰色代表用来对比的模型更好。

光说不练假把式。从常识到创意,从专业到玩梗,我们用不同的提示词,全方位地测试了这个混元图像 3.0 模型的生图能力,结果低估它了?

世界知识和推理,AI 像人一样画画

有了世界知识,最大的好处,我们的提示词可以更像人话。就像下面这张图,我们直接告诉它 labubu,而不用专门去描述 labubu 这个形象具体是什么样。


生成一个画出 labubu 的四宫格素描画流程

而一些特定的知识上,它似乎也有查询的能力,并应用在图像生成的过程中。像下面这张图片,我的提示词只有 3 号线、客村站这些信息,但是模型推理出下一站是广州塔、珠江新城、体育西路。

更令我感到惊喜的是,混元图像 3.0 对文字生成的把控,几乎是做到了精准还原。


广州地铁客村站站台实拍图,屏蔽门顶部有显示3号线的站点情况

我们也用 nano banana、ChatGPT、和豆包生成同样的照片,结果是,都只能根据我输入提示词的信息来生图,线路站点信息,有些是文字渲染完全不行、有些是信息错误、还有直接显示「3 号线站点信息」几个字的。

一时间不知道是该夸,服从用户指令,还是说它知识学习得不够多。不过 Seedream 给我的感觉,整张图片的风格,是「AI 味」最少的。





向左滑动查看更多内容; 从左到右依次为 nano banana、ChatGPT、Seedream 4.0 和豆包

能够利用世界知识进行推理,给了生图模型更多的潜在玩法。就像开头我们的 labubu 四宫格素描图,可以扩展到做一些知识点的讲解,这些经常在社交媒体平台上刷到的,漫画科普小卡片。


生成一个月全食的四格科普漫画

混元官方也给出了类似四宫格漫画的提示词指南,帮助我们单抽出金。

开篇表明是四宫格漫画:「一幅黑白四格漫画。」

分格子描述画面:「第一格,xxx。第二格,xxx。第三格,xxx。第四格,xxx。」

可以展开你的想象,填充细节,这样效果会更好。

想要高级感,很吃提示词

官方在它们 GitHub 仓库放出的几张图片,我第一眼看到,想到的是朋友圈的那些模板封面图,高级感真的拉满。



向左滑动查看更多内容, 这几张 AI 图片的提示词都在 500 个字以上,具体提示词可访问:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

但我自己用一些简单的提示词,让混元图像 3.0 去做的时候,出来的图片 AI 味是非常重的,甚至给我一种,这不像是 2025 年生图模型的效果。



向左滑动查看更多内容;提示词:一张特写照片,展示一只金吉拉英短猫坐在办公桌前,它有着圆润的金色毛发,眼睛是橄榄绿色的。猫咪的右爪(从观察者角度看是左爪)放在一个黑色的电脑鼠标上,身体微微倾向左侧,头稍稍低下。它的左爪(从观察者角度看是右爪)弯曲,掌心向上,托着下巴,一副若有所思的表情。 猫咪脖子上挂着一个透明的胸牌,胸牌里是一张它自己的肖像照,照片中的猫咪头部特写,表情严肃。背景是一个模糊的办公室环境,可以看到一些办公桌、电脑屏幕和坐在椅子上的模糊人影,光线柔和,营造出一种日常的办公氛围。 日常拍照风格,照片的整体色调偏暖,带有轻微的复古滤镜效果,光线主要从前方照射,使得猫咪的毛发看起来柔软且富有层次感。猫咪的胡须清晰可见,毛发质感细腻,眼神充满好奇与专注。景深较浅,猫咪是画面的绝对焦点。

在提示词里面,我们已经用了「日常拍照风格」、「复古滤镜」等风格化用词,但是最后的成片,还是高饱和度、高亮度。

官方给出的摄影风格,提示词参考技巧是,主体场景+画质风格+构图视角+光线氛围+技术参数。

我们又照着这个格式,重新测试了一回,效果上确实好了一些。指定多少毫米的镜头,在提示词里面,确定这类技术参数,我认为是生成真实图片的关键。



向左滑动查看更多内容; 原图的提示词是照着朋友圈的模板封面来写的。 提示词:主体场景: 一只纯黑色的短毛猫,身形修长优雅,拥有明亮且引人注目的琥珀色眼睛,眼神充满好奇与警觉。它半侧身地躺卧或半坐在一张深灰色布艺沙发的角落里,身体的大部分融入阴影中,只露出头部和一部分身体轮廓。 画质风格: 高质量的数字摄影,带有电影感的氛围,画质清晰细腻,猫咪的毛发质感柔软而富有光泽。整体色调偏暗,但在暗部细节仍有保留,营造出一种神秘而高级的视觉感受。 构图视角: 从略高于猫咪的俯视角度进行拍摄,猫咪的头部位于画面偏左侧的中心位置,它的眼睛正视镜头。沙发边缘将画面自然地分成两部分,引导视线集中在猫咪身上。 光线氛围: 室内环境,光线非常昏暗,主要依靠沙发背面或侧面反射的微弱环境光以及猫咪自身眼睛的光泽来照亮。光线柔和,营造出强烈的阴影和高对比度,使得猫咪的黑色毛发与深色背景融为一体,只有眼睛和部分面部细节被突出照亮。 技术参数: 高分辨率,浅景深。使用一支85mm f/1.8大光圈定焦镜头拍摄,以创造强烈的背景虚化和主体分离效果。ISO值适中以保持画质,使用专业级全画幅相机,后期略微调整对比度和饱和度,突出暗部细节。

但还是很难抽到「AI 味」没那么重的图片,目前混元图像 3.0 也只支持文生图,图像的编辑功能暂时还没有上线,所以对提示词的要求,变得更高。

腾讯混元团队透露,图生图、图像编辑、以及多轮交互等版本将在后续发布。

国外模型的难点,长文本生成

真实照片的摄影风格比较不如意,其他风格化,像是卡通、漫画以及不同材质的渲染,混元图像 3.0 的表现确实不错,以及还有一项长文本的生成能力。


画一个咖啡店的菜单黑板,上面写着:拿铁 - 30元,美式 - 25元,卡布奇诺 - 28元。

而更复杂的文字,也需要掌握一些官方给出的技巧。

将大段的文字拆成多句并使用多个引号,文字会更准确。同时,文字的准确性与 prompt 描述的布局方式有一定关联。可以尝试以下的策略:

(a)在渲染的文本前使用「第几行写着」、「左边写着」之类提示布局信息的词

(b)修改图片长宽比

(c)换一种内容布局的方式(如左右布局换成上下布局)


皓月当空的背景,上面映着苏轼的一首词: 第一行写着: 「水调歌头·明月几时有」,「苏轼」, 第二行写着: 「明月几时有?把酒问青天。」 第三行写着: 「不知天上宫阙,今夕是何年。」 第四行写着: 「我欲乘风归去,惟恐琼楼玉宇,高处不胜寒。」 第五行写着: 「起舞弄清影,何似在人间。」 第六行写着: 「转朱阁,低绮户,照无眠。」 第七行写着: 「不应有恨,何事长向别时圆?」 第八行写着: 「人有悲欢离合,月有阴晴圆缺,此事古难全。」 第九行写着: 「但愿人长久,千里共婵娟。」

文章的几个测试案例,大多集中在「玩」的阶段。从效果看,混元图像 3.0 的确在一些细节上比大部分模型更聪明,但能不能真的应用到具体的工业场景,选择继续开源是它最好的答案。

最后,不得不说,生图还是目前 GenAI 里面最火的,模型能不能出圈,仿佛都得靠生图。ChatGPT 靠一张吉卜力风格的照片、Gemini 则是用一张一致性极强的桌面手办,获得了空前的关注。

从风格到一致性,传达的都是这张照片给我们最直接的感觉,而非照片的具体含义。

这大概是视觉动物的特点,一致性过后,AI 图片的下一个大热门,会是什么呢?极强的创意,更极致的细节密度,往真实再进一步。

GitHub 开源地址:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0/blob/main/README_zh_CN.md

提示词手册:

https://docs.qq.com/doc/DUVVadmhCdG9qRXBU

体验地址:

https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陪96岁爷爷在养老院里过新年

陪96岁爷爷在养老院里过新年

澎湃新闻
2026-02-16 22:54:04
马年春晚带火了机器人,机器人卖爆了,就连售价63万元的机器人也秒光

马年春晚带火了机器人,机器人卖爆了,就连售价63万元的机器人也秒光

极目新闻
2026-02-17 11:03:42
大年初一的好消息,乌军取得两年半最大进展

大年初一的好消息,乌军取得两年半最大进展

名人苟或
2026-02-17 15:30:46
一路高歌!大年初一茅台最新行情出炉,飞天系列酒品继续上涨…

一路高歌!大年初一茅台最新行情出炉,飞天系列酒品继续上涨…

火山詩话
2026-02-17 17:21:23
春晚同款机器人卖爆:订单暴增150%,多款上线几分钟被抢购一空!总导演回应“机器人浓度超高”!宇树机器人舞台上“摔倒”,王兴兴发声

春晚同款机器人卖爆:订单暴增150%,多款上线几分钟被抢购一空!总导演回应“机器人浓度超高”!宇树机器人舞台上“摔倒”,王兴兴发声

每日经济新闻
2026-02-17 12:00:27
郭富城曝马年春晚节目结束后,请王一博出来团建被拒,理由超搞笑

郭富城曝马年春晚节目结束后,请王一博出来团建被拒,理由超搞笑

娱最资讯
2026-02-16 20:52:24
直击“中国黄金第一卖场”:1000克金条卖断货,有人拿下68克金镯,价格超10万

直击“中国黄金第一卖场”:1000克金条卖断货,有人拿下68克金镯,价格超10万

时代周报
2026-02-17 16:42:27
山东一家3口人的年夜饭,发朋友圈火了,网友:太寒酸,不忍看!

山东一家3口人的年夜饭,发朋友圈火了,网友:太寒酸,不忍看!

乐悠悠娱乐
2026-02-17 13:29:23
“户口本上就剩自己了”,刘维用AI视频和去世家人除夕团圆,网友泪崩:逝去的亲人会在天堂永远陪着你

“户口本上就剩自己了”,刘维用AI视频和去世家人除夕团圆,网友泪崩:逝去的亲人会在天堂永远陪着你

观威海
2026-02-17 16:14:06
吴京《镖人》首波真实口碑出炉了!观众的打分评价都“一针见血”

吴京《镖人》首波真实口碑出炉了!观众的打分评价都“一针见血”

八卦南风
2026-02-17 19:41:43
三兄弟一起过年不买菜后续: 父母含泪要求分家,当事人发声

三兄弟一起过年不买菜后续: 父母含泪要求分家,当事人发声

观察鉴娱
2026-02-17 16:23:38
日本带给美国一条好消息:特朗普最想要的稀土,在海底找到了?

日本带给美国一条好消息:特朗普最想要的稀土,在海底找到了?

空天力量
2026-02-16 13:08:47
英法德等五国联合声明,俄方发声

英法德等五国联合声明,俄方发声

扬子晚报
2026-02-17 18:43:46
冬奥会女选手夺冠时激动拉开上衣,露出内衣品牌,或将因此赚得100万美元!

冬奥会女选手夺冠时激动拉开上衣,露出内衣品牌,或将因此赚得100万美元!

大象新闻
2026-02-17 17:43:34
大年初一凌晨,冬奥会奖牌榜更新!中国队仍0金牌,谷爱凌创历史

大年初一凌晨,冬奥会奖牌榜更新!中国队仍0金牌,谷爱凌创历史

侃球熊弟
2026-02-17 06:25:35
王毅警告日本后,新加坡对日态度大变,高市突然给全体华人拜年

王毅警告日本后,新加坡对日态度大变,高市突然给全体华人拜年

东极妙严
2026-02-17 09:08:55
黄酒再次被关注!医生发现:脑梗病人喝黄酒,不用多久或有7变化

黄酒再次被关注!医生发现:脑梗病人喝黄酒,不用多久或有7变化

蜉蝣说
2026-02-17 18:20:43
马年春节给乌克兰人三个祝福;美、荷退役飞行员为乌驾驶F-16

马年春节给乌克兰人三个祝福;美、荷退役飞行员为乌驾驶F-16

近距离
2026-02-17 14:00:38
川普再发声:如果被绑架的老人死亡,将处决绑匪

川普再发声:如果被绑架的老人死亡,将处决绑匪

大洛杉矶LA
2026-02-17 03:23:47
一周内,在苏丹战场,中国防空系统第二次被摧毁

一周内,在苏丹战场,中国防空系统第二次被摧毁

兵国大事
2026-02-16 13:31:53
2026-02-17 21:51:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6110文章数 26771关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

企业家给全村70岁以上老人发红包 老人:他比亲儿子还亲

头条要闻

企业家给全村70岁以上老人发红包 老人:他比亲儿子还亲

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

手机
时尚
本地
公开课
军事航空

手机要闻

行业首次:华为Mate 80系列圆满完成央视春晚最高规格直播考验

今年春天最流行的4组配色,过年穿时髦又高级!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国国务卿鲁比奥发表农历新年祝福

无障碍浏览 进入关怀版