网易首页 > 网易号 > 正文 申请入驻

实测开源版 nano banana:更聪明的超长文本渲染,彻底告别 AI 汉字鬼画符

0
分享至

最近腾讯开源了一个新模型——混元图像 3.0。

它的宣传点很直白:不仅能画图,还能准确「理解」,和利用世界知识「推理」。比如我们想做一张广告海报,它能把商品画出来,还顺手把文字排版好;想做一套漫画,输入一句话,它就能帮我们画好分镜。

听起来是很强,但也让人好奇,它真能替代设计师吗?还是只是多了点「聪明」的生图?

毕竟我们手上已经有 nano banana 这样强大的图像编辑模型,更不用说其他层出不穷的生图模型。


体验地址:https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual

在开始我们的实测之前,先看看这次 3.0 更新了什么内容。

这是首个开源的工业级原生多模态生图模型。多模态的能力,意味着它不仅能画画,还具备语言模型的理解和推理能力,在画之前,它可以先想清楚要画什么。

开源方面,混元图像 3.0 的体量和能力都处于最前列,参数规模高达 80B,是目前最大的开源生图模型。


腾讯混元图像 3.0 模型框架图,80B 参数的 MoE 结构

原生多模态架构,也让一个模型,就可以同时处理文字、图像、视频、音频的输入输出,而不是把几个不同模型拼凑在一起;

此外,文本生成的能力,也是混元图像 3.0 的一大主打,它号称能解析千字级别的复杂语义内容,精确生成长文本文字。

腾讯混元把它形容成一个自带「大脑」的画家。用户只需给出大方向,它就能用常识和世界知识把画面补全,生成真实、细腻、带有美学质感的图像。


采用了常用于评估图像生成效果的 GSB(好/一样/差)评价方法。总共使用了1000 个文本提示,100 多名专业评估人员,混元图像 3.0 与 nano banana 和字节跳动的 Seedream,以及 GPT-IMG 对比,一样好的情况占比最多,而深灰色部分,则代表混元图像 3.0 更好,浅灰色代表用来对比的模型更好。

光说不练假把式。从常识到创意,从专业到玩梗,我们用不同的提示词,全方位地测试了这个混元图像 3.0 模型的生图能力,结果低估它了?

世界知识和推理,AI 像人一样画画

有了世界知识,最大的好处,我们的提示词可以更像人话。就像下面这张图,我们直接告诉它 labubu,而不用专门去描述 labubu 这个形象具体是什么样。


生成一个画出 labubu 的四宫格素描画流程

而一些特定的知识上,它似乎也有查询的能力,并应用在图像生成的过程中。像下面这张图片,我的提示词只有 3 号线、客村站这些信息,但是模型推理出下一站是广州塔、珠江新城、体育西路。

更令我感到惊喜的是,混元图像 3.0 对文字生成的把控,几乎是做到了精准还原。


广州地铁客村站站台实拍图,屏蔽门顶部有显示3号线的站点情况

我们也用 nano banana、ChatGPT、和豆包生成同样的照片,结果是,都只能根据我输入提示词的信息来生图,线路站点信息,有些是文字渲染完全不行、有些是信息错误、还有直接显示「3 号线站点信息」几个字的。

一时间不知道是该夸,服从用户指令,还是说它知识学习得不够多。不过 Seedream 给我的感觉,整张图片的风格,是「AI 味」最少的。





向左滑动查看更多内容; 从左到右依次为 nano banana、ChatGPT、Seedream 4.0 和豆包

能够利用世界知识进行推理,给了生图模型更多的潜在玩法。就像开头我们的 labubu 四宫格素描图,可以扩展到做一些知识点的讲解,这些经常在社交媒体平台上刷到的,漫画科普小卡片。


生成一个月全食的四格科普漫画

混元官方也给出了类似四宫格漫画的提示词指南,帮助我们单抽出金。

开篇表明是四宫格漫画:「一幅黑白四格漫画。」

分格子描述画面:「第一格,xxx。第二格,xxx。第三格,xxx。第四格,xxx。」

可以展开你的想象,填充细节,这样效果会更好。

想要高级感,很吃提示词

官方在它们 GitHub 仓库放出的几张图片,我第一眼看到,想到的是朋友圈的那些模板封面图,高级感真的拉满。



向左滑动查看更多内容, 这几张 AI 图片的提示词都在 500 个字以上,具体提示词可访问:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

但我自己用一些简单的提示词,让混元图像 3.0 去做的时候,出来的图片 AI 味是非常重的,甚至给我一种,这不像是 2025 年生图模型的效果。



向左滑动查看更多内容;提示词:一张特写照片,展示一只金吉拉英短猫坐在办公桌前,它有着圆润的金色毛发,眼睛是橄榄绿色的。猫咪的右爪(从观察者角度看是左爪)放在一个黑色的电脑鼠标上,身体微微倾向左侧,头稍稍低下。它的左爪(从观察者角度看是右爪)弯曲,掌心向上,托着下巴,一副若有所思的表情。 猫咪脖子上挂着一个透明的胸牌,胸牌里是一张它自己的肖像照,照片中的猫咪头部特写,表情严肃。背景是一个模糊的办公室环境,可以看到一些办公桌、电脑屏幕和坐在椅子上的模糊人影,光线柔和,营造出一种日常的办公氛围。 日常拍照风格,照片的整体色调偏暖,带有轻微的复古滤镜效果,光线主要从前方照射,使得猫咪的毛发看起来柔软且富有层次感。猫咪的胡须清晰可见,毛发质感细腻,眼神充满好奇与专注。景深较浅,猫咪是画面的绝对焦点。

在提示词里面,我们已经用了「日常拍照风格」、「复古滤镜」等风格化用词,但是最后的成片,还是高饱和度、高亮度。

官方给出的摄影风格,提示词参考技巧是,主体场景+画质风格+构图视角+光线氛围+技术参数。

我们又照着这个格式,重新测试了一回,效果上确实好了一些。指定多少毫米的镜头,在提示词里面,确定这类技术参数,我认为是生成真实图片的关键。



向左滑动查看更多内容; 原图的提示词是照着朋友圈的模板封面来写的。 提示词:主体场景: 一只纯黑色的短毛猫,身形修长优雅,拥有明亮且引人注目的琥珀色眼睛,眼神充满好奇与警觉。它半侧身地躺卧或半坐在一张深灰色布艺沙发的角落里,身体的大部分融入阴影中,只露出头部和一部分身体轮廓。 画质风格: 高质量的数字摄影,带有电影感的氛围,画质清晰细腻,猫咪的毛发质感柔软而富有光泽。整体色调偏暗,但在暗部细节仍有保留,营造出一种神秘而高级的视觉感受。 构图视角: 从略高于猫咪的俯视角度进行拍摄,猫咪的头部位于画面偏左侧的中心位置,它的眼睛正视镜头。沙发边缘将画面自然地分成两部分,引导视线集中在猫咪身上。 光线氛围: 室内环境,光线非常昏暗,主要依靠沙发背面或侧面反射的微弱环境光以及猫咪自身眼睛的光泽来照亮。光线柔和,营造出强烈的阴影和高对比度,使得猫咪的黑色毛发与深色背景融为一体,只有眼睛和部分面部细节被突出照亮。 技术参数: 高分辨率,浅景深。使用一支85mm f/1.8大光圈定焦镜头拍摄,以创造强烈的背景虚化和主体分离效果。ISO值适中以保持画质,使用专业级全画幅相机,后期略微调整对比度和饱和度,突出暗部细节。

但还是很难抽到「AI 味」没那么重的图片,目前混元图像 3.0 也只支持文生图,图像的编辑功能暂时还没有上线,所以对提示词的要求,变得更高。

腾讯混元团队透露,图生图、图像编辑、以及多轮交互等版本将在后续发布。

国外模型的难点,长文本生成

真实照片的摄影风格比较不如意,其他风格化,像是卡通、漫画以及不同材质的渲染,混元图像 3.0 的表现确实不错,以及还有一项长文本的生成能力。


画一个咖啡店的菜单黑板,上面写着:拿铁 - 30元,美式 - 25元,卡布奇诺 - 28元。

而更复杂的文字,也需要掌握一些官方给出的技巧。

将大段的文字拆成多句并使用多个引号,文字会更准确。同时,文字的准确性与 prompt 描述的布局方式有一定关联。可以尝试以下的策略:

(a)在渲染的文本前使用「第几行写着」、「左边写着」之类提示布局信息的词

(b)修改图片长宽比

(c)换一种内容布局的方式(如左右布局换成上下布局)


皓月当空的背景,上面映着苏轼的一首词: 第一行写着: 「水调歌头·明月几时有」,「苏轼」, 第二行写着: 「明月几时有?把酒问青天。」 第三行写着: 「不知天上宫阙,今夕是何年。」 第四行写着: 「我欲乘风归去,惟恐琼楼玉宇,高处不胜寒。」 第五行写着: 「起舞弄清影,何似在人间。」 第六行写着: 「转朱阁,低绮户,照无眠。」 第七行写着: 「不应有恨,何事长向别时圆?」 第八行写着: 「人有悲欢离合,月有阴晴圆缺,此事古难全。」 第九行写着: 「但愿人长久,千里共婵娟。」

文章的几个测试案例,大多集中在「玩」的阶段。从效果看,混元图像 3.0 的确在一些细节上比大部分模型更聪明,但能不能真的应用到具体的工业场景,选择继续开源是它最好的答案。

最后,不得不说,生图还是目前 GenAI 里面最火的,模型能不能出圈,仿佛都得靠生图。ChatGPT 靠一张吉卜力风格的照片、Gemini 则是用一张一致性极强的桌面手办,获得了空前的关注。

从风格到一致性,传达的都是这张照片给我们最直接的感觉,而非照片的具体含义。

这大概是视觉动物的特点,一致性过后,AI 图片的下一个大热门,会是什么呢?极强的创意,更极致的细节密度,往真实再进一步。

GitHub 开源地址:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0/blob/main/README_zh_CN.md

提示词手册:

https://docs.qq.com/doc/DUVVadmhCdG9qRXBU

体验地址:

https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
55岁窦唯已迁居阿那亚多年,骑电动车,买菜砍价,生活过得惬意

55岁窦唯已迁居阿那亚多年,骑电动车,买菜砍价,生活过得惬意

书雁飞史oh
2025-09-08 17:38:38
中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

肖兹探秘说
2026-01-01 20:16:34
2004年胡宗南女儿询问熊向晖,如何评价其父亲,熊向晖只说一句话

2004年胡宗南女儿询问熊向晖,如何评价其父亲,熊向晖只说一句话

李哥三观很正
2024-08-25 22:12:55
香烟为啥不标保质期?到底能放多久?90% 的老烟民都被蒙在鼓里!

香烟为啥不标保质期?到底能放多久?90% 的老烟民都被蒙在鼓里!

复转这些年
2025-12-29 18:18:35
一身“塑料”却保暖,为啥说聚酯纤维是人类最伟大的发明之一?

一身“塑料”却保暖,为啥说聚酯纤维是人类最伟大的发明之一?

向航说
2025-12-22 00:45:03
“最快女护士”张水华处分文件为内部文件,医院正调查为何泄露,其家人最新回应

“最快女护士”张水华处分文件为内部文件,医院正调查为何泄露,其家人最新回应

潇湘晨报
2025-12-10 19:42:17
笑晕了!观众意识到刘晓庆居然75岁后,李小冉又被拉出来吐槽!

笑晕了!观众意识到刘晓庆居然75岁后,李小冉又被拉出来吐槽!

乐悠悠娱乐
2025-11-11 13:34:17
埃梅里:两个月前决定不买断埃利奥特;他离队将释放引援名额

埃梅里:两个月前决定不买断埃利奥特;他离队将释放引援名额

懂球帝
2026-01-02 23:57:10
李亚鹏确认,靠卖北京房子和直播卖茶具,5000万债务已还清!

李亚鹏确认,靠卖北京房子和直播卖茶具,5000万债务已还清!

荆楚寰宇文枢
2025-12-31 21:55:47
章泽天与网球名将萨巴伦卡合影,却被嘲平胸,脸圆,大腿比较粗!

章泽天与网球名将萨巴伦卡合影,却被嘲平胸,脸圆,大腿比较粗!

小娱乐悠悠
2026-01-02 10:23:42
一对老夫妻的悔悟:退休后,一个错误的决定,让晚年生活大打折扣

一对老夫妻的悔悟:退休后,一个错误的决定,让晚年生活大打折扣

人间百态大全
2026-01-02 06:35:03
现在农村复杂到什么程度了,聊聊村里“可怕的”熟人社会,太深了

现在农村复杂到什么程度了,聊聊村里“可怕的”熟人社会,太深了

三农雷哥
2026-01-02 22:30:53
登基两年即猝死,周武王姬发灭商后的抑郁真相,远比你想象的沉重

登基两年即猝死,周武王姬发灭商后的抑郁真相,远比你想象的沉重

历史人文2
2026-01-02 12:56:38
有一种痛苦叫“买了第四代住宅”,幻想很高级,入住后一言难尽!

有一种痛苦叫“买了第四代住宅”,幻想很高级,入住后一言难尽!

装修秀
2025-12-11 10:45:03
日本右翼天塌了:解放军给美军前所未有的待遇,俄对台海说法已变

日本右翼天塌了:解放军给美军前所未有的待遇,俄对台海说法已变

科普100克克
2025-12-30 00:13:08
溥仪申报户籍时,住址一栏报的是紫禁城,户籍警犹豫着不敢落笔,所长给出主意:你跟着谁住,就写谁家的地址

溥仪申报户籍时,住址一栏报的是紫禁城,户籍警犹豫着不敢落笔,所长给出主意:你跟着谁住,就写谁家的地址

源溯历史
2026-01-02 00:06:19
马斯克预测世界大战时间,大战最可能爆发在两地区

马斯克预测世界大战时间,大战最可能爆发在两地区

妙知
2025-12-29 00:08:32
新疆到底有多干燥?网友:我去新疆,关节积水估计能好

新疆到底有多干燥?网友:我去新疆,关节积水估计能好

带你感受人间冷暖
2025-12-30 00:20:08
我国远箱火箭炮台湾实射,三个没想到,其中两个“闻所未闻”

我国远箱火箭炮台湾实射,三个没想到,其中两个“闻所未闻”

世家宝
2026-01-01 19:50:46
现货金银价格短线下挫

现货金银价格短线下挫

每日经济新闻
2026-01-02 22:58:03
2026-01-03 00:11:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
5982文章数 26738关注度
往期回顾 全部

科技要闻

新势力年榜:零跑险胜华为,蔚来小鹏新高

头条要闻

民调称25%台湾人愿上战场 吕秀莲:围台军演后数据更低

头条要闻

民调称25%台湾人愿上战场 吕秀莲:围台军演后数据更低

体育要闻

快船似乎又行了

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

车企2026开年大促 含16个品牌近70款

汽车要闻

方程豹全年销量超23.4万辆 同比暴增316.1%

态度原创

旅游
本地
数码
公开课
军事航空

旅游要闻

吴哥窟古迹群2025年接待国际游客逾95万人次

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

数码要闻

乌克兰前线士兵曝照:遭炮弹弹片击穿的 MacBook Air 仍能开机工作

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

跨年夜乌军袭击"俄控区"平民 已致27死

无障碍浏览 进入关怀版