网易首页 > 网易号 > 正文 申请入驻

超越 Nano Banana,这个国产 AI 刚刚拿下全球生图第一 | 附详细体验

0
分享至

这几天 AI 圈都在被 Sora 2 刷屏,没想到国产 AI 也悄咪咪地干了票大的。

腾讯的混元图像大模型 3.0,才发布一周,就在全球最硬核的 AI 竞技场 LMArena 上杀疯了——在26 个全球顶级模型混战,拿下文生图全球榜单的 Top 1


这可不是什么野榜,LMArena 是加州大学伯克利分校搞的,纯靠全球网友「盲测」投票,谁好谁坏,全凭真实体验说话。

简单说,就是把所有模型的名字都遮住,让你凭感觉二选一,选出你更喜欢的那张图。这种机制下拿第一,含金量可想而知。

LMArena 官方也发文祝贺,说这是「文生图排行榜大洗牌」,称混元图像 3.0 已经超过了 Google 爆火的 nano banana。


腾讯这个开源模型实打实把一众顶级闭源模型都给「干沉默」了.

APPSO 也深度体验了混元图像大模型 3.0,再次分享给大家。中秋佳节将至,不妨用它来传达些有意思的祝福,APPSO 预祝大家团团圆圆 阖家欢乐 。


混元图像 3.0 的最大的亮点是,不仅能画图,还能准确「理解」,和利用世界知识「推理」

比如我们想做一张广告海报,它能把商品画出来,还顺手把文字排版好;想做一套漫画,输入一句话,它就能帮我们画好分镜。

听起来是很强,但也让人好奇,它真能替代设计师吗?还是只是多了点「聪明」的生图?

毕竟我们手上已经有 nano banana 这样强大的图像编辑模型,更不用说其他层出不穷的生图模型。


体验地址:https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual

在开始我们的实测之前,先看看这次 3.0 更新了什么内容。

这是首个开源的工业级原生多模态生图模型。多模态的能力,意味着它不仅能画画,还具备语言模型的理解和推理能力,在画之前,它可以先想清楚要画什么。

开源方面,混元图像 3.0 的体量和能力都处于最前列,参数规模高达 80B,是目前最大的开源生图模型。


腾讯混元图像 3.0 模型框架图,80B 参数的 MoE 结构

原生多模态架构,也让一个模型,就可以同时处理文字、图像、视频、音频的输入输出,而不是把几个不同模型拼凑在一起;

此外,文本生成的能力,也是混元图像 3.0 的一大主打,它号称能解析千字级别的复杂语义内容,精确生成长文本文字。

腾讯混元把它形容成一个自带「大脑」的画家。用户只需给出大方向,它就能用常识和世界知识把画面补全,生成真实、细腻、带有美学质感的图像。


采用了常用于评估图像生成效果的 GSB(好/一样/差)评价方法。总共使用了1000 个文本提示,100 多名专业评估人员,混元图像 3.0 与 nano banana 和字节跳动的 Seedream,以及 GPT-IMG 对比,一样好的情况占比最多,而深灰色部分,则代表混元图像 3.0 更好,浅灰色代表用来对比的模型更好。

光说不练假把式。从常识到创意,从专业到玩梗,我们用不同的提示词,全方位地测试了这个混元图像 3.0 模型的生图能力,结果低估它了?

体验地址:

https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual

提示词手册:

https://docs.qq.com/doc/DUVVadmhCdG9qRXBU

GitHub 开源地址:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0/blob/main/README_zh_CN.md

世界知识和推理,AI 像人一样画画

有了世界知识,最大的好处,我们的提示词可以更像人话。就像下面这张图,我们直接告诉它 labubu,而不用专门去描述 labubu 这个形象具体是什么样。


生成一个画出 labubu 的四宫格素描画流程

而一些特定的知识上,它似乎也有查询的能力,并应用在图像生成的过程中。像下面这张图片,我的提示词只有 3 号线、客村站这些信息,但是模型推理出下一站是广州塔、珠江新城、体育西路。

更令我感到惊喜的是,混元图像 3.0 对文字生成的把控,几乎是做到了精准还原。


广州地铁客村站站台实拍图,屏蔽门顶部有显示3号线的站点情况

我们也用 nano banana、ChatGPT、和豆包生成同样的照片,结果是,都只能根据我输入提示词的信息来生图,线路站点信息,有些是文字渲染完全不行、有些是信息错误、还有直接显示「3 号线站点信息」几个字的。

一时间不知道是该夸,服从用户指令,还是说它知识学习得不够多。不过 Seedream 给我的感觉,整张图片的风格,是「AI 味」最少的。





向左滑动查看更多内容; 从左到右依次为 nano banana、ChatGPT、Seedream 4.0 和豆包

能够利用世界知识进行推理,给了生图模型更多的潜在玩法。就像开头我们的 labubu 四宫格素描图,可以扩展到做一些知识点的讲解,这些经常在社交媒体平台上刷到的,漫画科普小卡片。


生成一个月全食的四格科普漫画

混元官方也给出了类似四宫格漫画的提示词指南,帮助我们单抽出金。

开篇表明是四宫格漫画:「一幅黑白四格漫画。」

分格子描述画面:「第一格,xxx。第二格,xxx。第三格,xxx。第四格,xxx。」

可以展开你的想象,填充细节,这样效果会更好。

想要高级感,很吃提示词

官方在它们 GitHub 仓库放出的几张图片,我第一眼看到,想到的是朋友圈的那些模板封面图,高级感真的拉满。



向左滑动查看更多内容, 这几张 AI 图片的提示词都在 500 个字以上,具体提示词可访问:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

但我自己用一些简单的提示词,让混元图像 3.0 去做的时候,出来的图片 AI 味是非常重的,甚至给我一种,这不像是 2025 年生图模型的效果。



向左滑动查看更多内容;提示词:一张特写照片,展示一只金吉拉英短猫坐在办公桌前,它有着圆润的金色毛发,眼睛是橄榄绿色的。猫咪的右爪(从观察者角度看是左爪)放在一个黑色的电脑鼠标上,身体微微倾向左侧,头稍稍低下。它的左爪(从观察者角度看是右爪)弯曲,掌心向上,托着下巴,一副若有所思的表情。 猫咪脖子上挂着一个透明的胸牌,胸牌里是一张它自己的肖像照,照片中的猫咪头部特写,表情严肃。背景是一个模糊的办公室环境,可以看到一些办公桌、电脑屏幕和坐在椅子上的模糊人影,光线柔和,营造出一种日常的办公氛围。 日常拍照风格,照片的整体色调偏暖,带有轻微的复古滤镜效果,光线主要从前方照射,使得猫咪的毛发看起来柔软且富有层次感。猫咪的胡须清晰可见,毛发质感细腻,眼神充满好奇与专注。景深较浅,猫咪是画面的绝对焦点。

在提示词里面,我们已经用了「日常拍照风格」、「复古滤镜」等风格化用词,但是最后的成片,还是高饱和度、高亮度。

官方给出的摄影风格,提示词参考技巧是,主体场景+画质风格+构图视角+光线氛围+技术参数。

我们又照着这个格式,重新测试了一回,效果上确实好了一些。指定多少毫米的镜头,在提示词里面,确定这类技术参数,我认为是生成真实图片的关键。



向左滑动查看更多内容; 原图的提示词是照着朋友圈的模板封面来写的。 提示词:主体场景: 一只纯黑色的短毛猫,身形修长优雅,拥有明亮且引人注目的琥珀色眼睛,眼神充满好奇与警觉。它半侧身地躺卧或半坐在一张深灰色布艺沙发的角落里,身体的大部分融入阴影中,只露出头部和一部分身体轮廓。 画质风格: 高质量的数字摄影,带有电影感的氛围,画质清晰细腻,猫咪的毛发质感柔软而富有光泽。整体色调偏暗,但在暗部细节仍有保留,营造出一种神秘而高级的视觉感受。 构图视角: 从略高于猫咪的俯视角度进行拍摄,猫咪的头部位于画面偏左侧的中心位置,它的眼睛正视镜头。沙发边缘将画面自然地分成两部分,引导视线集中在猫咪身上。 光线氛围: 室内环境,光线非常昏暗,主要依靠沙发背面或侧面反射的微弱环境光以及猫咪自身眼睛的光泽来照亮。光线柔和,营造出强烈的阴影和高对比度,使得猫咪的黑色毛发与深色背景融为一体,只有眼睛和部分面部细节被突出照亮。 技术参数: 高分辨率,浅景深。使用一支85mm f/1.8大光圈定焦镜头拍摄,以创造强烈的背景虚化和主体分离效果。ISO值适中以保持画质,使用专业级全画幅相机,后期略微调整对比度和饱和度,突出暗部细节。

但还是很难抽到「AI 味」没那么重的图片,目前混元图像 3.0 也只支持文生图,图像的编辑功能暂时还没有上线,所以对提示词的要求,变得更高。

腾讯混元团队透露,图生图、图像编辑、以及多轮交互等版本将在后续发布。

国外模型的难点,长文本生成

真实照片的摄影风格比较不如意,其他风格化,像是卡通、漫画以及不同材质的渲染,混元图像 3.0 的表现确实不错,以及还有一项长文本的生成能力。


画一个咖啡店的菜单黑板,上面写着:拿铁 - 30元,美式 - 25元,卡布奇诺 - 28元。

而更复杂的文字,也需要掌握一些官方给出的技巧。

将大段的文字拆成多句并使用多个引号,文字会更准确。同时,文字的准确性与 prompt 描述的布局方式有一定关联。可以尝试以下的策略:

(a)在渲染的文本前使用「第几行写着」、「左边写着」之类提示布局信息的词

(b)修改图片长宽比

(c)换一种内容布局的方式(如左右布局换成上下布局)


皓月当空的背景,上面映着苏轼的一首词: 第一行写着: 「水调歌头·明月几时有」,「苏轼」, 第二行写着: 「明月几时有?把酒问青天。」 第三行写着: 「不知天上宫阙,今夕是何年。」 第四行写着: 「我欲乘风归去,惟恐琼楼玉宇,高处不胜寒。」 第五行写着: 「起舞弄清影,何似在人间。」 第六行写着: 「转朱阁,低绮户,照无眠。」 第七行写着: 「不应有恨,何事长向别时圆?」 第八行写着: 「人有悲欢离合,月有阴晴圆缺,此事古难全。」 第九行写着: 「但愿人长久,千里共婵娟。」

文章的几个测试案例,大多集中在「玩」的阶段。从效果看,混元图像 3.0 的确在一些细节上比大部分模型更聪明,但能不能真的应用到具体的工业场景,选择继续开源是它最好的答案。

最后,不得不说,生图还是目前 GenAI 里面最火的,模型能不能出圈,仿佛都得靠生图。ChatGPT 靠一张吉卜力风格的照片、Gemini 则是用一张一致性极强的桌面手办,获得了空前的关注。

从风格到一致性,传达的都是这张照片给我们最直接的感觉,而非照片的具体含义。

这大概是视觉动物的特点,一致性过后,AI 图片的下一个大热门,会是什么呢?极强的创意,更极致的细节密度,往真实再进一步。

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
总统被掳走后,委内瑞拉股市2026年已接近翻倍

总统被掳走后,委内瑞拉股市2026年已接近翻倍

凯利经济观察
2026-01-08 09:33:42
百亿美元比特币巨鳄落网,起底柬埔寨赌诈“教父”陈志

百亿美元比特币巨鳄落网,起底柬埔寨赌诈“教父”陈志

南方都市报
2026-01-08 20:07:09
宜家的问题已经挺严重了

宜家的问题已经挺严重了

蔚然未来消费
2026-01-08 08:34:50
俄罗斯赤道特遣队撤回国内,美国捕马撕去莫斯科最后一块遮羞布

俄罗斯赤道特遣队撤回国内,美国捕马撕去莫斯科最后一块遮羞布

史政先锋
2026-01-07 19:38:07
一条新闻消失了

一条新闻消失了

深蓝财经
2026-01-07 14:22:05
中到大雪局部暴雪!山东迎强冷空气,最低温-10℃,9级大风+降温组团来袭

中到大雪局部暴雪!山东迎强冷空气,最低温-10℃,9级大风+降温组团来袭

齐鲁壹点
2026-01-08 16:23:17
法官隐名 :一场悄无声息的XXX

法官隐名 :一场悄无声息的XXX

呦呦鹿鸣
2026-01-07 22:12:24
忍无可忍!篮球专家痛批:直播搬到菜市场,CBA早晚要出事

忍无可忍!篮球专家痛批:直播搬到菜市场,CBA早晚要出事

体育哲人
2026-01-08 12:46:07
瑟瑟发抖!不到24小时,日本失去动武资格,中国再宣布对日新制裁

瑟瑟发抖!不到24小时,日本失去动武资格,中国再宣布对日新制裁

离离言几许
2026-01-07 22:38:54
郭艾伦伤停!浙江35分狂胜广州 徐昕仅2分陆文博16+4三分

郭艾伦伤停!浙江35分狂胜广州 徐昕仅2分陆文博16+4三分

醉卧浮生
2026-01-08 21:09:49
唏嘘!34岁J罗失业第8天+5年遭7队抛弃 全网投简历求职无人回应他

唏嘘!34岁J罗失业第8天+5年遭7队抛弃 全网投简历求职无人回应他

风过乡
2026-01-08 20:41:14
上海通报:公职人员沈剑被查,涉嫌严重违纪违法

上海通报:公职人员沈剑被查,涉嫌严重违纪违法

上观新闻
2026-01-08 12:10:08
终于轮到日本“强烈抗议”:130年了,日本从未像今天这样憋屈

终于轮到日本“强烈抗议”:130年了,日本从未像今天这样憋屈

小陈讲史
2026-01-08 11:57:03
朝鲜不会成为第二个委内瑞拉!因为朝鲜有两个后盾

朝鲜不会成为第二个委内瑞拉!因为朝鲜有两个后盾

米君文史
2026-01-07 10:01:47
美媒曝光:美国出动海豹突击队在北大西洋扣押“贝拉1”号油轮

美媒曝光:美国出动海豹突击队在北大西洋扣押“贝拉1”号油轮

环球网资讯
2026-01-08 14:46:06
河北农村怎么才能不挨冻?大V:在河北农村盖着16斤棉被,鼻子被冻伤

河北农村怎么才能不挨冻?大V:在河北农村盖着16斤棉被,鼻子被冻伤

六子吃凉粉
2026-01-08 08:39:04
女子酒后跳河自杀身亡,孩子才两岁半!丈夫向共同饮酒者和出租车司机索赔被驳回

女子酒后跳河自杀身亡,孩子才两岁半!丈夫向共同饮酒者和出租车司机索赔被驳回

红星新闻
2026-01-08 21:46:42
周琦专访:赵睿当初的首选不是首钢;合作最舒服的后卫是赵继伟

周琦专访:赵睿当初的首选不是首钢;合作最舒服的后卫是赵继伟

懂球帝
2026-01-08 20:06:44
访华第2天,李在明得偿所愿,不到24小时,高市对中国提出2个请求

访华第2天,李在明得偿所愿,不到24小时,高市对中国提出2个请求

近史博览
2026-01-08 09:36:51
疯传!王石的瓜,好狗血!

疯传!王石的瓜,好狗血!

财经要参
2026-01-05 22:13:08
2026-01-08 22:24:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
5999文章数 26740关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

时尚
教育
健康
旅游
本地

190万赞的爆款女孩,等待代表作

教育要闻

经常问这七个问题,足以改变孩子一生

这些新疗法,让化疗不再那么痛苦

旅游要闻

大道之行 | 沪苏浙交界处的“共享客厅”:一院跨三地,一眼长三角

本地新闻

1986-2026,一通电话的时空旅程

无障碍浏览 进入关怀版