网易首页 > 网易号 > 正文 申请入驻

超越 Nano Banana,这个国产 AI 刚刚拿下全球生图第一 | 附详细体验

0
分享至

这几天 AI 圈都在被 Sora 2 刷屏,没想到国产 AI 也悄咪咪地干了票大的。

腾讯的混元图像大模型 3.0,才发布一周,就在全球最硬核的 AI 竞技场 LMArena 上杀疯了——在26 个全球顶级模型混战,拿下文生图全球榜单的 Top 1


这可不是什么野榜,LMArena 是加州大学伯克利分校搞的,纯靠全球网友「盲测」投票,谁好谁坏,全凭真实体验说话。

简单说,就是把所有模型的名字都遮住,让你凭感觉二选一,选出你更喜欢的那张图。这种机制下拿第一,含金量可想而知。

LMArena 官方也发文祝贺,说这是「文生图排行榜大洗牌」,称混元图像 3.0 已经超过了 Google 爆火的 nano banana。


腾讯这个开源模型实打实把一众顶级闭源模型都给「干沉默」了.

APPSO 也深度体验了混元图像大模型 3.0,再次分享给大家。中秋佳节将至,不妨用它来传达些有意思的祝福,APPSO 预祝大家团团圆圆 阖家欢乐 。


混元图像 3.0 的最大的亮点是,不仅能画图,还能准确「理解」,和利用世界知识「推理」

比如我们想做一张广告海报,它能把商品画出来,还顺手把文字排版好;想做一套漫画,输入一句话,它就能帮我们画好分镜。

听起来是很强,但也让人好奇,它真能替代设计师吗?还是只是多了点「聪明」的生图?

毕竟我们手上已经有 nano banana 这样强大的图像编辑模型,更不用说其他层出不穷的生图模型。


体验地址:https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual

在开始我们的实测之前,先看看这次 3.0 更新了什么内容。

这是首个开源的工业级原生多模态生图模型。多模态的能力,意味着它不仅能画画,还具备语言模型的理解和推理能力,在画之前,它可以先想清楚要画什么。

开源方面,混元图像 3.0 的体量和能力都处于最前列,参数规模高达 80B,是目前最大的开源生图模型。


腾讯混元图像 3.0 模型框架图,80B 参数的 MoE 结构

原生多模态架构,也让一个模型,就可以同时处理文字、图像、视频、音频的输入输出,而不是把几个不同模型拼凑在一起;

此外,文本生成的能力,也是混元图像 3.0 的一大主打,它号称能解析千字级别的复杂语义内容,精确生成长文本文字。

腾讯混元把它形容成一个自带「大脑」的画家。用户只需给出大方向,它就能用常识和世界知识把画面补全,生成真实、细腻、带有美学质感的图像。


采用了常用于评估图像生成效果的 GSB(好/一样/差)评价方法。总共使用了1000 个文本提示,100 多名专业评估人员,混元图像 3.0 与 nano banana 和字节跳动的 Seedream,以及 GPT-IMG 对比,一样好的情况占比最多,而深灰色部分,则代表混元图像 3.0 更好,浅灰色代表用来对比的模型更好。

光说不练假把式。从常识到创意,从专业到玩梗,我们用不同的提示词,全方位地测试了这个混元图像 3.0 模型的生图能力,结果低估它了?

体验地址:

https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual

提示词手册:

https://docs.qq.com/doc/DUVVadmhCdG9qRXBU

GitHub 开源地址:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0/blob/main/README_zh_CN.md

世界知识和推理,AI 像人一样画画

有了世界知识,最大的好处,我们的提示词可以更像人话。就像下面这张图,我们直接告诉它 labubu,而不用专门去描述 labubu 这个形象具体是什么样。


生成一个画出 labubu 的四宫格素描画流程

而一些特定的知识上,它似乎也有查询的能力,并应用在图像生成的过程中。像下面这张图片,我的提示词只有 3 号线、客村站这些信息,但是模型推理出下一站是广州塔、珠江新城、体育西路。

更令我感到惊喜的是,混元图像 3.0 对文字生成的把控,几乎是做到了精准还原。


广州地铁客村站站台实拍图,屏蔽门顶部有显示3号线的站点情况

我们也用 nano banana、ChatGPT、和豆包生成同样的照片,结果是,都只能根据我输入提示词的信息来生图,线路站点信息,有些是文字渲染完全不行、有些是信息错误、还有直接显示「3 号线站点信息」几个字的。

一时间不知道是该夸,服从用户指令,还是说它知识学习得不够多。不过 Seedream 给我的感觉,整张图片的风格,是「AI 味」最少的。





向左滑动查看更多内容; 从左到右依次为 nano banana、ChatGPT、Seedream 4.0 和豆包

能够利用世界知识进行推理,给了生图模型更多的潜在玩法。就像开头我们的 labubu 四宫格素描图,可以扩展到做一些知识点的讲解,这些经常在社交媒体平台上刷到的,漫画科普小卡片。


生成一个月全食的四格科普漫画

混元官方也给出了类似四宫格漫画的提示词指南,帮助我们单抽出金。

开篇表明是四宫格漫画:「一幅黑白四格漫画。」

分格子描述画面:「第一格,xxx。第二格,xxx。第三格,xxx。第四格,xxx。」

可以展开你的想象,填充细节,这样效果会更好。

想要高级感,很吃提示词

官方在它们 GitHub 仓库放出的几张图片,我第一眼看到,想到的是朋友圈的那些模板封面图,高级感真的拉满。



向左滑动查看更多内容, 这几张 AI 图片的提示词都在 500 个字以上,具体提示词可访问:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

但我自己用一些简单的提示词,让混元图像 3.0 去做的时候,出来的图片 AI 味是非常重的,甚至给我一种,这不像是 2025 年生图模型的效果。



向左滑动查看更多内容;提示词:一张特写照片,展示一只金吉拉英短猫坐在办公桌前,它有着圆润的金色毛发,眼睛是橄榄绿色的。猫咪的右爪(从观察者角度看是左爪)放在一个黑色的电脑鼠标上,身体微微倾向左侧,头稍稍低下。它的左爪(从观察者角度看是右爪)弯曲,掌心向上,托着下巴,一副若有所思的表情。 猫咪脖子上挂着一个透明的胸牌,胸牌里是一张它自己的肖像照,照片中的猫咪头部特写,表情严肃。背景是一个模糊的办公室环境,可以看到一些办公桌、电脑屏幕和坐在椅子上的模糊人影,光线柔和,营造出一种日常的办公氛围。 日常拍照风格,照片的整体色调偏暖,带有轻微的复古滤镜效果,光线主要从前方照射,使得猫咪的毛发看起来柔软且富有层次感。猫咪的胡须清晰可见,毛发质感细腻,眼神充满好奇与专注。景深较浅,猫咪是画面的绝对焦点。

在提示词里面,我们已经用了「日常拍照风格」、「复古滤镜」等风格化用词,但是最后的成片,还是高饱和度、高亮度。

官方给出的摄影风格,提示词参考技巧是,主体场景+画质风格+构图视角+光线氛围+技术参数。

我们又照着这个格式,重新测试了一回,效果上确实好了一些。指定多少毫米的镜头,在提示词里面,确定这类技术参数,我认为是生成真实图片的关键。



向左滑动查看更多内容; 原图的提示词是照着朋友圈的模板封面来写的。 提示词:主体场景: 一只纯黑色的短毛猫,身形修长优雅,拥有明亮且引人注目的琥珀色眼睛,眼神充满好奇与警觉。它半侧身地躺卧或半坐在一张深灰色布艺沙发的角落里,身体的大部分融入阴影中,只露出头部和一部分身体轮廓。 画质风格: 高质量的数字摄影,带有电影感的氛围,画质清晰细腻,猫咪的毛发质感柔软而富有光泽。整体色调偏暗,但在暗部细节仍有保留,营造出一种神秘而高级的视觉感受。 构图视角: 从略高于猫咪的俯视角度进行拍摄,猫咪的头部位于画面偏左侧的中心位置,它的眼睛正视镜头。沙发边缘将画面自然地分成两部分,引导视线集中在猫咪身上。 光线氛围: 室内环境,光线非常昏暗,主要依靠沙发背面或侧面反射的微弱环境光以及猫咪自身眼睛的光泽来照亮。光线柔和,营造出强烈的阴影和高对比度,使得猫咪的黑色毛发与深色背景融为一体,只有眼睛和部分面部细节被突出照亮。 技术参数: 高分辨率,浅景深。使用一支85mm f/1.8大光圈定焦镜头拍摄,以创造强烈的背景虚化和主体分离效果。ISO值适中以保持画质,使用专业级全画幅相机,后期略微调整对比度和饱和度,突出暗部细节。

但还是很难抽到「AI 味」没那么重的图片,目前混元图像 3.0 也只支持文生图,图像的编辑功能暂时还没有上线,所以对提示词的要求,变得更高。

腾讯混元团队透露,图生图、图像编辑、以及多轮交互等版本将在后续发布。

国外模型的难点,长文本生成

真实照片的摄影风格比较不如意,其他风格化,像是卡通、漫画以及不同材质的渲染,混元图像 3.0 的表现确实不错,以及还有一项长文本的生成能力。


画一个咖啡店的菜单黑板,上面写着:拿铁 - 30元,美式 - 25元,卡布奇诺 - 28元。

而更复杂的文字,也需要掌握一些官方给出的技巧。

将大段的文字拆成多句并使用多个引号,文字会更准确。同时,文字的准确性与 prompt 描述的布局方式有一定关联。可以尝试以下的策略:

(a)在渲染的文本前使用「第几行写着」、「左边写着」之类提示布局信息的词

(b)修改图片长宽比

(c)换一种内容布局的方式(如左右布局换成上下布局)


皓月当空的背景,上面映着苏轼的一首词: 第一行写着: 「水调歌头·明月几时有」,「苏轼」, 第二行写着: 「明月几时有?把酒问青天。」 第三行写着: 「不知天上宫阙,今夕是何年。」 第四行写着: 「我欲乘风归去,惟恐琼楼玉宇,高处不胜寒。」 第五行写着: 「起舞弄清影,何似在人间。」 第六行写着: 「转朱阁,低绮户,照无眠。」 第七行写着: 「不应有恨,何事长向别时圆?」 第八行写着: 「人有悲欢离合,月有阴晴圆缺,此事古难全。」 第九行写着: 「但愿人长久,千里共婵娟。」

文章的几个测试案例,大多集中在「玩」的阶段。从效果看,混元图像 3.0 的确在一些细节上比大部分模型更聪明,但能不能真的应用到具体的工业场景,选择继续开源是它最好的答案。

最后,不得不说,生图还是目前 GenAI 里面最火的,模型能不能出圈,仿佛都得靠生图。ChatGPT 靠一张吉卜力风格的照片、Gemini 则是用一张一致性极强的桌面手办,获得了空前的关注。

从风格到一致性,传达的都是这张照片给我们最直接的感觉,而非照片的具体含义。

这大概是视觉动物的特点,一致性过后,AI 图片的下一个大热门,会是什么呢?极强的创意,更极致的细节密度,往真实再进一步。

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
经中央军委批准,全军今起制发启用

经中央军委批准,全军今起制发启用

日照日报
2026-03-01 14:39:13
台关注我军机活动“断崖式锐减”动因

台关注我军机活动“断崖式锐减”动因

沃德舆情观察
2026-02-28 23:26:00
胜中国台北发布会!郭士强直指团队赞陈盈骏表现,赵继伟大谈血性

胜中国台北发布会!郭士强直指团队赞陈盈骏表现,赵继伟大谈血性

篮球资讯达人
2026-03-01 18:42:53
伊朗外长:美以打完后,愿重启谈判

伊朗外长:美以打完后,愿重启谈判

观察者网
2026-03-01 08:39:35
32+5+8,杜兰特无缘今日最佳,抱歉,因为你遇到100%的詹姆斯

32+5+8,杜兰特无缘今日最佳,抱歉,因为你遇到100%的詹姆斯

体育新角度
2026-03-01 15:44:26
彻底没油!本赛季打完,这6大球星大概率退役!5人还是全明星常客

彻底没油!本赛季打完,这6大球星大概率退役!5人还是全明星常客

毒舌NBA
2026-03-01 20:18:44
近10万黄金被女儿误当垃圾扔了,妈妈13小时后才发现,物业:这批垃圾已被送往焚烧厂处理,目前正在跟进

近10万黄金被女儿误当垃圾扔了,妈妈13小时后才发现,物业:这批垃圾已被送往焚烧厂处理,目前正在跟进

极目新闻
2026-03-01 19:02:27
浓烟滚滚!中国高清卫星图显示美军基地被击中

浓烟滚滚!中国高清卫星图显示美军基地被击中

武器纵论
2026-03-01 18:58:38
中方奉陪到底!访华迟迟没回复,特朗普掀桌了,要废除中国一地位

中方奉陪到底!访华迟迟没回复,特朗普掀桌了,要废除中国一地位

史行途
2026-03-01 14:24:27
绝情臭豆腐事件大结局:店老板发声,双方已和解,赔偿金额已到账

绝情臭豆腐事件大结局:店老板发声,双方已和解,赔偿金额已到账

潮鹿逐梦
2026-02-28 21:25:16
油价最新调整通知!

油价最新调整通知!

琅琊新闻网
2026-03-01 15:07:11
伊朗革命卫队宣布大规模军事行动

伊朗革命卫队宣布大规模军事行动

界面新闻
2026-02-28 18:18:55
今天下午浦东新区建桥学院门前道路塌陷 多部门迅速应急抢险

今天下午浦东新区建桥学院门前道路塌陷 多部门迅速应急抢险

上观新闻
2026-03-01 20:47:41
都说不去日本,春节赴日的却是这群人!日媒暗访揭开真相

都说不去日本,春节赴日的却是这群人!日媒暗访揭开真相

壹知眠羊
2026-02-25 22:18:18
被加拿大养父母抛弃,回国认亲的张云鹏经历悲惨,亲爹妈早已离异

被加拿大养父母抛弃,回国认亲的张云鹏经历悲惨,亲爹妈早已离异

观察鉴娱
2026-03-01 14:36:25
死了白死?俄方绝口不提贝加尔湖惨剧赔偿 中日美此类案例都有赔款

死了白死?俄方绝口不提贝加尔湖惨剧赔偿 中日美此类案例都有赔款

劲爆体坛
2026-02-28 18:30:13
8.7分,年度最佳!想向全人类推荐这部剧

8.7分,年度最佳!想向全人类推荐这部剧

吐槽电影院
2026-02-27 15:08:55
“史诗怒火”,美以正式开打

“史诗怒火”,美以正式开打

难得君
2026-02-28 17:42:42
放假半天!不补休

放假半天!不补休

小易商丘
2026-03-01 10:00:47
51死60伤!美以为何空袭伊朗小学?专家:或为全面威慑伊朗,或属“误伤”,未来几天三方行动是关键

51死60伤!美以为何空袭伊朗小学?专家:或为全面威慑伊朗,或属“误伤”,未来几天三方行动是关键

极目新闻
2026-02-28 22:09:29
2026-03-01 21:35:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6146文章数 26789关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

伊朗代表在安理会会议上直接警告美方:建议你保持礼貌

头条要闻

伊朗代表在安理会会议上直接警告美方:建议你保持礼貌

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

《江山为聘》:吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

房产
亲子
艺术
公开课
军事航空

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

亲子要闻

春日敏感肌自救指南,你get了吗?

艺术要闻

2025年第二届少儿美术教师作品展 | 油画选刊

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗最高领袖哈梅内伊遇害 中方回应

无障碍浏览 进入关怀版