网易首页 > 网易号 > 正文 申请入驻

超越 Nano Banana,这个国产 AI 刚刚拿下全球生图第一 | 附详细体验

0
分享至

这几天 AI 圈都在被 Sora 2 刷屏,没想到国产 AI 也悄咪咪地干了票大的。

腾讯的混元图像大模型 3.0,才发布一周,就在全球最硬核的 AI 竞技场 LMArena 上杀疯了——在26 个全球顶级模型混战,拿下文生图全球榜单的 Top 1


这可不是什么野榜,LMArena 是加州大学伯克利分校搞的,纯靠全球网友「盲测」投票,谁好谁坏,全凭真实体验说话。

简单说,就是把所有模型的名字都遮住,让你凭感觉二选一,选出你更喜欢的那张图。这种机制下拿第一,含金量可想而知。

LMArena 官方也发文祝贺,说这是「文生图排行榜大洗牌」,称混元图像 3.0 已经超过了 Google 爆火的 nano banana。


腾讯这个开源模型实打实把一众顶级闭源模型都给「干沉默」了.

APPSO 也深度体验了混元图像大模型 3.0,再次分享给大家。中秋佳节将至,不妨用它来传达些有意思的祝福,APPSO 预祝大家团团圆圆 阖家欢乐 。


混元图像 3.0 的最大的亮点是,不仅能画图,还能准确「理解」,和利用世界知识「推理」

比如我们想做一张广告海报,它能把商品画出来,还顺手把文字排版好;想做一套漫画,输入一句话,它就能帮我们画好分镜。

听起来是很强,但也让人好奇,它真能替代设计师吗?还是只是多了点「聪明」的生图?

毕竟我们手上已经有 nano banana 这样强大的图像编辑模型,更不用说其他层出不穷的生图模型。


体验地址:https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual

在开始我们的实测之前,先看看这次 3.0 更新了什么内容。

这是首个开源的工业级原生多模态生图模型。多模态的能力,意味着它不仅能画画,还具备语言模型的理解和推理能力,在画之前,它可以先想清楚要画什么。

开源方面,混元图像 3.0 的体量和能力都处于最前列,参数规模高达 80B,是目前最大的开源生图模型。


腾讯混元图像 3.0 模型框架图,80B 参数的 MoE 结构

原生多模态架构,也让一个模型,就可以同时处理文字、图像、视频、音频的输入输出,而不是把几个不同模型拼凑在一起;

此外,文本生成的能力,也是混元图像 3.0 的一大主打,它号称能解析千字级别的复杂语义内容,精确生成长文本文字。

腾讯混元把它形容成一个自带「大脑」的画家。用户只需给出大方向,它就能用常识和世界知识把画面补全,生成真实、细腻、带有美学质感的图像。


采用了常用于评估图像生成效果的 GSB(好/一样/差)评价方法。总共使用了1000 个文本提示,100 多名专业评估人员,混元图像 3.0 与 nano banana 和字节跳动的 Seedream,以及 GPT-IMG 对比,一样好的情况占比最多,而深灰色部分,则代表混元图像 3.0 更好,浅灰色代表用来对比的模型更好。

光说不练假把式。从常识到创意,从专业到玩梗,我们用不同的提示词,全方位地测试了这个混元图像 3.0 模型的生图能力,结果低估它了?

体验地址:

https://hunyuan.tencent.com/modelSquare/home/play?modelId=289&from=/visual

提示词手册:

https://docs.qq.com/doc/DUVVadmhCdG9qRXBU

GitHub 开源地址:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0/blob/main/README_zh_CN.md

世界知识和推理,AI 像人一样画画

有了世界知识,最大的好处,我们的提示词可以更像人话。就像下面这张图,我们直接告诉它 labubu,而不用专门去描述 labubu 这个形象具体是什么样。


生成一个画出 labubu 的四宫格素描画流程

而一些特定的知识上,它似乎也有查询的能力,并应用在图像生成的过程中。像下面这张图片,我的提示词只有 3 号线、客村站这些信息,但是模型推理出下一站是广州塔、珠江新城、体育西路。

更令我感到惊喜的是,混元图像 3.0 对文字生成的把控,几乎是做到了精准还原。


广州地铁客村站站台实拍图,屏蔽门顶部有显示3号线的站点情况

我们也用 nano banana、ChatGPT、和豆包生成同样的照片,结果是,都只能根据我输入提示词的信息来生图,线路站点信息,有些是文字渲染完全不行、有些是信息错误、还有直接显示「3 号线站点信息」几个字的。

一时间不知道是该夸,服从用户指令,还是说它知识学习得不够多。不过 Seedream 给我的感觉,整张图片的风格,是「AI 味」最少的。





向左滑动查看更多内容; 从左到右依次为 nano banana、ChatGPT、Seedream 4.0 和豆包

能够利用世界知识进行推理,给了生图模型更多的潜在玩法。就像开头我们的 labubu 四宫格素描图,可以扩展到做一些知识点的讲解,这些经常在社交媒体平台上刷到的,漫画科普小卡片。


生成一个月全食的四格科普漫画

混元官方也给出了类似四宫格漫画的提示词指南,帮助我们单抽出金。

开篇表明是四宫格漫画:「一幅黑白四格漫画。」

分格子描述画面:「第一格,xxx。第二格,xxx。第三格,xxx。第四格,xxx。」

可以展开你的想象,填充细节,这样效果会更好。

想要高级感,很吃提示词

官方在它们 GitHub 仓库放出的几张图片,我第一眼看到,想到的是朋友圈的那些模板封面图,高级感真的拉满。



向左滑动查看更多内容, 这几张 AI 图片的提示词都在 500 个字以上,具体提示词可访问:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

但我自己用一些简单的提示词,让混元图像 3.0 去做的时候,出来的图片 AI 味是非常重的,甚至给我一种,这不像是 2025 年生图模型的效果。



向左滑动查看更多内容;提示词:一张特写照片,展示一只金吉拉英短猫坐在办公桌前,它有着圆润的金色毛发,眼睛是橄榄绿色的。猫咪的右爪(从观察者角度看是左爪)放在一个黑色的电脑鼠标上,身体微微倾向左侧,头稍稍低下。它的左爪(从观察者角度看是右爪)弯曲,掌心向上,托着下巴,一副若有所思的表情。 猫咪脖子上挂着一个透明的胸牌,胸牌里是一张它自己的肖像照,照片中的猫咪头部特写,表情严肃。背景是一个模糊的办公室环境,可以看到一些办公桌、电脑屏幕和坐在椅子上的模糊人影,光线柔和,营造出一种日常的办公氛围。 日常拍照风格,照片的整体色调偏暖,带有轻微的复古滤镜效果,光线主要从前方照射,使得猫咪的毛发看起来柔软且富有层次感。猫咪的胡须清晰可见,毛发质感细腻,眼神充满好奇与专注。景深较浅,猫咪是画面的绝对焦点。

在提示词里面,我们已经用了「日常拍照风格」、「复古滤镜」等风格化用词,但是最后的成片,还是高饱和度、高亮度。

官方给出的摄影风格,提示词参考技巧是,主体场景+画质风格+构图视角+光线氛围+技术参数。

我们又照着这个格式,重新测试了一回,效果上确实好了一些。指定多少毫米的镜头,在提示词里面,确定这类技术参数,我认为是生成真实图片的关键。



向左滑动查看更多内容; 原图的提示词是照着朋友圈的模板封面来写的。 提示词:主体场景: 一只纯黑色的短毛猫,身形修长优雅,拥有明亮且引人注目的琥珀色眼睛,眼神充满好奇与警觉。它半侧身地躺卧或半坐在一张深灰色布艺沙发的角落里,身体的大部分融入阴影中,只露出头部和一部分身体轮廓。 画质风格: 高质量的数字摄影,带有电影感的氛围,画质清晰细腻,猫咪的毛发质感柔软而富有光泽。整体色调偏暗,但在暗部细节仍有保留,营造出一种神秘而高级的视觉感受。 构图视角: 从略高于猫咪的俯视角度进行拍摄,猫咪的头部位于画面偏左侧的中心位置,它的眼睛正视镜头。沙发边缘将画面自然地分成两部分,引导视线集中在猫咪身上。 光线氛围: 室内环境,光线非常昏暗,主要依靠沙发背面或侧面反射的微弱环境光以及猫咪自身眼睛的光泽来照亮。光线柔和,营造出强烈的阴影和高对比度,使得猫咪的黑色毛发与深色背景融为一体,只有眼睛和部分面部细节被突出照亮。 技术参数: 高分辨率,浅景深。使用一支85mm f/1.8大光圈定焦镜头拍摄,以创造强烈的背景虚化和主体分离效果。ISO值适中以保持画质,使用专业级全画幅相机,后期略微调整对比度和饱和度,突出暗部细节。

但还是很难抽到「AI 味」没那么重的图片,目前混元图像 3.0 也只支持文生图,图像的编辑功能暂时还没有上线,所以对提示词的要求,变得更高。

腾讯混元团队透露,图生图、图像编辑、以及多轮交互等版本将在后续发布。

国外模型的难点,长文本生成

真实照片的摄影风格比较不如意,其他风格化,像是卡通、漫画以及不同材质的渲染,混元图像 3.0 的表现确实不错,以及还有一项长文本的生成能力。


画一个咖啡店的菜单黑板,上面写着:拿铁 - 30元,美式 - 25元,卡布奇诺 - 28元。

而更复杂的文字,也需要掌握一些官方给出的技巧。

将大段的文字拆成多句并使用多个引号,文字会更准确。同时,文字的准确性与 prompt 描述的布局方式有一定关联。可以尝试以下的策略:

(a)在渲染的文本前使用「第几行写着」、「左边写着」之类提示布局信息的词

(b)修改图片长宽比

(c)换一种内容布局的方式(如左右布局换成上下布局)


皓月当空的背景,上面映着苏轼的一首词: 第一行写着: 「水调歌头·明月几时有」,「苏轼」, 第二行写着: 「明月几时有?把酒问青天。」 第三行写着: 「不知天上宫阙,今夕是何年。」 第四行写着: 「我欲乘风归去,惟恐琼楼玉宇,高处不胜寒。」 第五行写着: 「起舞弄清影,何似在人间。」 第六行写着: 「转朱阁,低绮户,照无眠。」 第七行写着: 「不应有恨,何事长向别时圆?」 第八行写着: 「人有悲欢离合,月有阴晴圆缺,此事古难全。」 第九行写着: 「但愿人长久,千里共婵娟。」

文章的几个测试案例,大多集中在「玩」的阶段。从效果看,混元图像 3.0 的确在一些细节上比大部分模型更聪明,但能不能真的应用到具体的工业场景,选择继续开源是它最好的答案。

最后,不得不说,生图还是目前 GenAI 里面最火的,模型能不能出圈,仿佛都得靠生图。ChatGPT 靠一张吉卜力风格的照片、Gemini 则是用一张一致性极强的桌面手办,获得了空前的关注。

从风格到一致性,传达的都是这张照片给我们最直接的感觉,而非照片的具体含义。

这大概是视觉动物的特点,一致性过后,AI 图片的下一个大热门,会是什么呢?极强的创意,更极致的细节密度,往真实再进一步。

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾主任更多照片被网友挖出!穿衣风格独特,网友:理解祖院长了

曾主任更多照片被网友挖出!穿衣风格独特,网友:理解祖院长了

今日养生之道
2025-11-08 14:56:56
“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

趣文说娱
2025-11-08 17:14:30
纽约街头高甜同框!霉霉与特拉维斯牵手约会,酷飒与帅气双向奔赴

纽约街头高甜同框!霉霉与特拉维斯牵手约会,酷飒与帅气双向奔赴

述家娱记
2025-11-08 09:07:28
西贝闭店潮汹涌,贾国龙天要塌了

西贝闭店潮汹涌,贾国龙天要塌了

财经三分钟pro
2025-11-08 11:49:36
值班室被偷拍后续:2人多次违规出差,祖某被曝医德差,原配回应

值班室被偷拍后续:2人多次违规出差,祖某被曝医德差,原配回应

子芫伴你成长
2025-11-08 18:28:02
马科斯通告全球,菲律宾扬言 “无外援能坚守”,三天暴雨冲垮防线

马科斯通告全球,菲律宾扬言 “无外援能坚守”,三天暴雨冲垮防线

星辰夜语
2025-11-08 19:53:18
环球小姐爆炸现场!冠军带头罢走、佳丽集体退场,主办方全网道歉!

环球小姐爆炸现场!冠军带头罢走、佳丽集体退场,主办方全网道歉!

新欧洲
2025-11-06 21:37:11
正式决定!交易克莱!再见了,独行侠

正式决定!交易克莱!再见了,独行侠

篮球教学论坛
2025-11-08 09:58:51
4199 元!新 iPhone上市,被秒了

4199 元!新 iPhone上市,被秒了

科技堡垒
2025-11-08 11:45:13
北京飞广州航班起飞40分钟后返航,更换飞机后再出发?国航客服:系航司原因

北京飞广州航班起飞40分钟后返航,更换飞机后再出发?国航客服:系航司原因

极目新闻
2025-11-08 12:23:23
王晶谈万梓良晚年凄凉!称其不懂江湖规矩,演戏夸张对手很难接

王晶谈万梓良晚年凄凉!称其不懂江湖规矩,演戏夸张对手很难接

一盅情怀
2025-11-08 18:08:56
章泽天在英国和一帮富商共进晚餐,她的打扮一言难尽,肋骨外翻。

章泽天在英国和一帮富商共进晚餐,她的打扮一言难尽,肋骨外翻。

草莓解说体育
2025-11-07 12:39:22
乌度卡痛批全队太软!杜兰特8失误火箭全线崩盘

乌度卡痛批全队太软!杜兰特8失误火箭全线崩盘

体坛周报
2025-11-08 15:50:13
广东男子3天去同一家发廊2次,老板娘每天穿着不同:越看越上头

广东男子3天去同一家发廊2次,老板娘每天穿着不同:越看越上头

心轩专栏
2025-11-08 22:10:43
他防不住我!威少连造亚历山大两犯喊话曝光 主帅再次强调做自己

他防不住我!威少连造亚历山大两犯喊话曝光 主帅再次强调做自己

罗说NBA
2025-11-09 07:18:04
独行侠完成史上最蠢交易?浓眉伤前已有问题:灵活性明显不如以往

独行侠完成史上最蠢交易?浓眉伤前已有问题:灵活性明显不如以往

罗说NBA
2025-11-08 20:18:00
落马官员出狱当天,又被逮捕

落马官员出狱当天,又被逮捕

中国新闻周刊
2025-11-08 18:55:04
莱巴金娜2-0萨巴伦卡!首夺年终冠军 加冕亚洲第一人 奖金523.5万

莱巴金娜2-0萨巴伦卡!首夺年终冠军 加冕亚洲第一人 奖金523.5万

侃球熊弟
2025-11-09 01:34:09
离开火箭日子也不好过!白魔出场时间连续下降:甚至不如休城时期

离开火箭日子也不好过!白魔出场时间连续下降:甚至不如休城时期

罗说NBA
2025-11-09 07:05:31
华为将搬迁!

华为将搬迁!

通信头条
2025-11-08 20:22:19
2025-11-09 08:55:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
5810文章数 26694关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

诺辉健康从巅峰坠落谷底 杭州总部多处办公地人去楼空

头条要闻

诺辉健康从巅峰坠落谷底 杭州总部多处办公地人去楼空

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

旅游
本地
时尚
公开课
军事航空

旅游要闻

黄河一号公路:徜徉母亲河畔,叩问山河奇观和文明诗篇

本地新闻

这届干饭人,已经把博物馆吃成了食堂

五十多岁的女性秋季别瞎打扮,这3个技巧实用还时髦,快收藏

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

福建舰常驻地为三亚军港

无障碍浏览 进入关怀版