网易首页 > 网易号 > 正文 申请入驻

Nano Banana 2发布,图像生成下半场比的是“世界知识”

0
分享至



进入2026年以后,很少有人再提起图像生成模型,行业内的焦点全在agent身上。

图像生成模型,似乎已经成为“上一个时代”的故事。大多数从业者的共识是,图像生成的技术路线已经基本定型,剩下的只是工程优化和成本控制。

国际调研机构Fundamental Business Insights在《AI图像生成器市场规模和份额预测》中提到,2024年全球市场规模为4.1024亿美元,2025年为4.785亿美元,2026年为5.4136亿美元。

由此可见,图像生成模型市场已然是一个成熟稳定,且想象空间比较小的市场。

可就在这个节骨眼上,谷歌拿出了Nano Banana 2。

这是用同样提示词生成的图片,可以看到,Nano Banana 2在呈现图片的方式上,已经和Nano Banana Pro呈现出了明显的区别。



因为这不是那种简单的版本迭代。

谷歌在发布当天就宣布,这个新模型将立即取代之前的所有版本,成为 Gemini、谷歌搜索、AI Studio等所有产品中的默认图像生成模型,最让人诧异的是,就连谷歌自己的AI编程工具Antigravity也对Nano Banana 2完成了接入。

为啥谷歌突然“All-in”?

在过去一段时间里,用户一直面临着一个两难选择,想生成4K分辨率的图片就需要等很久,想立刻生成图片,就只能找低分辨率的模型。

而Nano Banana 2又快又好。

谷歌认为,在agent时代,图像生成依然是一个值得重仓投入的战场。

01

Nano Banana 2的特点都有什么?

Nano Banana 2最大的特点就是快,它能够在4-6秒内完成4K分辨率图像的生成。

谷歌的Gemini系列一直维持着两条产品线:Pro追求性能,Flash追求效率。

但将这套架构迁移到图像生成领域,并非简单的模型压缩。图像生成的计算密集度远高于文本生成,一张2K分辨率的图像包含的信息量,相当于数千个文本token。

如何在不牺牲视觉质量的前提下提升推理速度,这是一个工程难题。

Nano Banana 2的解决方案是采用了分层生成策略。

模型首先在较低分辨率下完成场景理解、构图规划和物理关系推理,然后再通过高效的上采样管道将图像提升至2K甚至4K分辨率。

这种“先思考,后渲染”的流程,让模型能够在保持Pro级别的一致性和细节质量时,降低计算成本。

除了速度,Nano Banana 2还引入了“世界知识”这个概念。

传统的图像生成模型,本质上是一个强大的视觉模式匹配器。它们在海量图像数据上训练,学会了“什么样的画面看起来真实”,但并不真正理解画面中的物理规律、地理特征或文化背景。

比如说你要求生成“巴黎铁塔在雨天的景象”,它可能生成一张看起来不错的图片,但铁塔的结构细节、巴黎特有的建筑风格、雨天的光线特征,都可能是模糊或错误的。

Nano Banana 2的不同之处在于,它直接继承了Gemini大语言模型的世界知识库,并且能够实时调用谷歌图像搜索作为“视觉参考库”。

也就是说当你要求生成某个真实地点的场景时,模型不仅知道这个地点的地理位置、气候特征、建筑风格,还能检索相关的真实照片作为视觉基准,从而生成更加准确的图像。

在谷歌的“Window Seat”演示中。它能够根据用户指定的任何地点和当前的实时天气数据,生成该地点窗外的逼真景观。

举个例子,《哈利波特》中通往霍格沃茨的9¾站台位于英国的国王十字车站(King's Cross station)。在Window Seat中输入对应车站,窗户的样式输入温馨咖啡馆,外面的天气指定为瓢泼大雨,Nano Banana 2就会生成以下一幕。



把“世界知识”注入到Nano Banana 2里,其实就是将大语言模型的推理能力与图像生成的渲染能力结合起来的产物。

模型在生成图像之前,会先进行一次“语义推理”,理解提示词中涉及的真实世界概念,然后再将这些概念转化为视觉元素。

在图像生成领域,文字渲染一直是一个公认的难题。无论是Stable Diffusion、Midjourney还是早期的DALL-E,生成的图像中如果包含文字,往往会出现字母错位、拼写错误、字体混乱等问题。

这个问题的根源在于,传统的扩散模型将文字视为视觉纹理的一部分,而不是具有语义结构的符号系统。

Nano Banana 2在文字渲染上取得了显著进步。根据官方说明,这一代模型能够“更可靠地渲染文字”,支持多语言文本,并且能够保持字体的清晰度和风格一致性。

这个能力的提升,来自于模型对文字的“双重理解”。Nano Banana 2既通过Gemini的语言模型能力,理解了文字本身的语义内容,也通过图像生成的渲染能力理解文字的视觉呈现规律。

我让Nano Banana 2设计了一个“字母AI”的Logo,它就能很好展示出每一个字,并且还用电路板这个视觉元素来强化AI的概念。



02

Nano Banana 2背后的技术是什么?

Nano Banana 2 的另一个重要特性,是它的“对话式编辑”能力。这的确不是一个新概念,但实际用起来效果要比以往好很多。

Nano Banana 2现在能够做到,完全使用对话来进行图片编辑,比如“把背景换成日落”、“把这个人的衣服改成蓝色”、“去掉左边的那棵树”。

这种交互方式的关键,在于模型能够在多轮对话中保持对图像的“记忆”。当你在第三轮对话中说“把刚才那个蓝色衣服改回红色”时,模型需要知道“刚才那个蓝色衣服”指的是第二轮编辑中被改成蓝色的那件衣服。

这种上下文追踪能力,叫做“思维签名”(Thought Signatures)。

简单来说,当模型生成图像时,它内部会进行一系列思考,思维签名就是每一步思考的标签。在多轮对话编辑图像时,你把上一轮的思维签名传回给模型,它就能记住之前的构图逻辑、光影关系和设计意图,从而实现连贯的局部修改—。

当你要求对已有图片进行修改时,那么模型就会用思维签名来理解原始图像的整体结构,做出合理的调整而不破坏画面的一致性。

前文提到的一致性,是目前图像生成模型最大的难题之一。

Nano Banana 2支持最多14张参考图像的混合使用,其中可以包括最多5张人物角色图像和最多6张物体图像。

模型能够从这些参考图像中提取视觉特征,并在新生成的图像中保持这些特征的一致性。

比如Nano Banana 2官方发的图片,将一个香蕉和恐龙玩偶结合,就得到了一个以香蕉当作身体的恐龙玩偶。



以及,我们不妨来看看Nano Banana 2和GPT的对比,同样的提示词下,GPT带有明显的AI生成感。Nano Banana 2生成的图片更真实一些。

GPT:



Nano Banana 2:



同时,Nano Banana官方还放出了一些由Nano Banana 2生成的超长图片。





03

相较于其他模型,Nano Banana 2的优势是什么?

Nano Banana 2是一个非常均衡的图片生成模型,它又有速度,又有质量,关键还便宜。

根据谷歌官方给出的信息,Nano Banana 2生成1k图的价格大约为0.067美元,相当于不到5毛钱。2K图片为0.1美元,约7毛钱。4K图片为0.15美元,大约1块钱。这个价格比Nano Banana Pro便宜很多。



Pro版本的优势在于极致的复杂场景把控、超写实光影渲染和小众艺术风格还原,适合专业视觉设计师、影视概念设计师等对画质有极致要求的用户。

Nano Banana 2用画质上限的稍许让步,换来了显著的效率提升。Nano Banana 2的定价更符合普通创作者,以及那些需要快速迭代、大批量生成的实际业务需求。







Midjourney依然是艺术创作的天花板。它的审美上限和风格化能力在行业内无人能及,特别是在生成具有电影质感、绘画笔触的艺术作品方面表现出色。

V7版本的生成速度约为20秒/张,在复杂场景下可能更长。

但Midjourney的短板也极其明显,它没有对话式编辑功能,无法精准控制真实世界元素(如特定地点的准确建筑风格、实时天气条件), API开放度极低,且主要通过Discord 界面操作,不适合企业级集成。

此前,在一项包含50多个提示词的对比测试中,Nano Banana Pro的生成速度是Midjourney的10倍以上,Nano Banana 2只会更快。

另外一大图像生成模型就是Stable Diffusion 3。它的优势是开源、可本地部署、自定义程度高,这对于有技术能力和数据隐私需求的开发者来说是重要优势。

它还支持LoRA微调、ControlNet等高级控制功能,可以针对特定需求进行深度定制。可以说,只要你技术能力够高,那么Stable Diffusion 3绝对是最好的选择。

但Stable Diffusion 3,需要配置本地环境、理解复杂的参数设置、自行优化提示词。

而且在原生能力方面,Stable Diffusion 3的文字渲染准确度在学术评测中得分仅为1.25-1.95(满分 5 分),远低于Nano Banana 2。

此外,它的生成速度、事实准确性、对话式编辑能力也全面落后于Nano Banana 2。

当然,Nano Banana 2并非完美无缺。在极致的艺术风格化创作、超复杂场景的光影渲染上,它和Nano Banana Pro以及Midjourney这样的产品,依然存在差距。

在多轮对话编辑方面,虽然模型支持最多5个角色的一致性维护,但在一些特定的场景,仍然会出现细微变化。而当对话进行多轮次后,这些细微的变化也会累积在一起。

同时,对于小众冷门的地点、物体,“世界知识”的效果也会有所折扣。

但不可否认的是,Nano Banana 2给整个文生图行业带来新的启示,未来的AI图像生成,不再是单纯的“纹理匹配”,而是“大语言模型推理能力 + 视觉渲染能力 + 检索增强事实准确性”的深度融合。

文生图工具终将从“画画的机器”,变成真正懂需求、懂世界的视觉创作助手。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
第81轮反击来了!飞弹直击以军集结地

第81轮反击来了!飞弹直击以军集结地

星火聊天下
2026-03-26 07:27:33
张雪峰追悼会周六将在苏州殡仪馆举行

张雪峰追悼会周六将在苏州殡仪馆举行

界面新闻
2026-03-26 07:04:27
邓超孙俪正式解绑:16年婚姻,各自安好

邓超孙俪正式解绑:16年婚姻,各自安好

LULU生活家
2026-03-26 14:50:15
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

张雪峰生前日常:1份饭6个菜,日均睡眠不足4小时,最后露面疲惫

洲洲影视娱评
2026-03-25 13:16:24
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

张雪峰去世后续!公司现状曝光,门上对联被拆下,葬礼低调举行

180视角
2026-03-25 10:17:11
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

姐弟恋、吃软饭,把关之琳收入囊中的香港首席男模,如今怎样了?

小樾说历史
2026-03-26 11:30:53
心眼坏的人,最爱问这3件事,别傻乎乎全说!

心眼坏的人,最爱问这3件事,别傻乎乎全说!

唯晨说
2026-03-25 13:12:14
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
2026-03-26 16:59:00
字母榜 incentive-icons
字母榜
让未来不止于大。
2318文章数 8054关注度
往期回顾 全部

数码要闻

七彩虹iGame Z890 ULTRA-S W V20主板上市,2399元

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
手机
健康
本地
公开课

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

转头就晕的耳石症,能开车上班吗?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版