网易首页 > 网易号 > 正文 申请入驻

Nano Banana 2发布,图像生成下半场比的是“世界知识”

0
分享至

文 | 字母AI

进入2026年以后,很少有人再提起图像生成模型,行业内的焦点全在agent身上。

图像生成模型,似乎已经成为“上一个时代”的故事。大多数从业者的共识是,图像生成的技术路线已经基本定型,剩下的只是工程优化和成本控制。

国际调研机构Fundamental Business Insights在《AI图像生成器市场规模和份额预测》中提到,2024年全球市场规模为4.1024亿美元,2025年为4.785亿美元,2026年为5.4136亿美元。

由此可见,图像生成模型市场已然是一个成熟稳定,且想象空间比较小的市场。

可就在这个节骨眼上,谷歌拿出了Nano Banana 2。

这是用同样提示词生成的图片,可以看到,Nano Banana 2在呈现图片的方式上,已经和Nano Banana Pro呈现出了明显的区别。


因为这不是那种简单的版本迭代。

谷歌在发布当天就宣布,这个新模型将立即取代之前的所有版本,成为 Gemini、谷歌搜索、AI Studio等所有产品中的默认图像生成模型,最让人诧异的是,就连谷歌自己的AI编程工具Antigravity也对Nano Banana 2完成了接入。

为啥谷歌突然“All-in”?

在过去一段时间里,用户一直面临着一个两难选择,想生成4K分辨率的图片就需要等很久,想立刻生成图片,就只能找低分辨率的模型。

而Nano Banana 2又快又好。

谷歌认为,在agent时代,图像生成依然是一个值得重仓投入的战场。

Nano Banana 2的特点都有什么?

Nano Banana 2最大的特点就是快,它能够在4-6秒内完成4K分辨率图像的生成。

谷歌的Gemini系列一直维持着两条产品线:Pro追求性能,Flash追求效率。

但将这套架构迁移到图像生成领域,并非简单的模型压缩。图像生成的计算密集度远高于文本生成,一张2K分辨率的图像包含的信息量,相当于数千个文本token。

如何在不牺牲视觉质量的前提下提升推理速度,这是一个工程难题。

Nano Banana 2的解决方案是采用了分层生成策略。

模型首先在较低分辨率下完成场景理解、构图规划和物理关系推理,然后再通过高效的上采样管道将图像提升至2K甚至4K分辨率。

这种“先思考,后渲染”的流程,让模型能够在保持Pro级别的一致性和细节质量时,降低计算成本。

除了速度,Nano Banana 2还引入了“世界知识”这个概念。

传统的图像生成模型,本质上是一个强大的视觉模式匹配器。它们在海量图像数据上训练,学会了“什么样的画面看起来真实”,但并不真正理解画面中的物理规律、地理特征或文化背景。

比如说你要求生成“巴黎铁塔在雨天的景象”,它可能生成一张看起来不错的图片,但铁塔的结构细节、巴黎特有的建筑风格、雨天的光线特征,都可能是模糊或错误的。

Nano Banana 2的不同之处在于,它直接继承了Gemini大语言模型的世界知识库,并且能够实时调用谷歌图像搜索作为“视觉参考库”。

也就是说当你要求生成某个真实地点的场景时,模型不仅知道这个地点的地理位置、气候特征、建筑风格,还能检索相关的真实照片作为视觉基准,从而生成更加准确的图像。

在谷歌的“Window Seat”演示中。它能够根据用户指定的任何地点和当前的实时天气数据,生成该地点窗外的逼真景观。

举个例子,《哈利波特》中通往霍格沃茨的9¾站台位于英国的国王十字车站(King's Cross station)。在Window Seat中输入对应车站,窗户的样式输入温馨咖啡馆,外面的天气指定为瓢泼大雨,Nano Banana 2就会生成以下一幕。


把“世界知识”注入到Nano Banana 2里,其实就是将大语言模型的推理能力与图像生成的渲染能力结合起来的产物。

模型在生成图像之前,会先进行一次“语义推理”,理解提示词中涉及的真实世界概念,然后再将这些概念转化为视觉元素。

在图像生成领域,文字渲染一直是一个公认的难题。无论是Stable Diffusion、Midjourney还是早期的DALL-E,生成的图像中如果包含文字,往往会出现字母错位、拼写错误、字体混乱等问题。

这个问题的根源在于,传统的扩散模型将文字视为视觉纹理的一部分,而不是具有语义结构的符号系统。

Nano Banana 2在文字渲染上取得了显著进步。根据官方说明,这一代模型能够“更可靠地渲染文字”,支持多语言文本,并且能够保持字体的清晰度和风格一致性。

这个能力的提升,来自于模型对文字的“双重理解”。Nano Banana 2既通过Gemini的语言模型能力,理解了文字本身的语义内容,也通过图像生成的渲染能力理解文字的视觉呈现规律。

我让Nano Banana 2设计了一个“字母AI”的Logo,它就能很好展示出每一个字,并且还用电路板这个视觉元素来强化AI的概念。

Nano Banana 2背后的技术是什么?

Nano Banana 2 的另一个重要特性,是它的“对话式编辑”能力。这的确不是一个新概念,但实际用起来效果要比以往好很多。

Nano Banana 2现在能够做到,完全使用对话来进行图片编辑,比如“把背景换成日落”、“把这个人的衣服改成蓝色”、“去掉左边的那棵树”。

这种交互方式的关键,在于模型能够在多轮对话中保持对图像的“记忆”。当你在第三轮对话中说“把刚才那个蓝色衣服改回红色”时,模型需要知道“刚才那个蓝色衣服”指的是第二轮编辑中被改成蓝色的那件衣服。

这种上下文追踪能力,叫做“思维签名”(Thought Signatures)。

简单来说,当模型生成图像时,它内部会进行一系列思考,思维签名就是每一步思考的标签。在多轮对话编辑图像时,你把上一轮的思维签名传回给模型,它就能记住之前的构图逻辑、光影关系和设计意图,从而实现连贯的局部修改—。

当你要求对已有图片进行修改时,那么模型就会用思维签名来理解原始图像的整体结构,做出合理的调整而不破坏画面的一致性。

前文提到的一致性,是目前图像生成模型最大的难题之一。

Nano Banana 2支持最多14张参考图像的混合使用,其中可以包括最多5张人物角色图像和最多6张物体图像。

模型能够从这些参考图像中提取视觉特征,并在新生成的图像中保持这些特征的一致性。

比如Nano Banana 2官方发的图片,将一个香蕉和恐龙玩偶结合,就得到了一个以香蕉当作身体的恐龙玩偶。


以及,我们不妨来看看Nano Banana 2和GPT的对比,同样的提示词下,GPT带有明显的AI生成感。Nano Banana 2生成的图片更真实一些。

GPT:


Nano Banana 2:


同时,Nano Banana官方还放出了一些由Nano Banana 2生成的超长图片。



相较于其他模型,Nano Banana 2的优势是什么?

Nano Banana 2是一个非常均衡的图片生成模型,它又有速度,又有质量,关键还便宜。

根据谷歌官方给出的信息,Nano Banana 2生成1k图的价格大约为0.067美元,相当于不到5毛钱。2K图片为0.1美元,约7毛钱。4K图片为0.15美元,大约1块钱。这个价格比Nano Banana Pro便宜很多。


Pro版本的优势在于极致的复杂场景把控、超写实光影渲染和小众艺术风格还原,适合专业视觉设计师、影视概念设计师等对画质有极致要求的用户。

Nano Banana 2用画质上限的稍许让步,换来了显著的效率提升。Nano Banana 2的定价更符合普通创作者,以及那些需要快速迭代、大批量生成的实际业务需求。




Midjourney依然是艺术创作的天花板。它的审美上限和风格化能力在行业内无人能及,特别是在生成具有电影质感、绘画笔触的艺术作品方面表现出色。

V7版本的生成速度约为20秒/张,在复杂场景下可能更长。

但Midjourney的短板也极其明显,它没有对话式编辑功能,无法精准控制真实世界元素(如特定地点的准确建筑风格、实时天气条件), API开放度极低,且主要通过Discord 界面操作,不适合企业级集成。

此前,在一项包含50多个提示词的对比测试中,Nano Banana Pro的生成速度是Midjourney的10倍以上,Nano Banana 2只会更快。

另外一大图像生成模型就是Stable Diffusion 3。它的优势是开源、可本地部署、自定义程度高,这对于有技术能力和数据隐私需求的开发者来说是重要优势。

它还支持LoRA微调、ControlNet等高级控制功能,可以针对特定需求进行深度定制。可以说,只要你技术能力够高,那么Stable Diffusion 3绝对是最好的选择。

但Stable Diffusion 3,需要配置本地环境、理解复杂的参数设置、自行优化提示词。

而且在原生能力方面,Stable Diffusion 3的文字渲染准确度在学术评测中得分仅为1.25-1.95(满分 5 分),远低于Nano Banana 2。

此外,它的生成速度、事实准确性、对话式编辑能力也全面落后于Nano Banana 2。

当然,Nano Banana 2并非完美无缺。在极致的艺术风格化创作、超复杂场景的光影渲染上,它和Nano Banana Pro以及Midjourney这样的产品,依然存在差距。

在多轮对话编辑方面,虽然模型支持最多5个角色的一致性维护,但在一些特定的场景,仍然会出现细微变化。而当对话进行多轮次后,这些细微的变化也会累积在一起。

同时,对于小众冷门的地点、物体,“世界知识”的效果也会有所折扣。

但不可否认的是,Nano Banana 2给整个文生图行业带来新的启示,未来的AI图像生成,不再是单纯的“纹理匹配”,而是“大语言模型推理能力 + 视觉渲染能力 + 检索增强事实准确性”的深度融合。

文生图工具终将从“画画的机器”,变成真正懂需求、懂世界的视觉创作助手。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
开始抢人!美国一周挖走4名中国顶尖人才,年薪1个亿美元令人咋舌

开始抢人!美国一周挖走4名中国顶尖人才,年薪1个亿美元令人咋舌

古史青云啊
2026-02-26 19:45:46
福建舰有多烧钱?电磁弹射超百亿,伙食费能供养一个小型国家!

福建舰有多烧钱?电磁弹射超百亿,伙食费能供养一个小型国家!

孤单是寂寞的毒
2026-02-27 12:40:06
在广东开菜鸟驿站当老板被员工拿捏,理货大姐2300工资要求涨200

在广东开菜鸟驿站当老板被员工拿捏,理货大姐2300工资要求涨200

捣蛋窝
2026-02-27 15:31:47
吃“人血馒头”只是冰山一角!被官媒点名的3位明星,都不值同情

吃“人血馒头”只是冰山一角!被官媒点名的3位明星,都不值同情

无心小姐姐
2026-02-27 23:06:13
突发!黄金白银直线飙升,国际油价大涨!中使馆紧急通知:在以色列中国公民非必要不外出

突发!黄金白银直线飙升,国际油价大涨!中使馆紧急通知:在以色列中国公民非必要不外出

每日经济新闻
2026-02-27 22:12:04
印度GDP数据修订意味着超越日本需耗时更长

印度GDP数据修订意味着超越日本需耗时更长

财联社
2026-02-27 23:25:22
羡慕!上海彩民守号一年中大乐透3764万奖金,中奖号码源自机选!

羡慕!上海彩民守号一年中大乐透3764万奖金,中奖号码源自机选!

小李子体育
2026-02-27 15:38:52
贝克汉姆主动握手汪顺,汪顺英语好流利!汪顺看到以后受宠若惊!

贝克汉姆主动握手汪顺,汪顺英语好流利!汪顺看到以后受宠若惊!

乐悠悠娱乐
2026-02-27 12:43:20
上海老克勒请客新潮流:汾阳路面馆包间吃出‘场面’

上海老克勒请客新潮流:汾阳路面馆包间吃出‘场面’

上观新闻
2026-02-27 19:09:10
我资助的贫困生考上名校后立马拉黑我,毕业时她才发现自己有多傻

我资助的贫困生考上名校后立马拉黑我,毕业时她才发现自己有多傻

黄小乖的日记
2026-02-27 20:04:25
一点别同情她!被教练性侵27次,却在奥运赛场上,把队友撞出赛道

一点别同情她!被教练性侵27次,却在奥运赛场上,把队友撞出赛道

青梅侃史啊
2026-02-27 22:47:42
看!丰岛心樱X光照揭露惊人身材,惊艳四方!

看!丰岛心樱X光照揭露惊人身材,惊艳四方!

大为看点丶
2026-02-27 15:30:07
1岁娃心脏有个大洞,英国医生说没救了!结果网友众筹150万,硬给救活了!

1岁娃心脏有个大洞,英国医生说没救了!结果网友众筹150万,硬给救活了!

英国那些事儿
2026-02-27 23:25:51
甘肃省广播电视局原党组成员、副局长符红斌被双开

甘肃省广播电视局原党组成员、副局长符红斌被双开

界面新闻
2026-02-27 16:01:39
伊朗外长:伊朗已将导弹射程限制在2000公里以内

伊朗外长:伊朗已将导弹射程限制在2000公里以内

新华社
2026-02-27 10:33:20
中美两国同时提醒人员撤离,伊朗的火药桶快爆了?

中美两国同时提醒人员撤离,伊朗的火药桶快爆了?

历史总在押韵
2026-02-27 22:47:21
蒙古国的人,为啥如此仇视中国人?

蒙古国的人,为啥如此仇视中国人?

贱议你读史
2026-02-27 15:12:56
突然被扣费,连续数月不知情! 上海已有多人遭遇! 快查, 你的钱有没有"消失"?

突然被扣费,连续数月不知情! 上海已有多人遭遇! 快查, 你的钱有没有"消失"?

新浪财经
2026-02-27 17:11:04
出场时间最多,把渡边防到7中1,球迷:男篮防守端最不能缺的人

出场时间最多,把渡边防到7中1,球迷:男篮防守端最不能缺的人

弄月公子
2026-02-27 10:48:27
连司马迁都不明白,如此聪明的孙膑,是如何被庞涓害的这么惨的?

连司马迁都不明白,如此聪明的孙膑,是如何被庞涓害的这么惨的?

史笔似尘钩
2025-10-06 21:45:46
2026-02-27 23:56:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
129966文章数 861823关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

艺术
时尚
健康
游戏
本地

艺术要闻

紫气东来,好运一整年!

舒淇最爱穿的裙子搭配,真的很适合春天!

转头就晕的耳石症,能开车上班吗?

知名舅舅党爆料:索尼克游戏新作有望今年公布

本地新闻

津南好·四时总相宜

无障碍浏览 进入关怀版