文章转载自「新智元」,FP进行了部分删减。
「AI 圈可能就没有睡过一个好觉。」
今天凌晨,谷歌发布了其最新图像生成模型Nano Banana 2。基于Gemini 3.1 Flash Image的全新一代模型,Nano Banana 2不仅在生成速度上大幅提升,多语言文字处理更强,还能实时联网,一次直出 4K 大片。
![]()
在 Artificial Analysis 的文生图基准测试中,Nano Banana 2轻松拿下了全球第一。
在图像编辑能力上则位列第三,仅次于 GPT Image 1.5 和 Nano Banana Pro。
![]()
![]()
在 Image Arena 中,NB2 文生图同样问鼎榜首,斩获 1279 Elo 得分,图像编辑实力仅次于 GPT Image。
![]()
![]()
谷歌官方测评中,NB2(开启 Thinking + 文本搜索 + 图像搜索后)在整体偏好、视觉质量和信息图表准确性三个维度上,不仅全面压制了 GPT-Image 1.5、Grok Imagine Image Pro 等一众竞品,甚至还超越了大哥 Nano Banana Pro。
![]()
值得一提的是,它的输出价格只要 0.0672 美元/张,仅为 Pro 的一半。
⬆️关注 Founder Park,最及时最干货的创业分享
超 19000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。
邀请从业者、开发人员和创业者,飞书扫码加群:
![]()
进群后,你有机会得到:
最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的 AI 产品曝光渠道
01从「只会画画」进化到「理解世界」
Nano Banana 2 区别于其他图像生成模型,有两大杀手级本领。
第一个是世界知识。
Nano Banana 2全面接入了Gemini的知识库和实时网络搜索。
你让它画一座真实存在的建筑,它会先上网搜一搜视觉参考资料,搞清楚这地方到底长什么样,然后再按照你指定的风格渲染。
这种理解力也让它能直接帮你做信息图表、把笔记变成示意图、生成数据可视化。
比如,让它生成水循环的科普信息图。
模型选择了正上方俯拍的鸟瞰视角,在干净的浅灰色纹理背景上,把水循环的每个步骤从左到右清晰铺开。
背景上还画了简约的黑色手绘箭头来引导视线,光线柔和均匀,几乎没有阴影干扰,整体既有教育感又不沉闷,是那种你真的可以直接拿去课堂用的水平。
![]()
描绘水循环的平铺俯拍信息图
再看这张云类型的对比图。
它采用了三联画的形式,把积云、层云和卷云分别放在三个画幅中,每种云都有极具戏剧感的天空作为背景,配上醒目的标签文字。
整体是高对比度的美漫风格,信息清晰,视觉冲击力也拉满了。
![]()
对比不同云类型的三联画信息图
这张则是让模型先搜索克洛·吕斯城堡(达·芬奇晚年居住的法国城堡)的真实照片作为参考,然后用色彩明艳的综合立体主义风格重新演绎。
模型不仅准确还原了建筑的基本结构特征,还把立体主义那种多视角拼贴、几何化解构的精髓融了进去,而且严格遵守了「无文字」的要求。
这就是「世界知识」带来的差距——它知道这座城堡长什么样,而不是凭空捏造。
![]()
综合立体主义风格的克洛·吕斯城堡
更厉害的是,谷歌还专门做了一个叫「Window Seat」(靠窗座位)的应用来秀这个能力。
具体来说,他们让Nano Banana 2调用知识库和网络图像搜索,再结合世界各地的真实场景和实时天气数据,生成逼真的飞机窗外风景。
相当于给你来了一场足不出户的环球旅行,而且每一帧窗外的景色都基于真实的地理和气象信息,不是随便糊弄的。
第二个是文本渲染和翻译。
AI图像生成最大的老毛病之一就是「写字像鬼画符」,Nano Banana 2在这块下了狠功夫。
生成的文字准确清晰,做营销海报、贺卡完全够用。
看下面这组图。
第一张是一个充满自然气息的电影级特写,展现了一块由回收环保材料制成的精美指示牌,上面画着当地的鸟类和花卉,牌子下方用优雅的手写字体写着「原生野生动物:请保持距离观赏」。柔和的漫射光透过旁边蕨类植物的叶片洒下,背景是生机勃勃的绿色植物虚化效果。
第二张则是一句话就完成了场景本地化——把整个概念转换成印度场景,所有文字翻译成印地语,连植被、光线氛围都做了相应调整。这种「一键本地化」的能力,对做全球化内容的创作者来说太实用了。
![]()
本地化版本的「原生野生动物」指示牌
同样的,谷歌也为这个能力配了一个酷炫的演示——「Global Ad Localizer」。
这个全球广告本地化工具,能直接把广告素材翻译成不同语言版本,不仅渲染翻译后的文本,还会同步调整画面中的视觉元素来适配目标市场。
024K创意大片,画质更牛了
速度上去了,质量没掉,这才是Nano Banana 2真正让人兴奋的地方。
首先,是主体一致性的大幅提升。
具体来说就是,一个工作流里最多能保持5个角色的特征一致,以及14个对象的高保真度。
什么概念?看完下面这张图你就懂了。
14个风格各异的角色和道具一起出现在农场场景里愉快玩耍,整体氛围逗趣、搞怪、欢乐。
关键是每一个角色和道具都严格保持了原本的特征与形象,没有一个「变脸」或「串台」的。
![]()
农场里逗趣欢乐的角色和道具
再看这组更有叙事感的例子。
3个毛茸茸的小伙伴一起建树屋的故事,被拆成了6个章节。整个故事惊险刺激、情节跌宕起伏,以一个欢乐的时刻收尾。
最厉害的是,三个角色在6张图里的服装和外貌特征始终一致,但表情和视角每张都不一样,而且严格保证每张图里每个角色只出现一次。
这对需要做连续叙事的创作者来说简直是福音——终于不用每生成一张图就发现「主角换了张脸」。
![]()
正在建造树屋的毛茸茸小伙伴们
接下来这个名叫「Pet Passport」(宠物护照)的应用,堪称是「铲屎官的快乐制造机」。
在这里,你只需要上传一张宠物的照片,模型就能让你的毛孩子开启一场全球大冒险,打卡各大著名地标。
而且,它还内置了各种创意控制设置,让你能定制不同的风格和效果。
关键是无论去到哪个目的地,宠物的外观都能保持高度一致。
其次,指令遵循更精准了。
你脑子里想的那些微妙细节,现在模型能更好地捕捉到。复杂的描述不再被「自由发挥」成另一个东西。
第三,规格也拉满了。
从512px到4K,各种宽高比随你挑。
值得一提的是,512px是这次新增的分辨率层级,专门为低延迟和高负载场景优化。如果你的工作流需要快速迭代大量图像,这个档位能帮你把效率拉到极致。
宽高比方面,除了常见的比例之外,这次还新增了4:1、1:4、8:1和1:8这些极端比例,横幅广告、竖屏长图、信息流卡片都能原生适配,不用再靠后期裁切了。
![]()
对于开发者来说,还有一个对画质影响很大的新功能:可配置的思考级别(Thinking Level)。
你可以手动调整模型在生成图像之前的「思考深度」——默认是最低级别,追求速度。
切换到高级或动态模式后,模型会在渲染前对复杂的提示词进行更充分的推理,从而显著提升输出质量和指令遵循度。
最后,视觉质量本身也跃升了一个台阶。
光影更生动,纹理更丰富,细节更锐利。
比如下面这张雾气缭绕的山谷航拍图。
可以看到,从极高的俯视角度鸟瞰整个峡谷,前景是深色水域环绕着一片明亮的绿色田野,田野边缘点缀着散落的树木和灌木,一条狭窄蜿蜒的小路在右侧的绿丘中穿梭消失在远方。
山谷深处,浅蓝灰色的湖泊在植被茂密的巍峨群山之间延伸,山峰隐没在低垂的雾气中。
主色调从前景郁郁葱葱的翠绿过渡到远处更暗更柔和的色调,水面倒映着阴沉的天空,厚重的云层营造出柔和的漫射光效。整体散发着苏格兰高地般的粗犷之美,那种宁静、未被驯服的荒野气息扑面而来。
![]()
雾气缭绕的翠绿山谷全景航拍图
再看这张波普艺术时尚人像。
画面采用略低的仰视机位,一位年轻的深肤色人物穿着一套极其抢眼的西装。
面料上印着大胆的电光蓝漩涡波浪纹,其间穿插着巨大的亮粉色同心圆,相互重叠向外辐射。
宽大翻领的西装外套搭配钟形袖,内搭熨烫平整的黄色翻领衬衫,阔腿裤向地面戏剧性地散开。
亮黄色的心形墨镜、巨大的粉色圆形耳环、双手叉腰的桀骜姿势,在纯粹均匀的天蓝色背景前,整个画面就像一颗从波普艺术宇宙里炸出来的视觉炸弹。
而且,不管你要求什么样的比例,模型都能精准输出。
![]()
不同宽高比的高度风格化波普艺术时尚人像
03极强的连贯性,能通过一帧画面「脑补」整个世界
自Nano Banana出世后,全世界人们已用它生成超十亿张图像。
谷歌DeepMind通过「氛围编码」手搓了一个demo,展示了NB对现实世界的强大理解力。
每一帧画面,NB2都只能看到前一张图,便能「脑补」出接下来的场景,连贯性简直强到离谱。
如今,一大批网友们纷纷晒出了Nano Banana 2的惊艳实测demo。
一句简单的提示,它便完美还原了1970年代的贝尔法斯特。
![]()
![]()
甚至,可以随意截取一张地图,让NB2生成一张卡通风格的全景图。
![]()
![]()
上传一本书的封面图,NB2即可直出一张书本中的展示水母的页面。
![]()
![]()
在文本渲染上,NB2再上一个全新的台阶,精准直出手稿、白板、海报等字体。
![]()
![]()
![]()
![]()
左右滑动查看
让NB2生成一张今日科技界新闻报纸,通过联网搜索,它直出新闻头版,不过在较小细节上有些问题。
![]()
另一个demo中,NB2在文本生成上同样展现出超强的统治力。
![]()
不仅如此,NB2生成的人物肖像更加真实,肉眼难以辨别真假。
![]()
![]()
![]()
![]()
左右滑动查看
一张对比图中,NB2在游戏人物刻画上更加精细、强大。
![]()
还有货柜展示、旋转楼梯等各种创意图,NB2全都表现不凡。
![]()
![]()
![]()
![]()
![]()
左右滑动查看
一张二次元动漫图,NB2可以一键复刻成GTA风格的图片。
![]()
![]()
NB2生成的一张3D微缩模型场景图,场景还原非常逼真。
![]()
NB2制作的信息图,细节非常丰富。
![]()
![]()
![]()
左右滑动查看
a16z合伙人Justine Moore测试中发现,NB2在信息图表、广告、动作镜头,甚至是卡通生成实力提升,且速度非常快。
![]()
![]()
![]()
![]()
![]()
左右滑动查看
在同一提示下,NB2可以更好遵循指令,生成效果要比GPT Image 1.5更加逼真。
![]()
以下是一些谷歌DeepMind官方的demo:
![]()
![]()
![]()
![]()
![]()
![]()
左右滑动查看
![]()
![]()
![]()
左右滑动查看
04Nano Banana 2 已经接入谷歌全线产品
从世界知识到文本渲染,从14个主体保真到4K输出,能力盘点到这里,你可能已经跃跃欲试了。
好消息是,Nano Banana 2已经在谷歌的全线产品中铺开:
GeminiApp是最直接的入口。
![]()
Nano Banana 2将在Fast、Thinking和Pro模型中全面取代Nano Banana Pro,想要「顶配」的用户依然可以通过三点菜单选择「重新生成图像」来切换回Nano Banana Pro。
![]()
顺便提一句:图片生成的数量,每天是有限额的。
未订阅Google AI方案的用户,24小时内最多可生成100张图片;已订阅Google AI Plus、Pro或Ultra的用户,这个上限提升到1,000张。
对于大多数人来说足够用了,重度创作者可以考虑上个订阅。
![]()
谷歌的老本行——搜索,也安排上了。包括Google App、移动端和桌面端的AI Mode,以及智能镜头(Lens)。
![]()
开发者可以在AIStudio、GeminiAPI和Vertex AI中拿到预览版,Google Antigravity同样支持。
Flow的用户更是直接受益——Nano Banana 2成了默认模型,全员免积分使用。
![]()
GoogleAds里也集成了,创建广告系列时会自动提供智能建议。
![]()
转载原创文章请添加微信:founderparker
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.