![]()
机器之心报道
编辑:冷猫
三个月前,来自谷歌 AI Studio 负责人 Logan Kilpatrick 的一个香蕉表情暗示了现象级图像生成模型 Nano-banana 出自谷歌,引发了轩然大波。
![]()
Nano-banana,也就是 Gemini 2.5 Flash Image 模型,有多猛大家也不陌生了。无论是修复老照片,还是生成迷你手办,Nano Banana 在图像编辑方面迈出了重要一步,让普通创作者也能轻松表达创意。
我们也曾经翻遍全网,整理了 7 种体现纳米香蕉超强图像理解生成能力的趣味玩法,感兴趣的读者可以回顾一下。
就在前两天,Gemini 3 发布前,Logan Kilpatrick 故技重施,点燃了大家对新模型的期待。
![]()
结果今天下午梅开三度。
![]()
网友说:「停停」。
![]()
在 Gemini 3 重磅登场后,谷歌的王炸模型只剩下了那支传说级的香蕉。
不出所料,就在刚刚,谷歌最新,最强大,最全面的图像生成模型 Nano Banana Pro(Gemini 3 Pro Image)正式登场,挂上了「专业级」后缀的纳米香蕉,结合了 Gemini 3 Pro 的强大推理能力和世界知识,实力再次实现了飞跃。
![]()
- 官方链接:https://gemini.google/overview/image-generation/
简而言之,Nano Banana Pro 主要 Pro 在 :前所未有的控制力、完美的文字渲染效果和更强的世界知识,具备打造工作室级别的设计作品的生成能力。
前所未有的控制力
高分辨率
作为一款图像生成模型,Nano Banana Pro 这次最直观、最能有感的基础能力升级,是能够生成 2K 和 4K 的高分辨率图像。
图像像素量有显著的提升,意味着模型必须同时在细节刻画、画面精度、生成稳定性、一致性以及可控性上全面升级。
除此以外,Nano Banana Pro支持了广泛的图像长宽比,解决了基础款 Nano Banana 使用时很难控制图像比例的痛点问题,尤其是在 Gemini 对话中明确要求图像比例时,Nano Banana 仍不能生成对应长宽比的图像。
![]()
Nano Banana Pro 生成不同比例的超高清图像
得益于多种可用的长宽比和 2K / 4K 高分辨率,谷歌声称:「作品可以直接用于任意平台,从社交媒体到印刷物料。」
更强大的一致性
Nano Banana 火遍全网,其中最重要的原因就在于它令人惊叹的视觉一致性控制。
举个大家最熟悉的例子:只需上传一张简单的服装图和人物照片,再配上一两句限制性文本指令,它就能快速精准地将元素融合,轻松生成风格统一、构图自然,并且保持人物和服装一致的 OOTD 合成照。感兴趣的读者可以看看我们这一篇报道,轻轻松松做一名时尚博主。
而使用 Nano Banana Pro,你可以融合比以往更多的元素:
最多使用 14 张参考图像,保持多达 5 个人物的一致性与相似度。
让我们简单来看两个实例:
![]()
Prompt: Combine these images into one appropriately arranged cinematic image in 16:9 format
![]()
Prompt: A medium shot of the 14 fluffy characters sitting squeezed together side-by-side on a worn beige fabric sofa and on the floor. They are all facing forwards, watching a vintage, wooden-boxed television set placed on a low wooden table in front of the sofa. The room is dimly lit, with warm light from a window on the left and the glow from the TV illuminating the creatures’ faces and fluffy textures. The background is a cozy, slightly cluttered living room with a braided rug, a bookshelf with old books, and rustic kitchen elements in the background. The overall atmosphere is warm, cozy, and amused.
效果非常令人惊讶,Nano Banana Pro 不仅可以保留参考图片中的物体和人物特征,更能够理解参考图片中的背景图像信息,理解光影、材质和图像结构,深刻洞察用户的设计意图。哪怕高达 14 张参考图像,Nano Banana Pro 都能够在新图像中保留全部的细节。
不管是将一张随手勾勒的手绘草图变成可落地的实体产品,还是把技术蓝图转化为质感逼真的 3D 结构,Nano Banana Pro 都能帮你轻松跨越那道长期存在的从想象到落地的鸿沟。
![]()
此外,在设计领域中,Nano Banana Pro 也可以为设计稿一键套入理想的视觉风格,包括品牌主视觉、潮流配色,不同材质和质感的测试效果,它都能快速生成。最终呈现的结果在所有关键特征上都能保持高度统一,从电商图到宣传海报,从社交内容到实体包装,毫无割裂感。
相比 Nano Banana 更强的一致性控制,远远拓展了参考图生成的上限,创造了更多玩法可能。
更灵活的创意控制
![]()
借助 Nano Banana Pro 的全新能力,高级图像编辑不再是专业团队的专属 —— 真正的创意控制权被交回到用户手中。
用户可以对画面进行近乎「分子级」的操控:
- 自由选取并重塑图像任意局部区域,实现精准微调
- 切换摄像机角度,快速生成不同视角与构图
- 调整焦点位置,打造更具叙事感的画面重心
- 应用电影工业级调色,一键改变视觉气质
- 重塑场景光照,从白天到夜晚、从硬光到散景过渡皆可瞬时完成
这些能力让 Nano Banana Pro 从简单的图像生成工具,跃升为一个能够支持创作者进行分镜级、视觉导演级创作的图像引擎。
视频中也简单演示了从一张图像,到天气的重塑,最后使用 Veo 3 模型生成极具电影风格的视频的全过程。下面两个示例不仅能够展示 Nano Banana Pro 强大的创意控制能力,也展开了结合首尾帧视频生成的全新可能。
![]()
Prompt: change lighting of this portrait to from the left, diffused and soft
![]()
Prompt: Focus on the flowers
文字与知识大师
轻松拿捏文字生成
我们知道,在图像生成模型中,生成文本一直是一个难点。
Nano Banana Pro 正是在这一痛点上实现了再一次迭代:它具备非常强大的文本生成能力,能够生成包含更准确、清晰可读、多语言文本的视觉内容。
Nano Banana Pro 是生成图像内可读文本的最佳模型,无论你需要的是一句简短标语还是一整段较长文本,都能够清晰,完整,合理的生成,并且与图像内容完美融合。
![]()
Prompt: make 8 minimalistic logos, each is an expressive word, and make letters convey a message or sound visually to express the meaning of this word in a dramatic way. composition: flat vector rendering of all logos in black on a single white background
![]()
Prompt: Create an image showing the phrase "How much wood would a woodchuck chuck if a woodchuck could chuck wood" made out of wood chucked by a woodchuck.
现在我们可以在视觉设计或海报中创建带有更多细节的文本,具备更广泛的纹理、字体与创意样式。
![]()
另外,凭借Gemini 的增强多语言推理能力,我们可以通过 Nano Banana Pro生成多语言文本,或对内容进行本地化与翻译,从而实现全球化扩展,或更轻松地与朋友和家人分享内容。
就比如将饮料瓶上的英文翻译成韩语,并且无缝的合成在原文字的位置,还能保证超高质量的细节和字体风格。
![]()
Prompt: translate all the English text on the three yellow and blue cans into Korean, while keeping everything else the same
Gemini 3 赋能知识库
由于和 Gemini 3 大模型的深度融合,可以借助 Gemini 3 的高级推理,Nano Banana Pro 不只是生成漂亮的图像,它还能帮助你创建更有用的内容。
Nano Banana Pro 将庞大的知识库融入生成过程,能够比以往的图像生成模型产出更具事实准确性的视觉内容。
此外,在启用相关能力时,通过与Google 搜索的检索基座相结合,模型可以连接到实时的网页内容,生成基于最新数据的输出。
于是我们可以获得准确的解释内容,进一步理解一个事实主题,并且生成语境丰富的信息图和示意图。
这对于需要精确呈现现实信息的应用场景尤为重要,如生物学示意图或历史地图。
![]()
![]()
Nano Banana Pro 生成的制作豆蔻茶的教程图片
更进一步,Nano Banana Pro 还具备根据内容自动生成 PPT 页面的能力。
![]()
无论用户提供的是一段文字、几条要点,还是一篇长文,模型都能自动理解内容和结构,生成对应演示文档图像。实现了「从文字到展示」的流程自动化与智能化的实用进步。
隐形水印,快速验证
Nano Banana Pro 的图像生成能力再次进化后,生成图像和真实图像愈发难以区分。
但谷歌在这次更新发布后,对 AI 图像鉴别采取了新的方法,提高内容来源的透明度。
Gemini 应用中现在加入了一项新功能:用户可以直接验证某张图像是否由 Google AI 生成或编辑。
![]()
从今天开始,用户可以直接在 Gemini 应用中验证某张图像是否由 Google AI 生成或编辑。
如果你看到一张图像并希望确认它是否由 Google AI 生成,只需将其上传至 Gemini 应用,并提出类似于:「这是由 Google AI 生成的吗?」的问题,就可以获取准确的答案。
![]()
这一能力由SynthID实现,这是谷歌的数字水印技术,它将不可察觉的信号嵌入到 AI 生成内容中。谷歌在 2023 年推出 SynthID。自那以来,已有超过 200 亿份AI 生成内容通过 SynthID 加上水印。
Gemini 会检测图像中的 SynthID 水印,并结合自身的推理能力,为用户提供结果,使用户更了解你在网上看到的内容的背景。不久后,谷歌将扩展 SynthID 验证能力,支持包括音视频在内的更多格式,并让这些能力覆盖更多产品,如搜索等。
作为此次发布的一部分,从今天起,通过 Gemini、Vertex AI,Google ADs、Flow 生成的 Nano Banana Pro(Gemini 3 Pro Image)图像都将嵌入 C2PA 元数据,进一步提升图像生成方式的透明度。
面向各类用户上线
谷歌表示,会在多个原本支持旧版本模型的 Google 产品中上线 Nano Banana Pro:
面向消费者与学生
- 在 GeminiApp 中,当你选择 「Create images」并使用 「Thinking」模型时,将在全球范围内陆续上线。
- 免费用户会获得有限的免费额度,用完后将回退至原版 Nano Banana 模型。
- Google AI Plus、Pro 和 Ultra 的订阅用户将获得更高额度。
- 在搜索的 AI Mode 中,Nano Banana Pro 将向美国的订阅用户提供。
- NotebookLM 中,Nano Banana Pro 也将向全球订阅用户提供。
面向专业人士
- Google Ads 将升级图像生成功能至 Nano Banana Pro,让广告主可在 Asset Studio 中使用最前沿的生成与编辑能力。
- 同时,它也将从今天开始陆续向 Workspace 用户推出,包括 Google Slides 和 Google Vids。
面向开发者与企业
- 可通过 Gemini API 与 Google AI Studio 访问,并可在 Google Antigravity 中用于创建丰富的 UX 布局与原型。
- 企业可立即在 Vertex AI 中开始大规模内容创作支持,并且即将登陆 Gemini Enterprise。
面向创意人士
- Nano Banana Pro 将提供给使用 Flow 的 Google AI Ultra 订阅用户,为创作者、导演与营销团队提供更精准、更可控的镜头与场景生成能力。
![]()
Gemini 2.5 Flash Image 和 Gemini 3 Pro Image 模型可通过 Gemini API、Google AI Studio 和 Vertex AI 以付费预览形式使用。
![]()
使用 Nano banana (Gemini2.5 Flash Image)获取更快、更低成本的图像生成/编辑;使用 Nano banana Pro(Gemini 3Pro Image)处理更加复杂、要求更高的任务,但成本与延迟也更高。
https://blog.google/technology/ai/nano-banana-pro/
文中视频链接:
https://mp.weixin.qq.com/s/rZqBxTyDI9KyXod03vteCg
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.