网易首页 > 网易号 > 正文 申请入驻

一根香蕉引发的AI狂潮

0
分享至


你看到的OOTD图,可能是AI做的。


文|朗宁

编|陈梅希

八月中旬,一个低调的匿名模型悄然登陆海外AI测评平台LMArena,没有开发者标签,也没有品牌背书,只有一个奇怪的代号“Nano Banana”。

虽然看起来老实巴交的,但Nano Banana却在平台的Battle模式中,展现出惊人的图像一致性和自然语言编辑能力,轻松击败了众多知名对手。网友们被其一骑绝尘的硬实力折服,自发为它打上“一致性之王”和“Photoshop杀手”等标签。

很快,Nano Banana的热度从AI测评平台蔓延至Reddit和Discord的技术论坛中,人们激烈讨论模型本身的同时,都试图揭开背后开发者的神秘面纱。

正当网友众说纷纭、如火如荼地解谜时,谷歌AI Studio负责人Logon在X平台发布了一个香蕉表情符号,DeepMind产品经理Naina也分享了一张香蕉艺术贴墙作品,加上谷歌以往就有将小型模型命名为Nano的历史,答案变得呼之欲出。


当Nano Banana的热度攀升到峰值时,谷歌终于在8月27日亲自下场揭晓答案:Nano Banana正是其全新推出的图像生成与编辑模型Gemini 2.5 Flash Image。

这场匿名模型引发的全球竞猜游戏,以谷歌官宣认领而告终,但颠覆性的AI图像狂潮,才刚刚开始。


Nano Banana风暴席卷互联网

Nano Banana正式上线一周后,谷歌实验室总裁Josh Woodward在X平台透露,该模型全面推出后已累计完成超2亿次图像编辑,为Gemini吸引了超过1000万新用户,其火爆程度甚至导致谷歌内部“TPU严重过载,SRE警报不停”

汹涌而来的热情用户,让Nano Banana几乎刷屏了全球各大社交媒体,人们争先恐后参与体验、开发新玩法、分享传播的盛景,不禁令业内人士发出“好像2023年ChatGPT时刻”的感叹。

率先出圈的是Nano Banana多元素拼接的玩法,用户可以上传一张多元素排布图,并给图中每个物品打好标签,然后在指令中下达你想要生成的图片概述即可。

比如一位叫Travis David的用户在X发文称,他将13个元素排布在一张图里上传到Nano Banana,轻松获得了一张堪比VOGUE杂志的时尚大片。


Travis发文中表示,目前13个元素几乎逼近Nano Banana的上限

多元素拼接功能在海量用户的开发下,很快出现各类邪修玩法。

最基础的当属“实现OOTD自由”,以往需要费劲心思扒明星同款穿搭的时尚博主们,如今只要把图片上传给Nano Banana,模型就能秒出穿搭清单,甚至二次元动漫角色的穿搭也能被转化为OOTD图。


只需要上传图片,提示词是“向我展示这个人物的ootd“即可

实测过程中,刺猬公社发现,用户甚至可以让Nano Banana按照指令生成某种风格的模特穿搭图,再将生成的穿搭图拆解为OOTD,全程仅耗时三分钟。拆解OOTD过程中,它犯了一个小小的错误,导致“靴子”单品出现两次,提出修改指令时,它也能“听懂人话”,只删掉多余元素,没有改动图片的其他部分。


AI生成的模特图和OOTD,生成工具:Gemini2.5FlashImage(Nano Banana)

这个使用场景反过来同样惊艳,对于日常真人出镜拍摄OOTD的网红模特来说,大可以省去画全妆、找场地、摆pose等一系列为了出片所做的繁琐工作,选一张状态好的全身照、一张面部写真,再把穿搭单品图片上传,写真级别且无需修图的素材转瞬即得。


反向适用于OOTD试穿/图源:互联网

除了应用于人与物之间的图像生成,网友们还发现Nano Banana同样适用于人与人关系的拼贴,这让一众追星党们直呼万岁。

无论是遥不可及的好莱坞巨星,还是叱咤风云的商界巨擎,就算是叫嚣着自己是火星人的马斯克,只要一声令(prompt)下,都得千里奔赴来跟你拍一张合照。


让天下没有追不到的星/图源:互联网

而更进阶、也是近期最出圈的玩法,就是利用Nano Banana自制手办。

简单的操作是上传自家毛孩子、明星、二次元偶像的图片,直接下令生成适用手办制作的图像,Nano Banana就会给出建模图,甚至连手办成品的细节图乃至视频也能获取。


Nano Banana制作的手办效果图/图源:互联网

虽然还没有用户实测做出手办的分享,但刺猬公社发现在万能的电商平台上,已有商家开始承接基于Nano Banana生成图像的手办制作。经我们询问,该商家表示AI生成的手办建模图只能作为参考,实物做出来仍有差距。


左侧是用户上传图片,右侧是商家根据Nano Banana生成图片制作的手办

很多人看到这里也许已瞠目结舌,但Nano Banana的全部实力远不止于此,比如它在地图和建筑领域的空间推理图像再生效果,就让很多专业人士啧啧称奇。

Nano Banana的地图视觉推理能力之强,可以在只上传一张平面地图的情况下,按照用户打的标签和指令,平地起高楼般生成地图对应的实景。


一位用户在地图上标注鸟巢,Nano Banana生成的实景/图源:互联网

相对应地,如果用户上传一张城市建筑实景图,Nano Banana又能清晰地给出图中建筑的模型图,或者按照用户的要求标注图片建筑的相关信息。


在用户指令要求下,Nano Banana可标注建筑信息/图源:互联网

不仅如此,有网友实测这个功能同样适用于数码电子产品甚至智能汽车。


右边是模型生成的内部结构图/图源:互联网

随着Nano Banana的走红,层出不穷的创意玩法以日为单位被开发出来,利用模型做漫画分镜、给线图上色,甚至直接生成有连贯剧情的电影画面…….

上述一切的发生只用了短短两周时间,其爆发速度甚至超越了当年横空出世的ChatGPT。


剥开Nano Banana的香蕉皮

剥开这款AI产品的香蕉皮,就会发现Nano Banana能够风靡社交媒体,绝非仅是互联网营销的胜利,更是一场技术范式的突破。

通俗来说,Nano Banana的技术突破可以理解为一整套针对“理解-生成-保持一致-快速迭代”闭环的工程化解决方案。

在理解上,早期的AI模型往往“偏科”严重,ChatGPT有很强的文字读写能力,但不太懂图像;而Midjourney和DALL-E 3为代表的模型,绘图能力虽强但对文字的解读却很浅显,经常把指令的需求搞错。

原因在于这些传统模型更像一个“翻译官”,它将用户的指令(prompt)转化成一个中间的、抽象的数学表示,然后图像生成模型再根据这个数学表示来绘图。

这种单向管道式的工作原理,一方面不可避免地会在“中间表示”环节丢失大量原始指令的细微语义;另一方面,它很难原生地处理图像输入,当用户上传一张图片进行编辑时,模型需要先将图片“反向翻译”成中间表示,然后再进一步绘图。

而Nano Banana则像一个生于多语言环境的人,从训练之初就以文本、图像、代码等数据给模型学习,因此它不再需要将一个模态“翻译”成另一个模态,而是天然就具有多模态语义对齐能力。正是这种在文字和图像之间无缝丝滑的切换能力,使得用户可以用日常对话的形式(模糊指令),无痛用嘴修图。


Nano Banana团队/图源:DeepMind

Nano Banana的技术突破远不止于此,它在交错式生成一致性保持上,也对传统模型进行了降维打击。

顾名思义,交错式生成指模型能够在一个连续的、多步骤的会话中,综合理解所有上下文的能力,包括用户之前下达的文字指令、上传的图片,以及模型自己生成的历史结果;而一致性保持则指模型在多次生成和编辑中,保持特定主题(人物、物体、风格)的核心能力,也是AI图像模型长期竞逐的“圣杯”。

用一个例子来呈现Nano Banana与传统模型的差距,假设任务是为哈利波特创作一组不同场景下的插图。

传统模型就像是与多位独立的插画师合作,每次下达任务前,你都需要用文字重新描述哈利的全部特征“黑头发、绿眼睛、圆眼镜,额头有闪电伤疤”,但令人抓狂的是,每个插画师对文字的理解不尽相同,最终得到的每张图片的哈利虽然都有上述特征,但看起来并不像同一个人。

不仅如此,独立插画师之间对彼此的风格并不了解,如果你想让插画师B绘制“哈利在图书馆复习的场景,且与插画师A负责的魁地奇球场分镜风格一致“,这几乎是不可能完成的任务,因为插画师B既不知道魁地奇球场什么样,也不知道插画师A的风格是什么。

而Nano Banana则像一位与你长期合作的资深插画师,你只需要在最开始工作时告诉他哈利的特征,然后就能与老友对话般轻松和流畅的方式,让这位记忆力绝佳的艺术家,听从你的调遣。

此外,Nano Banana有着远超传统模型的快速迭代能力

任何好模型若无法快速响应用户,都会极大降低破圈与普及的潜力。在对用户指令的响应与快速迭代上,传统模型就像用打字机写作,任何一个修改都可能需要重打整页纸,而Nano Banana则进化到了word写作,可以随时删除/修改局部,并立刻看到整篇文章(图像)的新面貌。

Nano Banana能实现这一突破,不仅在于团队将模型压缩优化到实际产品中以秒级响应(实测约13秒/张)返还高清图像,上述多模态语义对齐、交错式生成和一致性保持等优势的加持,也是Nano Banana对用户指令快速响应迭代的重要原因。


颠覆、重塑与共生

从问世到席卷全球的两周时间,Nano Banana的冲击波同样撼动了资本市场与产业端的神经。

谷歌发布Nano Banana当日,创意软件巨头Adobe的股价就应声下跌约2%;比即时波动更关键的是长线走势,据Business Insider报道,Adobe的股价在过去一年累计下跌了35%,主要原因之一就是极速发展的人工智能带来的颠覆性变革。

颠覆带来的危机感随着网友不断解锁Nano Banana的新玩法,传导至更多职业领域。

一位刚入行的电商服装模特告诉刺猬公社,原本中小商家聘请模特拍摄每天成本约1500元/人,上架时间至少以周为单位,而Nano Banana能将这一整套流程压缩至分钟级,“如果AI生成图像的细节继续完善下去,未来肯定不需要这么多真人模特了”。


只要给到人物肖像图、产品图和简单指令,Nano Banana就能生成商品效果图/图源:互联网

还有很多电商摄影师、后期修图师,乃至视觉设计师,也纷纷在社媒平台发帖调侃称眼看着被AI抢了饭碗,准备转行去卖咖啡、送外卖、开滴滴。

AI在产业端造成的轰动不仅发生在图像赛道,就在谷歌上线Nano Banana的前一天,翻译界的最高学府蒙特雷国际研究学院宣布关闭,这家曾培养了大量外交官、翻译专家和国际NGO组织负责人的顶级名校,自ChatGPT问世以来生源大幅锐减,最终陷入财务困境。

但历史上的技术革命告诉我们,创新从未单纯地使某个行业消亡,旧生产关系被颠覆的同时,必然伴随产业重构和新职业的诞生。

模特行业不会消亡,但将走向分化,“批量平替”需求势必会被AI取代,但只有人类才能表现出的“故事性”与“情感细节”,始终是市场的稀缺资源。

与此同时,商业摄影师、修图师和设计师的角色也在被重塑,他们的核心价值不再局限于操控相机或软件,而是延展到审美判断、叙事构思和情绪引导,以及最关键的新能力:驾驭AI实现创作意图。

而对于Adobe在内的工具型平台而言,摩根士丹利分析师认为,这些应用软件在AI时代的价值,在于提供“最后一公里”服务

事实上,互联网用户对于图像和文字生成的需求,无论是千人千面的多样化程度,还是用户基数决定的庞大且碎片化的指令数量,都决定了通用AI模型很难提供端到端的完美解决方案。

因此就像物流运输公司负责中途货运,最后一公里交由快递站点配送一样,Adobe等平台目前也开始接入第三方基础大模型,并基于自身的数据与资源进行后期训练,最终打造出更贴合用户需求、更专业的AI落地产品。

换一种视角看,这场技术浪潮并不是一场零和游戏。Nano Banana的出现加速了产业洗牌,但同时也在打开新的机会窗口。无论是创作者、设计师还是企业,真正的挑战并非如何抵挡AI,而是如何找到与之协作的路径。

工业革命时期的机器扩展了人类的肌肉力量,如今的生成式AI则在延展人类的想象力和表达力。或许我们正在进入一个全新的内容创作阶段,在这里,人与AI并非对立的两极,而是互为补充的伙伴关系。

与AI共生的时代,正缓缓拉开帷幕。



媒介合作联系微信号|ciweimeijiejun

如需和我们交流可后台回复“进群”加社群

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新华社权威快报|8月国民经济运行总体平稳、稳中有进

新华社权威快报|8月国民经济运行总体平稳、稳中有进

新华社
2025-09-15 10:03:18
最后的白面板旗舰!一图读懂魅族22:2999元

最后的白面板旗舰!一图读懂魅族22:2999元

快科技
2025-09-15 18:08:40
甘肃兰州市副市长靳芳已任市委常委

甘肃兰州市副市长靳芳已任市委常委

澎湃新闻
2025-09-15 17:16:30
小S官宣复出,称想给大S打电话,网友曝其一直在花大S的钱

小S官宣复出,称想给大S打电话,网友曝其一直在花大S的钱

不八卦掌门人
2025-09-15 17:41:17
林彪身亡后,毛主席不想再见江青,汪东兴:只要您下令,我就敢拦

林彪身亡后,毛主席不想再见江青,汪东兴:只要您下令,我就敢拦

帝哥说史
2024-09-18 20:10:02
痛心!38岁江苏美女教师梁娇去世,丈夫去世不到百天,女儿才7岁

痛心!38岁江苏美女教师梁娇去世,丈夫去世不到百天,女儿才7岁

云舟史策
2025-06-23 09:35:09
定了!确认是张艺谋

定了!确认是张艺谋

山野卢员外
2025-09-14 21:45:53
南京江北核心区楼盘房价跌至1字头,100万的房子,现在只要一半?

南京江北核心区楼盘房价跌至1字头,100万的房子,现在只要一半?

坠入二次元的海洋
2025-09-15 15:46:06
去过国外才明白:为什么欧美都排斥手机付款,国人却视为骄傲

去过国外才明白:为什么欧美都排斥手机付款,国人却视为骄傲

诗意世界
2025-09-10 10:22:01
“玉米是所有粗粮里最会骗人的”,网友:天塌了,每天都让老公吃

“玉米是所有粗粮里最会骗人的”,网友:天塌了,每天都让老公吃

另子维爱读史
2025-09-08 21:29:22
男子分享“妈妈牌”耐克书包爆火:母亲花了大心思缝的,之前嫌丢人,现在觉得太好看了!耐克:缝得真棒

男子分享“妈妈牌”耐克书包爆火:母亲花了大心思缝的,之前嫌丢人,现在觉得太好看了!耐克:缝得真棒

极目新闻
2025-09-14 15:42:41
央视曝福建舰最大短板:无法同时起降战机,调度能力落伍了!

央视曝福建舰最大短板:无法同时起降战机,调度能力落伍了!

起喜电影
2025-09-15 09:56:31
英媒:中方据悉已正式邀请特朗普访问北京,但这老头好像不太想去

英媒:中方据悉已正式邀请特朗普访问北京,但这老头好像不太想去

大道无形我有型
2025-09-14 13:06:49
甘愿放弃中国国籍,交531亿罚款,赵长鹏成全球最信美国的大冤种

甘愿放弃中国国籍,交531亿罚款,赵长鹏成全球最信美国的大冤种

青眼财经
2025-09-15 18:17:37
给乌克兰捐款5亿美金?李嘉诚紧急发声,更大的“麻烦”却在后面

给乌克兰捐款5亿美金?李嘉诚紧急发声,更大的“麻烦”却在后面

小鬼头体育
2025-09-15 12:31:33
为什么中美双方宁可两败俱伤,也不肯给对方一个台阶?

为什么中美双方宁可两败俱伤,也不肯给对方一个台阶?

荆楚寰宇文枢
2025-09-14 22:17:26
蒙古国最大铜矿卖给澳洲,放话不准卖给中国矿石,16年后却成这样

蒙古国最大铜矿卖给澳洲,放话不准卖给中国矿石,16年后却成这样

霁寒飘雪
2025-08-03 09:21:07
湖南18岁女生和父亲西藏自驾游,母亲发现纸篓脏东西,崩溃了

湖南18岁女生和父亲西藏自驾游,母亲发现纸篓脏东西,崩溃了

纸鸢奇谭
2024-10-02 19:27:38
王晶终于坦白!张柏芝婚变主因不是王菲,而是让她3年怀孕5次的人

王晶终于坦白!张柏芝婚变主因不是王菲,而是让她3年怀孕5次的人

书雁飞史oh
2025-08-20 12:24:23
26人被查,13人被处分

26人被查,13人被处分

大象新闻
2025-09-15 14:39:12
2025-09-15 20:04:49
刺猬公社 incentive-icons
刺猬公社
听记者讲幕后,听新闻前辈讲古
9767文章数 172488关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

"馆长"泼凉水 媒体:谁当选国民党主席对大陆已不重要

头条要闻

"馆长"泼凉水 媒体:谁当选国民党主席对大陆已不重要

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

时尚
艺术
手机
房产
公开课

别再买“网红同款”了,显胖又低级!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

手机要闻

消息称荣耀 MagicPad3 Pro 平板端首发第五代骁龙 8 至尊版

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版