网易首页 > 网易号 > 正文 申请入驻

「香蕉革命」首揭秘!谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型

0
分享至


新智元报道

编辑:定慧 好困

【新智元导读】谷歌最新图像模型nano banana横空出世,它不仅能融合多张图片拼接出全新画面,还能理解地理、建筑与物理结构,甚至将二维地图转化为三维景观。凭借Gemini的世界知识与交错生成技术,模型实现了「有记忆」的多轮创作,带来极高一致性与创造力。nano banana正在重塑AI图像生成的边界,也引发了「AI创意伙伴」未来的无限遐想。

纳尼(°ロ°),怎么AI圈子突然就开始「纳米香蕉革命」了。

谷歌没想到自己发布了一个,直接就引爆了社区!

最近这个香蕉实在太火了,仿佛又回到几个月前的OpenAI的「吉卜力热」盛况。


图片由nano banana生成,这个超人COS太赞了

但这次谷歌nano banana带来了更多颠覆性的玩法,不像吉卜力只有一个生成风格,估计谷歌都没有想到网友们的创新力量太绝了。

比如你可以最多上传13张图片,然后让nano banana合并起来


你能相信上面的图片是AI用下面这些「零件」组合起来的吗?


按照谷歌的说法,这次nano banana不仅是一个图像模型,而且具备Gemini强大的世界知识。

这让nano banana的理解能力来到一个新的维度(文章后面有谷歌团队专访,揭秘了模型背后的最新技术路线)



既然可以拼接物理世界的物体,那是不是可以「拼接」人物动作?


这不就是妥妥的分镜吗?然后网友继续用海螺AI制作了如下短片。

感觉用AI拍电影也不是不可能啊!

由于nano banana拥有Gemini的世界知识,你只需上传现实世界的截图,就能让它为你标注内容。

比如在画面中标注东京塔。


还可以标注更多建筑。





左右滑动查看

甚至使用机器人视角,勾勒人物轮廓,这不就是终结者视角吗?赛博朋克味来了!


最神奇的是,nano banana可以从「二维地图」看出「三维世界」。

网友们非常喜欢的用纳米香蕉变换谷歌地图「红色箭头看到了什么」.

比如从西边这个角度看过去的金门大桥。


或者从东边看过去的东京塔。


更神奇的是,纳米香蕉似乎真的理解了地理中的等高线知识,可以从等高线直接绘制出真实地理地貌。


甚至以前让我们头痛的工程绘图视角,都能轻松拿捏。


可以将任意一张图渲染成上、下、左、右、前、后视图。


甚至可以使用nano banana来给自己定制试衣服,任何元素都可以「穿在」身上。


不仅不用再穿衣服,连动作都可以直接复刻。

X上网友@ZHO_ZHO_ZHO用人像+动作框架就可以直接完成摄影棚级别的拍摄效果。



反过来也没问题,可以从图像中,提取现实建筑的物理结构。


甚至,还可以「逆向」P图,首先把原图改为黑白色线框,然后再选择自己喜欢的颜色,最后给图片重新上色。


nano banana转化线稿和上色非常的精准


当然,脑洞和整蛊是不可能缺席的。

比如让奥特曼穿着衣服来玩鞍马。


除了可以做出「新的」图片,nano banana还能修复「老」照片。

补充破损、折痕,还能还原被时间抹去的清晰画面。


由于纳米香蕉nano banana实在太火了,甚至有网友表示,应该给起名字的工程师加薪。


此前nano banana在LMArena上线后迅速风靡。

最终盲测下,Gemini 2.5 Flash Image成绩一骑绝尘。

谷歌这个nano banana明显不同于之前的图像模型,比如GPT-4o原生图像模型,能力确实上了一个台阶。

纳米香蕉背后是否有新的技术,新的体系引进?

正好,谷歌DeepMind团队刚刚接受了采访,讲述了模型背后的故事。

「纳米香蕉革命」

nano banana幕后首次公开

nano banana项目负责人和研究员接受DeepMind产品负责Logan Kilpatrick播客采访,揭秘了模型背后的技术密码:

  • 模型可以访问多模态上下文,然后生成图像。所以模型可以选择查看之前的图像,并尝试生成与之非常不同的东西。

  • 交错生成的神奇之处在于,它为你提供了一种用于图像生成的新范例……将复杂的提示分解成多个步骤,并在不同的步骤中逐一进行编辑。

  • 未来的发展方向是让模型不仅能生成高质量图像,更能理解深层意图……甚至超越用户指令,提供更有创造性的结果,并确保内容的真实性和准确性。

在谷歌DeepMind的访谈现场,主持人Logan Kilpatrick成了新一代Gemini图像模型的首位「受害者」。

产品经理Nicole上传了他的照片,然后向模型下达了一个看似无厘头的指令:

「拉远镜头,给他穿上一套巨大的香蕉服,脸要露出来。」


短短几秒后,结果呈现在屏幕上。

照片里的Logan依然是他,但身上却天衣无缝地套着一件亮黄色的香蕉道具服,背景切换到了芝加哥的街景。

「太有趣了,」Logan惊叹道,「这张照片是在芝加哥拍的,那条街实际上差不多就是那个样子。」


「纳米香蕉」是个什么梗

紧接着,Nicole又输入了一个更神秘的指令:「把它变成nano风格。」

「这是什么意思?」Logan一头雾水。


屏幕上,一个穿着香蕉服的Q版Logan出现了,可爱又精致。

谜底揭晓:原来,「nano banana」(纳米香蕉)是这款新模型在早期匿名测试平台LMArena上使用的代号。

这个模型聪明到能理解这个「内部梗」,并以极富创意的方式执行了指令。


这种「聪明」的背后,是新模型最核心的技术——原生与交错式生成(Native and Interleaved Generation)

对于传统的图像模型来说,每次编辑都像是一次「失忆」后的重新创作;相比之下,Gemini则像是一位「有记忆」的画家。

也就是,当Gemini进行多轮创作时,一切都在模型的上下文中——它记得上一笔画了什么,也理解对话的来龙去脉。

为了证明这一点,团队展示了另一个酷炫的例子:「把主体变成五种不同的1980年代美式商场风。」


模型不仅在短短13秒内生成了五张风格各异但主角高度一致的照片,甚至还贴心地为每张图起了「街机之王」、「酷盖」、「泡商城达人」、「淡定哥」这样充满年代感的标题。





左右滑动查看

而且,这不仅对角色构建有用,你也可以拍下自己房间的照片,让它帮你设计五种不同的装修风格。

在谷歌内部,已经有很多人用它来重新设计自己的花园和房间了!

在推特「差评榜」上淬炼

有趣的是,如此强大的模型,竟然是在网友的各种吐槽中诞生的。

研究工程师Robert坦诚地回忆:「(2.0版本发布后)我们真的就坐在X(推特)上,一条条地看用户的反馈和抱怨。

比如「编辑后图像风格不统一」、「修改了不该改的地方」等等都会收集起来,并制作成一个专门的内部评估基准——一个名副其实的「推特差评榜」。


在训练过程中,有一个问题曾让研究员Kaushik近乎「疯狂」地执着——文字渲染

「我们曾经在很长一段时间里对他置之不理,」Robert开玩笑说,「觉得这家伙有点疯狂,对文字渲染也太执着了。」

但Kaushik的坚持,最终得到了证明。

具体来说就是,当一个模型能精准地渲染出文字的笔画结构时,它对整个图像的宏观与微观结构的理解力也会随之跃升。



而这个曾经被忽视的细节,最终也成了模型能力进化的关键信号。

Gemini x Imagen秘密联姻

那么,新模型是如何在「聪明」(遵循指令)和「好看」(图像质量)之间取得完美平衡的呢?

答案在于一次关键的内部合作:Gemini团队与Imagen团队的强强联合

你可以把Gemini团队理解为模型的「大脑」,他们赋予模型世界知识、强大的逻辑推理和指令遵循能力。


而Imagen团队,则像是模型的「艺术总监」,他们拥有「被磨练出的、极其敏锐的审美品味」。



对此,Kaushik分享了一个十分戏剧性的场景:「以前我们觉得一个编辑成功了,只要指令完成了就行。但Imagen团队的同事看到后,会直截了当地吐槽说:这太糟糕了。你怎么会想让模型做出这种东西来?!

是的,团队里真的会有对美学非常敏感的成员,去仔细地审查成百上千张图片,并且仅凭肉眼就能判断出模型间的细微优劣。

大家甚至开玩笑说,未来的目标是根据他们的品味,训练一个「审美自动评分器」。


一个比你更聪明的创意伙伴

最后,当被问及未来时,团队的想象力被彻底打开。

Nicole的梦想,可以说是击中了每一个PM的心:「我希望有一天,这个模型能直接为我制作一套看起来很棒的工作幻灯片。它不仅要好看,所有图表和数据都必须是事实准确(Factuality)的。」



而研究员Mostafa的愿景则更具哲学思辨,也更令人激动。他期待的不仅仅是高质量的图像,而是一种全新的智能——「Smartness」

「我期待这样一种情况:我让模型做一件事,它没有完全遵循我的指令。但在看到结果后,我反而会说:我很高兴它没听我的,这结果比我实际描述的还要好!


在Mostafa看来,这并非模型的「失误」或「意外」,而是一种更高层次的智能涌现。

当AI的知识和视角超越用户时,它不再是一个被动的工具,而是一个能主动提供更优解的、比你更「聪明」的创意伙伴。

参考资料:

https://x.com/6xyzzxy1/status/1960736252661260294

https://x.com/Error_HTTP_404/status/1960405116701303294

https://x.com/tokumin/status/1960583251460022626

https://x.com/op7418/status/1960362278357987649

https://x.com/skirano/status/1960343968320737397

https://x.com/yachimat_manga/status/1960555945131696329

https://x.com/alex_prompter/status/1960773176264118429

https://x.com/bilawalsidhu/status/1960529167742853378


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斐济群岛发生6.0级地震 震源深度530千米

斐济群岛发生6.0级地震 震源深度530千米

每日经济新闻
2026-02-11 05:50:05
不想退役!徐梦桃:希望能参加第6次冬奥 决赛前一天还在针灸

不想退役!徐梦桃:希望能参加第6次冬奥 决赛前一天还在针灸

醉卧浮生
2026-02-19 09:39:24
伊朗突然作起死来了...

伊朗突然作起死来了...

西楼饮月
2026-02-18 23:02:15
追赶谷爱凌?莱尔丹被曝年收入或破千万 英媒预测她将成冬奥第二人

追赶谷爱凌?莱尔丹被曝年收入或破千万 英媒预测她将成冬奥第二人

劲爆体坛
2026-02-19 06:54:06
金牌!徐梦桃创造冬奥会历史,裁判争议打分:中国队错失包揽前三

金牌!徐梦桃创造冬奥会历史,裁判争议打分:中国队错失包揽前三

侃球熊弟
2026-02-18 21:21:55
【惊爆】谷爱凌被当街袭击,收大量死亡威胁,宿舍遭窃,留后遗症

【惊爆】谷爱凌被当街袭击,收大量死亡威胁,宿舍遭窃,留后遗症

北国向锡安
2026-02-19 08:44:33
瑞典人三百年持续对华仇恨,背后原因揭秘

瑞典人三百年持续对华仇恨,背后原因揭秘

何氽简史
2026-02-17 14:57:14
意大利知名地标“爱情拱门”突然崩塌,永久消失,当地市长:曾有成千上万的情侣来打卡,旅游业遭“毁灭性打击”

意大利知名地标“爱情拱门”突然崩塌,永久消失,当地市长:曾有成千上万的情侣来打卡,旅游业遭“毁灭性打击”

大风新闻
2026-02-17 19:26:03
南京一商场晚上突发火灾,看电影的观众紧急逃生,应急部门:火已扑灭,无人伤亡

南京一商场晚上突发火灾,看电影的观众紧急逃生,应急部门:火已扑灭,无人伤亡

极目新闻
2026-02-19 12:49:48
中方:日本无论以任何借口行使所谓“集体自卫权”介入台湾问题,都将构成对中国的侵略,中方必将迎头痛击!

中方:日本无论以任何借口行使所谓“集体自卫权”介入台湾问题,都将构成对中国的侵略,中方必将迎头痛击!

环球时报国际
2026-02-19 08:28:03
中国向乌克兰提供36.56亿美元贷款,其他援助也给力

中国向乌克兰提供36.56亿美元贷款,其他援助也给力

史政先锋
2026-02-18 16:06:45
年三十都不消停!65万网贷逾期后,我发现360是最“刑”的一个…

年三十都不消停!65万网贷逾期后,我发现360是最“刑”的一个…

我不叫阿哏
2026-02-18 19:48:44
车祸,黄蜂队球星拉梅洛·鲍尔在夏洛特市中心发生车祸

车祸,黄蜂队球星拉梅洛·鲍尔在夏洛特市中心发生车祸

好火子
2026-02-19 06:36:51
“中国竟在西方赢得人心”,美媒破大防

“中国竟在西方赢得人心”,美媒破大防

观察者网
2026-02-18 19:59:06
“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

真正能保护你的
2026-02-18 10:25:25
美媒称美军做好周末攻击伊朗准备

美媒称美军做好周末攻击伊朗准备

界面新闻
2026-02-19 07:49:36
汪东兴活到了2015年,他对当下中国有何看法?他心里确实有些成见

汪东兴活到了2015年,他对当下中国有何看法?他心里确实有些成见

明月清风阁
2026-02-19 07:25:09
亏损超5亿,吴京尽力了,2026年春节档第一票房惨案诞生了

亏损超5亿,吴京尽力了,2026年春节档第一票房惨案诞生了

靠谱电影君
2026-02-17 20:53:41
6-1!“喜鹊军团”制造欧冠大惨案,客场无情斩落黑马!

6-1!“喜鹊军团”制造欧冠大惨案,客场无情斩落黑马!

田先生篮球
2026-02-19 06:30:54
河南商丘多人在国道边停车捡“银子”,交警:系铝合金废料,暂不清楚来源

河南商丘多人在国道边停车捡“银子”,交警:系铝合金废料,暂不清楚来源

极目新闻
2026-02-19 12:49:48
2026-02-19 13:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14554文章数 66630关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

美军数十年"最大规模"集结中东 特朗普被指仍在"思考"

头条要闻

美军数十年"最大规模"集结中东 特朗普被指仍在"思考"

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

数码
教育
房产
旅游
公开课

数码要闻

戴森推出PencilWash洗地机:专清硬质地面污渍,售349美元

教育要闻

马年伊始,请带上这10句话整装出发!

房产要闻

顶豪抢房潮席卷全国! 中旅馥棠公馆项目395㎡大平层加推入市!

旅游要闻

这些乡村何以最佳(余音)

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版