网易首页 > 网易号 > 正文 申请入驻

「香蕉革命」首揭秘!谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型

0
分享至

新智元报道

编辑:定慧 好困

【新智元导读】谷歌最新图像模型nano banana横空出世,它不仅能融合多张图片拼接出全新画面,还能理解地理、建筑与物理结构,甚至将二维地图转化为三维景观。凭借Gemini的世界知识与交错生成技术,模型实现了「有记忆」的多轮创作,带来极高一致性与创造力。nano banana正在重塑AI图像生成的边界,也引发了「AI创意伙伴」未来的无限遐想。

纳尼(°ロ°),怎么AI圈子突然就开始「纳米香蕉革命」了。

谷歌没想到自己发布了一个,直接就引爆了社区!

最近这个香蕉实在太火了,仿佛又回到几个月前的OpenAI的「吉卜力热」盛况。

图片由nano banana生成,这个超人COS太赞了

但这次谷歌nano banana带来了更多颠覆性的玩法,不像吉卜力只有一个生成风格,估计谷歌都没有想到网友们的创新力量太绝了。

比如你可以最多上传13张图片,然后让nano banana合并起来

你能相信上面的图片是AI用下面这些「零件」组合起来的吗?

按照谷歌的说法,这次nano banana不仅是一个图像模型,而且具备Gemini强大的世界知识。

这让nano banana的理解能力来到一个新的维度(文章后面有谷歌团队专访,揭秘了模型背后的最新技术路线)

既然可以拼接物理世界的物体,那是不是可以「拼接」人物动作?

这不就是妥妥的分镜吗?然后网友继续用海螺AI制作了如下短片。

感觉用AI拍电影也不是不可能啊!

由于nano banana拥有Gemini的世界知识,你只需上传现实世界的截图,就能让它为你标注内容。

比如在画面中标注东京塔。

还可以标注更多建筑。

左右滑动查看

甚至使用机器人视角,勾勒人物轮廓,这不就是终结者视角吗?赛博朋克味来了!

最神奇的是,nano banana可以从「二维地图」看出「三维世界」。

网友们非常喜欢的用纳米香蕉变换谷歌地图「红色箭头看到了什么」.

比如从西边这个角度看过去的金门大桥。

或者从东边看过去的东京塔。

更神奇的是,纳米香蕉似乎真的理解了地理中的等高线知识,可以从等高线直接绘制出真实地理地貌。

甚至以前让我们头痛的工程绘图视角,都能轻松拿捏。

可以将任意一张图渲染成上、下、左、右、前、后视图。

甚至可以使用nano banana来给自己定制试衣服,任何元素都可以「穿在」身上。

不仅不用再穿衣服,连动作都可以直接复刻。

X上网友@ZHO_ZHO_ZHO用人像+动作框架就可以直接完成摄影棚级别的拍摄效果。

反过来也没问题,可以从图像中,提取现实建筑的物理结构。

甚至,还可以「逆向」P图,首先把原图改为黑白色线框,然后再选择自己喜欢的颜色,最后给图片重新上色。

nano banana转化线稿和上色非常的精准

当然,脑洞和整蛊是不可能缺席的。

比如让奥特曼穿着衣服来玩鞍马。

除了可以做出「新的」图片,nano banana还能修复「老」照片。

补充破损、折痕,还能还原被时间抹去的清晰画面。

由于纳米香蕉nano banana实在太火了,甚至有网友表示,应该给起名字的工程师加薪。

此前nano banana在LMArena上线后迅速风靡。

最终盲测下,Gemini 2.5 Flash Image成绩一骑绝尘。

谷歌这个nano banana明显不同于之前的图像模型,比如GPT-4o原生图像模型,能力确实上了一个台阶。

纳米香蕉背后是否有新的技术,新的体系引进?

正好,谷歌DeepMind团队刚刚接受了采访,讲述了模型背后的故事。

「纳米香蕉革命」

nano banana幕后首次公开

nano banana项目负责人和研究员接受DeepMind产品负责Logan Kilpatrick播客采访,揭秘了模型背后的技术密码:

  • 模型可以访问多模态上下文,然后生成图像。所以模型可以选择查看之前的图像,并尝试生成与之非常不同的东西。

  • 交错生成的神奇之处在于,它为你提供了一种用于图像生成的新范例……将复杂的提示分解成多个步骤,并在不同的步骤中逐一进行编辑。

  • 未来的发展方向是让模型不仅能生成高质量图像,更能理解深层意图……甚至超越用户指令,提供更有创造性的结果,并确保内容的真实性和准确性。

在谷歌DeepMind的访谈现场,主持人Logan Kilpatrick成了新一代Gemini图像模型的首位「受害者」。

产品经理Nicole上传了他的照片,然后向模型下达了一个看似无厘头的指令:

「拉远镜头,给他穿上一套巨大的香蕉服,脸要露出来。」

短短几秒后,结果呈现在屏幕上。

照片里的Logan依然是他,但身上却天衣无缝地套着一件亮黄色的香蕉道具服,背景切换到了芝加哥的街景。

「太有趣了,」Logan惊叹道,「这张照片是在芝加哥拍的,那条街实际上差不多就是那个样子。」

「纳米香蕉」是个什么梗

紧接着,Nicole又输入了一个更神秘的指令:「把它变成nano风格。」

「这是什么意思?」Logan一头雾水。

屏幕上,一个穿着香蕉服的Q版Logan出现了,可爱又精致。

谜底揭晓:原来,「nano banana」(纳米香蕉)是这款新模型在早期匿名测试平台LMArena上使用的代号。

这个模型聪明到能理解这个「内部梗」,并以极富创意的方式执行了指令。

这种「聪明」的背后,是新模型最核心的技术——原生与交错式生成(Native and Interleaved Generation)

对于传统的图像模型来说,每次编辑都像是一次「失忆」后的重新创作;相比之下,Gemini则像是一位「有记忆」的画家。

也就是,当Gemini进行多轮创作时,一切都在模型的上下文中——它记得上一笔画了什么,也理解对话的来龙去脉。

为了证明这一点,团队展示了另一个酷炫的例子:「把主体变成五种不同的1980年代美式商场风。」

模型不仅在短短13秒内生成了五张风格各异但主角高度一致的照片,甚至还贴心地为每张图起了「街机之王」、「酷盖」、「泡商城达人」、「淡定哥」这样充满年代感的标题。

左右滑动查看

而且,这不仅对角色构建有用,你也可以拍下自己房间的照片,让它帮你设计五种不同的装修风格。

在谷歌内部,已经有很多人用它来重新设计自己的花园和房间了!

在推特「差评榜」上淬炼

有趣的是,如此强大的模型,竟然是在网友的各种吐槽中诞生的。

研究工程师Robert坦诚地回忆:「(2.0版本发布后)我们真的就坐在X(推特)上,一条条地看用户的反馈和抱怨。

比如「编辑后图像风格不统一」、「修改了不该改的地方」等等都会收集起来,并制作成一个专门的内部评估基准——一个名副其实的「推特差评榜」。

在训练过程中,有一个问题曾让研究员Kaushik近乎「疯狂」地执着——文字渲染

「我们曾经在很长一段时间里对他置之不理,」Robert开玩笑说,「觉得这家伙有点疯狂,对文字渲染也太执着了。」

但Kaushik的坚持,最终得到了证明。

具体来说就是,当一个模型能精准地渲染出文字的笔画结构时,它对整个图像的宏观与微观结构的理解力也会随之跃升。

而这个曾经被忽视的细节,最终也成了模型能力进化的关键信号。

Gemini x Imagen秘密联姻

那么,新模型是如何在「聪明」(遵循指令)和「好看」(图像质量)之间取得完美平衡的呢?

答案在于一次关键的内部合作:Gemini团队与Imagen团队的强强联合

你可以把Gemini团队理解为模型的「大脑」,他们赋予模型世界知识、强大的逻辑推理和指令遵循能力。

而Imagen团队,则像是模型的「艺术总监」,他们拥有「被磨练出的、极其敏锐的审美品味」。

对此,Kaushik分享了一个十分戏剧性的场景:「以前我们觉得一个编辑成功了,只要指令完成了就行。但Imagen团队的同事看到后,会直截了当地吐槽说:这太糟糕了。你怎么会想让模型做出这种东西来?!

是的,团队里真的会有对美学非常敏感的成员,去仔细地审查成百上千张图片,并且仅凭肉眼就能判断出模型间的细微优劣。

大家甚至开玩笑说,未来的目标是根据他们的品味,训练一个「审美自动评分器」。

一个比你更聪明的创意伙伴

最后,当被问及未来时,团队的想象力被彻底打开。

Nicole的梦想,可以说是击中了每一个PM的心:「我希望有一天,这个模型能直接为我制作一套看起来很棒的工作幻灯片。它不仅要好看,所有图表和数据都必须是事实准确(Factuality)的。」

而研究员Mostafa的愿景则更具哲学思辨,也更令人激动。他期待的不仅仅是高质量的图像,而是一种全新的智能——「Smartness」

「我期待这样一种情况:我让模型做一件事,它没有完全遵循我的指令。但在看到结果后,我反而会说:我很高兴它没听我的,这结果比我实际描述的还要好!

在Mostafa看来,这并非模型的「失误」或「意外」,而是一种更高层次的智能涌现。

当AI的知识和视角超越用户时,它不再是一个被动的工具,而是一个能主动提供更优解的、比你更「聪明」的创意伙伴。

参考资料:

https://x.com/6xyzzxy1/status/1960736252661260294

https://x.com/Error_HTTP_404/status/1960405116701303294

https://x.com/tokumin/status/1960583251460022626

https://x.com/op7418/status/1960362278357987649

https://x.com/skirano/status/1960343968320737397

https://x.com/yachimat_manga/status/1960555945131696329

https://x.com/alex_prompter/status/1960773176264118429

https://x.com/bilawalsidhu/status/1960529167742853378

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

懂球帝
2026-03-26 12:27:11
押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

押注中国!迪拜资本大转移,数千亿真金白银连夜搬家到东方

小舟谈历史
2026-03-25 06:28:02
台退将提出要求:台湾可以和平回归,但大陆必须要答应2个条件!

台退将提出要求:台湾可以和平回归,但大陆必须要答应2个条件!

百态中的情感起伏
2026-02-16 01:27:29
做人一定不要像张雪峰

做人一定不要像张雪峰

罗sir财话
2026-03-24 21:59:56
东北超长春主帅:大连很强?我可以不客气地说,我们是最好的

东北超长春主帅:大连很强?我可以不客气地说,我们是最好的

懂球帝
2026-03-26 14:13:09
唯一不含草酸的蔬菜!比荠菜、韭菜还鲜嫩,鲜嫩营养正当时,好吃

唯一不含草酸的蔬菜!比荠菜、韭菜还鲜嫩,鲜嫩营养正当时,好吃

阿龙美食记
2026-03-24 09:50:48
乌克兰摧毁俄罗斯最大的基里希炼油厂!俄最大港口持续燃烧

乌克兰摧毁俄罗斯最大的基里希炼油厂!俄最大港口持续燃烧

项鹏飞
2026-03-26 21:13:57
陕西关中行政区划调整的构想

陕西关中行政区划调整的构想

普陀动物世界
2026-03-26 12:44:53
张雪峰妻子李丽婧的相关消息引发关注

张雪峰妻子李丽婧的相关消息引发关注

静水流深003
2026-03-26 12:19:49
运势封神!3.30-4.5三大星座事业翻身,之前没白熬,接好运

运势封神!3.30-4.5三大星座事业翻身,之前没白熬,接好运

别人都叫我阿螫
2026-03-25 14:34:30
原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

证券时报e公司
2026-03-26 22:23:23
真正的双赢!两大全明星一换一,一人完美融入,另一人则重获新生

真正的双赢!两大全明星一换一,一人完美融入,另一人则重获新生

大卫的篮球故事
2026-03-25 21:47:25
为什么中国不军事援助伊朗?看完发现,印度三哥才是最牛逼的

为什么中国不军事援助伊朗?看完发现,印度三哥才是最牛逼的

番外行
2026-03-14 08:55:36
欧股、美股期货全线下挫,美股芯片股、中概股盘前普跌,阿里巴巴跌超3%,原油拉升涨超3%

欧股、美股期货全线下挫,美股芯片股、中概股盘前普跌,阿里巴巴跌超3%,原油拉升涨超3%

21世纪经济报道
2026-03-26 19:46:02
3月26日俄乌:乌克兰的猛烈回击

3月26日俄乌:乌克兰的猛烈回击

山河路口
2026-03-26 17:32:00
核圈失守!以色列防空神话被击穿,伊朗打击圈冲出中东近4000公里,美以伊三方棋局彻底乱了!

核圈失守!以色列防空神话被击穿,伊朗打击圈冲出中东近4000公里,美以伊三方棋局彻底乱了!

国是直通车
2026-03-22 16:00:02
全是智商税!这5个被吹爆的“网红产物”,谁买谁后悔

全是智商税!这5个被吹爆的“网红产物”,谁买谁后悔

家居设计师苏哥
2026-03-24 13:47:31
知名歌手公开玩性感美女大作!网友赌他"最多十分钟"

知名歌手公开玩性感美女大作!网友赌他"最多十分钟"

游民星空
2026-03-26 17:09:32
特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

安安说
2026-03-26 11:41:14
最近全网都在夸陈若琳长得好看,我真的想说:别光看脸啊

最近全网都在夸陈若琳长得好看,我真的想说:别光看脸啊

小光侃娱乐
2026-03-26 06:55:03
2026-03-26 23:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
房产
时尚
公开课
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版