网易首页 > 网易号 > 正文 申请入驻

谷歌香蕉模型一夜登顶!干翻GPT-4o和FLUX,坐稳AI图像之王

0
分享至

智东西8月27日报道,今天,谷歌推出了Gemini 2.5 Flash Image,这款模型是谷歌最先进的图像生成和编辑模型。

这一模型的核心亮点是其图像编辑能力。谷歌称,这一模型可将多个图像混合到单个图像中,保持高度角色一致性,还能使用自然语言进行有针对性的修改,并充分利用Gemini的世界知识。

诺贝尔奖得主、谷歌DeepMind CEO Demis Hassabis用自己的照片为新模型做宣传,展示Gemini 2.5 Flash Image的角色一致性。他将自己的一张照片背景做了修改,切换为古典风格,但是人物的容貌没有出现改变。

上述能力也解锁了不少有趣的用例,比如,按照特定视觉模板打造“球星卡”一般的设计,让普通人也能一键体验顶级运动员才有的待遇。

这一模型与谷歌Veo 3等视频生成模型是绝配,结合使用后可以打造出丰富的视频效果。海外AI创意平台Kera AI已经用类似的模式,打造了一部广告大片。

这款模型在上周其实已经以“nano-banana”的代号出现在大模型竞技场中,并获得了用户200多万票的认可。如今正式揭晓后,Gemini 2.5 Flash Image在文生图与图像编辑两个场景均拿下了全球第一,在图像编辑榜单上更是获得1362的高分,较第二名的领先幅度接近15%。

在谷歌公布的基准测试中,Gemini 2.5 Flash Image在用户综合喜好度、人物、创造力、信息图、物体和环境的生成上均领先GPT-4o图像生成、Flux.1 Kontext(max)、Qwen Image Edit等模型,但在风格化能力上与GPT-4o图像生成仍有差距。

Gemini 2.5 Flash Image是一款主要面向开发者的模型,目前可在Gemini API、Google AI Studio、以及面向企业的Vertex AI中获得。

这一模型的价格为30美元/100万个输出token,每张图像为1290个输出token,每张图像价格约为0.039美元(折合人民币0.28元)。所有其他输入和输出模态均遵循Gemini 2.5 Flash定价。

为了让使用Gemini 2.5 Flash Image打造AI应用更为容易,谷歌还对AI Studio的“构建模式(Built Mode)”进行了重大更新。开发者可以使用利用AI打造应用程序,快速测试Gemini 2.5 Flash Image等新模型的功能。

当准备好发布应用时,开发者可以直接从谷歌AI Studio进行部署,或将代码保存到GitHub。谷歌也在博客中集中展示了几个案例:

超强角色一致性,帮Altman一键穿越

在多轮对话和编辑中保持角色和对象外观的一致,是图像生成与编辑的重大挑战。谷歌的Gemini 2.5 Flash Image允许用户将同一个角色放置在不同的环境中,在新环境中从多个角度展示单个产品,或生成一致的品牌资产,同时保留主题。

在下方的示例应用中,用户仅需上传一张自己的自拍,就能生成从50年代到00年代的六张写真,每张都有当时的年代风格,用户的面貌并没有出现明显的偏离。


智东西也上传了一张OpenAI联合创始人兼首席执行官Sam Altman的照片,谷歌的新模型直接让Altman一键穿越回过去,画面质感超真实,连每个年代的服饰都准确还原了。

这种一致性还可用于专业设计场景。例如,用户可以给模型提供一种特定的纹理,并要求其进行替换。模型能在不改变形状和细节的前提下,完成纹理的更换。

体验链接:

https://aistudio.google.com/apps/bundled/past_forward?showPreview=true&showAssistant=true

一句话精准P图,光线、色彩全可自定义

Gemini 2.5 Flash Image支持使用自然语言进行有图像转换和编辑。例如,模型可以模糊图像的背景、去除T恤上的污渍、从照片中删除整个人物、改变拍摄对象的姿势、为黑白照片添加颜色等。

为了展示这些功能的实际应用,谷歌在AI Studio中构建了一个照片编辑模板应用。可以看到,这一照片编辑应用支持对特定区域进行选中和修改,或是进行大范围调整和滤镜处理。

智东西上传了一张扎克伯格的照片,并要求模型进行微调,让牙齿看上去更白。

最终生成结果如下,可以看到修改后扎克伯格的其他外貌特征没有出现明显变化。

也可以通过预设的提示词,对图像的光线、背景等进行自定义。下图中,写真的光线便被调整得更加温暖。

体验链接:

https://aistudio.google.com/apps/bundled/pixshop

具备大量世界知识,能看懂手绘插图

过去,许多图像生成模型虽然能打造出精美的画面,但对现实世界缺乏深刻的语义理解。谷歌称,Gemini 2.5 Flash Image拥有Gemini的世界知识,为展示这点,他们打造了一个模板应用,将简单的画布变成了一个互动式教育导师。

演示中,Gemini 2.5 Flash Image能够理解手绘的各类画面,并解答用户提出的各类问题。

这种世界知识还让模型能够预测图像未来的变化,具备一定图像推理能力。比如,当看到气球飞翔仙人掌时,模型能够根据用户“预测下一个可能场景”的指令,生成气球破碎的画面。

体验链接:

https://aistudio.google.com/apps/bundled/codrawing?showAssistant=true&showPreview=true

多图融合能力出众,可实现精准商品展示

Gemini 2.5 Flash Image可以理解和合并多个输入图像,这在电子商务等场景中有很强的实用价值。例如,商家可以在同一场景中用AI生成不同产品的宣传照,或是给客户提供家具等产品摆放在真实场景中的样子。

下方是谷歌提供的一个案例,只需将左侧的台灯拖拽到右侧的场景中,稍等一段时间,就能看到摆放后的效果。可以看到模型不仅将台灯元素加入画面,还开启了灯光。不过,生成过程明显加速了。

多图融合能力还可用于创意图像的生成。例如,融合鲸鱼与高山的两张照片,打造出极具视觉冲击力的视觉效果。

体验链接:

https://aistudio.google.com/apps/bundled/home_canvas?showPreview=true&showAssistant=true

Gemini 2.5 Flash Image发布后,海外网友已经第一时间玩起来了。这位网友利用它客户打造了月饼广告宣传照,他称,同样的提示词,在Midjourney里要花上10倍的调整和微调才能产生类似的结果。

还有网友分享了自己利用Gemini 2.5 Flash Image结合Veo 3打造的视频。在这一过程中,Gemini 2.5 Flash Image生成了许多不同角度的镜头画面,而Veo 3负责将它们变为视频。最终的效果十分惊艳。

不过,也有用户吐槽这款模型的审查十分严格,例如,无法生成人们拿着刀和斧头的画面。

结语:图像编辑再进化,或成重要生产力工具

从某种意义上来说,准确的图像编辑能力是图像生成走进真实生产场景中最关键的能力之一。在电商等场景中,这一能力满足了企业用户对精确控制的需求;而在娱乐场景里,这一能力可以给用户提供丰富的体验和玩法。

当前,已有多家国内外大模型厂商推出图像编辑模型,这一领域的最新进展值得持续关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德转官宣!上港已完成外援补报工作,已跟队训练半年的他将出战

德转官宣!上港已完成外援补报工作,已跟队训练半年的他将出战

振刚说足球
2026-06-25 09:38:04
一些知道后很爽的“冷知识”,我就说,这个世界不能没有网友吧!

一些知道后很爽的“冷知识”,我就说,这个世界不能没有网友吧!

三农老历
2026-06-23 03:15:02
中国脑梗发病率世界第一!医生苦劝:罪魁祸首已揪出,这4物少吃

中国脑梗发病率世界第一!医生苦劝:罪魁祸首已揪出,这4物少吃

医学科普汇
2026-06-17 18:55:13
英媒曝中国富人集体逃离新加坡!网上疯传:中国不给脸,新加坡就是个县?

英媒曝中国富人集体逃离新加坡!网上疯传:中国不给脸,新加坡就是个县?

新加坡眼
2026-06-25 22:25:51
目前为止你悟出最大的道理是什么?网友:不要向任何人诉苦!

目前为止你悟出最大的道理是什么?网友:不要向任何人诉苦!

另子维爱读史
2026-06-15 23:18:52
79岁王奎荣将北京140平房子、2000多万存款,全部赠予小37岁妻子

79岁王奎荣将北京140平房子、2000多万存款,全部赠予小37岁妻子

老鹈爱说事
2026-06-23 02:15:54
CBA记者:广东队和杜锋的续约没有进展

CBA记者:广东队和杜锋的续约没有进展

体育哲人
2026-06-25 22:34:26
美国断供C919发动机1年后,世界才发现,中国造出了一台更好的

美国断供C919发动机1年后,世界才发现,中国造出了一台更好的

商业财经风向
2026-06-18 10:39:45
笑疯了!女子嫌胸部太大,忍无可忍果断缩胸,评论区太敢说了!

笑疯了!女子嫌胸部太大,忍无可忍果断缩胸,评论区太敢说了!

谭谈社会
2026-06-08 11:58:48
关键时刻,卢卡申科跑到俄罗斯躲起来了!

关键时刻,卢卡申科跑到俄罗斯躲起来了!

李未熟擒话2
2026-06-25 08:59:21
“东风-17首次公开高超音速导弹发射画面震惊美军”,国防部回应:今年是中国战略导弹部队组建60周年,不必过度关联解读

“东风-17首次公开高超音速导弹发射画面震惊美军”,国防部回应:今年是中国战略导弹部队组建60周年,不必过度关联解读

扬子晚报
2026-06-25 17:31:23
汪小菲深夜和马筱梅街头发生争执,有人赶忙劝解,场面一度尴尬!

汪小菲深夜和马筱梅街头发生争执,有人赶忙劝解,场面一度尴尬!

阿凫爱吐槽
2025-04-07 10:41:46
“霉霉”被曝7月3日举办婚礼:婚礼地点泄露,纽约一街道将封街3天,最多999人参加;特朗普曾发帖祝福

“霉霉”被曝7月3日举办婚礼:婚礼地点泄露,纽约一街道将封街3天,最多999人参加;特朗普曾发帖祝福

鲁中晨报
2026-06-25 21:23:16
隆江猪脚饭!曾经的打工人神饭,如今快凉透了

隆江猪脚饭!曾经的打工人神饭,如今快凉透了

草莓甜甜
2026-05-25 15:55:15
山东最大地下高铁站冲刺收尾,零距离换乘高铁地铁航空

山东最大地下高铁站冲刺收尾,零距离换乘高铁地铁航空

金哥说新能源车
2026-06-25 11:45:03
幽默段子:闺蜜离婚后伤心,一次大醉,群发消息“谁给五万就嫁”

幽默段子:闺蜜离婚后伤心,一次大醉,群发消息“谁给五万就嫁”

石辰搞笑日常
2026-06-23 15:06:34
中国或将迎来前所未有的死亡高峰?专家:是这些关键因素导致的

中国或将迎来前所未有的死亡高峰?专家:是这些关键因素导致的

离离言几许
2026-06-26 00:33:18
勇士队老板和总经理曾收到过,关于交易其NBA选秀乐透签的报价

勇士队老板和总经理曾收到过,关于交易其NBA选秀乐透签的报价

好火子
2026-06-26 00:52:30
iOS 27 更新,国行 iPhone AI 功能彻底移除!

iOS 27 更新,国行 iPhone AI 功能彻底移除!

花果科技
2026-06-23 15:13:52
红十七军军长张涛战场叛变投敌,建国后自首认错最终结局如何

红十七军军长张涛战场叛变投敌,建国后自首认错最终结局如何

磊子讲史
2026-06-18 17:11:27
2026-06-26 01:44:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12127文章数 117112关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

佛得角震撼世界足坛 佛得角足协给中国男足支招

头条要闻

佛得角震撼世界足坛 佛得角足协给中国男足支招

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

游戏
手机
健康
亲子
教育

R星官宣《GTA6》开启预购!官网现已开放购买入口

手机要闻

安卓首个液态玻璃!荣耀MagicOS 11上手实拍:效果可自由调节

医生如何快速诊断脑梗和脑出血?

亲子要闻

儿科其实是一个接近动物学的专科!来看看大家的经历吧!

教育要闻

这是南京什么神仙学校?高分学子扎堆!

无障碍浏览 进入关怀版