网易首页 > 网易科技 > 网易科技 > 正文

谷歌直接开大!新图像生成模型正式上线,曾匿名屠榜全球第一

0
分享至
核心提示
  • 01 谷歌发布了新一代AI图像生成与编辑模型Gemini 2.5 Flash Image,并将其全面集成至Gemini应用的图像编辑功能中。
  • 02 该模型具备多图像融合、角色一致性、自然语言定向编辑以及利用Gemini世界知识库进行图像处理等核心功能,现已通过API等平台开放预览。
  • 03 新模型发布前以代号“nano-banana”在盲测平台匿名亮相,并成为全球评分最高的图像编辑模型,获得了热烈的早期用户反馈,验证了此次升级的成功。

8月27日消息,周二,谷歌发布了新一代AI图像生成与编辑模型Gemini 2.5 Flash Image(代号“Nano Banana”),该模型现已全面集成至Gemini应用的图像编辑功能中。

Gemini 2.5 Flash Image现已通过Gemini API、Google AI Studio和Vertex AI平台开放预览,稳定版本预计将在数周内正式发布。该模型采用Token计费模式,定价为每100万输出Token收费30美元,单张图像固定计为1290输出Token(约合每张图像0.039美元),其他输入输出模态的计费标准与Gemini 2.5 Flash保持一致。

谷歌在技术博文中表示,此次升级带来了四大核心功能:支持多图像智能融合、保持角色在不同画面间的一致性以增强叙事表现、通过自然语言实现精准定向编辑,以及借助Gemini的世界知识库进行图像生成与处理。

今年早些时候,当谷歌在Gemini 2.0 Flash中首次推出原生图像生成功能时,其低延迟、高性价比和易用性就获得用户好评,但也有反馈希望提升图像输出质量和增强创作控制能力。

为降低开发门槛,谷歌同步升级了Google AI Studio的“构建模式”(后续还将推出更多功能)。开发者现在不仅可以快速测试模型的AI应用能力,还能通过单一指令实现创意重组和概念落地。完成应用构建后,用户可直接从Google AI Studio部署或一键将代码保存至GitHub仓库。

开发者可尝试输入“构建一个支持用户上传图像并应用不同滤镜的图像编辑应用”等指令,或者选择预设模板进行二次创作,以上功能目前均免费开放使用。

保持角色一致性

图像生成领域长期面临一个核心挑战,即如何在多次指令输入和编辑过程中保持角色或对象外观的一致性。如今,用户能够将同一角色灵活置于不同的环境背景下,从多角度呈现单一产品于全新场景中,或生成视觉风格高度统一的品牌资产,且所有这些操作均能确保主体特征始终保持不变。

谷歌在Google AI Studio中提供了可自定义的模板应用(支持可视化编程),旨在直观展示该模型在角色一致性方面的强大能力。

除角色一致性外,该模型还具备优秀的视觉模板适配能力。目前,开发者已将其应用于房地产列表卡片、统一式样的员工工牌、产品目录的动态渲染图等多种实际场景,而实现这一切,仅凭一个基础设计模板即可。

基于指令的图像编辑

Gemini 2.5 Flash Image允许用户通过自然语言指令实现定向变换与精准的局部编辑。具体功能包括模糊图像背景、去除T恤污渍、完全移除照片中的某个人物、调整主体姿态、为黑白照片上色,以及其他任何用户能够通过自然语言描述实现的编辑需求。

为直观呈现这些功能,谷歌在Google AI Studio中开发了一款双模式照片编辑模板应用,同时提供可视化界面和纯指令控制两种交互方式。

融合原生世界知识

传统的图像生成模型往往侧重于美学表现,而在对现实世界的深层语义理解方面存在明显不足。Gemini 2.5 Flash Image依托Gemini 庞大的世界知识库,突破了这一局限,为图像生成开辟了新的应用维度。

例如,谷歌在Google AI Studio 中构建了一款将简易画布转换为交互式教育辅导工具的模板应用,展示了该模型在解析手绘图表、回答与现实世界相关的问题以及一步执行复杂编辑指令方面的综合能力。

多图像智能融合

Gemini 2.5 Flash Image 能够同时理解并智能融合多张输入图像。用户可将物体自然嵌入新场景,通过色彩方案或材质纹理重新定义房间风格,仅用一条指令即可完成多图像融合。

为演示该功能,谷歌在 Google AI Studio 中推出了专用模板应用,用户只需通过拖拽操作即可将产品置入新场景中,快速生成高度逼真的融合图像。

AI图像竞争的新领军者

Gemini 2.5 Flash Image的发布,标志着谷歌在缩小与竞争对手之间的差距,并意图直接与OpenAI和Adobe等公司抗衡。

该模型在正式亮相前,曾以一种低调而成功的方式进行了预览测试。在化名“nano-banana”于众包盲测平台LMArena上匿名亮相后,它迅速引发AI社区热烈讨论,并一跃成为全球评分最高的图像编辑模型。Gemini应用负责人大卫·沙龙(David Sharon)对其市场反响给予高度评价:“早期用户反馈非常热烈,它已经成为全球评分最高的图像编辑模型。”

此次发布无疑是谷歌对竞争日益激烈的AI市场的一次重要回应。今年3月,OpenAI将其GPT-4o图像生成器直接集成到ChatGPT中,不仅带来了用户参与度的激增,更通过一系列展示其强大功能与易用性的病毒式传播内容,为AI工具的集成设立了新标杆。

与此同时,创意软件巨头Adobe也在积极强化其旗舰产品Photoshop。近期推出的三项由Firefly驱动的功能,即可自动匹配色彩与光照的“Harmonize”、提升分辨率的“Generative Upscale”以及改进的“Remove Tool”,进一步巩固了其在专业领域的地位。

竞争压力甚至迫使行业巨头调整战略。Meta在内部开发遇阻后,转而选择授权Midjourney的技术。Meta AI负责人汪韬将此视为必要之举,强调公司需采取“全方位策略”以提供最优产品。

这一市场动态反映出AI行业正呈现两极化发展:一方面是大公司之间的整合加剧,另一方面则是迅速的专业化细分。越来越多新兴企业正聚焦于解决特定长期难题,例如Black Forest Labs推出的FLUX.1 Krea模型,专为突破通用“AI风格”、实现更真实影像效果而设计;阿里巴巴的开源Qwen-Image模型,则在解决生成系统中可读文本渲染这一关键技术难题上表现突出。

平衡创意与安全保障

谷歌此次发布,并随之推出了新的安全保障措施,可视为对其早期AI图像生成功能遭遇挫折后的重要回应。此前,Gemini因生成的历史图像存在准确性问题而引发广泛争议,一度促使公司暂停该功能并进行全面优化。如今重新亮相的版本配备了更严格的安全防护机制。

为应对日益猖獗的深度伪造和虚假信息威胁,谷歌宣布将对所有AI生成内容实施水印标识。每张图像不仅包含可见标识,还嵌入了加密的SynthID隐形数字水印,确保AI生成内容可被明确识别。

这一做法与竞争对手面临的法律困境形成鲜明对比,目前Midjourney正因训练数据涉嫌侵权而面临迪士尼和环球影业的版权诉讼。迪士尼的总法律顾问霍拉西奥·古铁雷斯(Horacio Gutierrez)已采取强硬立场,他表示:“盗版就是盗版。一家人工智能公司从事这种行为,并不会减轻其侵权性质。”

同时,整个行业也面临着对AI基准测试可靠性的质疑。正如AI策略师纳特·琼斯(Nate Jones)所指出的:“当我们过度追求排行榜名次时,可能会开发出在特定测试中表现出色,却无法解决实际问题的模型。”

总而言之,通过将强大且易用的编辑工具集成到旗舰AI产品中,谷歌试图以便捷性和创意控制力吸引主流用户。这一战略不仅将Gemini定位为聊天机器人,更是要将其打造为一个全方位的创意引擎,在快速演进的内容生成AI领域占据一席之地。(小小)

延伸阅读
相关推荐
热点推荐
男子发现妻子出轨后,叫来岳父一家捉奸,岂料小姨子看到情夫后慌了

男子发现妻子出轨后,叫来岳父一家捉奸,岂料小姨子看到情夫后慌了

温情邮局
2025-08-22 11:48:12
让人眼红了!16岁小伙深圳卖烤鸡,日入过万,每月给家里寄几万元

让人眼红了!16岁小伙深圳卖烤鸡,日入过万,每月给家里寄几万元

火山詩话
2025-12-17 05:38:28
网友爆料被撞销售已经死亡,雷军之前的宣传又惹争议

网友爆料被撞销售已经死亡,雷军之前的宣传又惹争议

映射生活的身影
2025-12-17 23:57:46
A股:突然大利好!国家队入场,明天很有可能迎大级别的反弹?

A股:突然大利好!国家队入场,明天很有可能迎大级别的反弹?

夜深爱杂谈
2025-12-17 18:09:25
最振聋发聩的演讲:普京的贴身男仆

最振聋发聩的演讲:普京的贴身男仆

西楼饮月
2025-12-17 23:25:23
央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

西门老爹
2025-12-16 15:35:31
逆天了!印度人又在新西兰造假,选票全部作废!史上首次,彻底曝光

逆天了!印度人又在新西兰造假,选票全部作废!史上首次,彻底曝光

发现新西兰
2025-12-17 11:52:45
看西班牙王后穿大衣,我悟了:裙过膝,衣不花哨不紧身,高级显贵

看西班牙王后穿大衣,我悟了:裙过膝,衣不花哨不紧身,高级显贵

八分搭配
2025-11-30 00:06:13
今天下午3点,U15东亚杯焦点战:中国vs日本,1-0=爆冷,央5不播

今天下午3点,U15东亚杯焦点战:中国vs日本,1-0=爆冷,央5不播

大秦壁虎白话体育
2025-12-18 00:58:41
中日在安理会激烈交锋,日代表不许中方说话,还要求安理会改革

中日在安理会激烈交锋,日代表不许中方说话,还要求安理会改革

小舟谈历史
2025-12-18 01:01:29
上层阶级最怕普通人看的8本书

上层阶级最怕普通人看的8本书

听哲学
2025-12-15 21:55:37
上诉了!上诉了!倾家族之力想保一条命?金毛还想逆风翻盘?

上诉了!上诉了!倾家族之力想保一条命?金毛还想逆风翻盘?

魔都姐姐杂谈
2025-12-17 08:58:26
2026驾照新规落地!超龄就不能开了?交警提醒:快查你还能开几年

2026驾照新规落地!超龄就不能开了?交警提醒:快查你还能开几年

今朝牛马
2025-12-17 17:49:51
皇马换帅实锤?内部人士确认阿隆索下课计划,继任者已锁定

皇马换帅实锤?内部人士确认阿隆索下课计划,继任者已锁定

夜白侃球
2025-12-17 22:15:42
吴磊北京被偶遇,生图下嘴巴突出像猩猩,双手插兜一身痞气

吴磊北京被偶遇,生图下嘴巴突出像猩猩,双手插兜一身痞气

一娱三分地
2025-12-16 19:46:01
拿360万底薪,从边缘球员打成球队老大!很幸运,你终于要被交易

拿360万底薪,从边缘球员打成球队老大!很幸运,你终于要被交易

老梁体育漫谈
2025-12-18 00:03:25
​49万人刷屏喊“滚下去”,董宇辉嚼着车厘子,真就关了直播间!

​49万人刷屏喊“滚下去”,董宇辉嚼着车厘子,真就关了直播间!

乐悠悠娱乐
2025-12-17 13:26:29
成都女富豪平安着陆:被查8个月毫发无损,账上还多出了十几亿

成都女富豪平安着陆:被查8个月毫发无损,账上还多出了十几亿

壹只灰鸽子
2025-12-17 14:42:51
河南美女“大晨”去世,年仅28岁,日常开奥迪,一口能喝三两白酒

河南美女“大晨”去世,年仅28岁,日常开奥迪,一口能喝三两白酒

宝哥精彩赛事
2025-12-16 08:40:55
突发! Bondi杀手确认为印度人! 澳洲政府终于官宣恐袭后新政, 总理被逼下台! 澳人要求停止印度移民!

突发! Bondi杀手确认为印度人! 澳洲政府终于官宣恐袭后新政, 总理被逼下台! 澳人要求停止印度移民!

澳洲红领巾
2025-12-17 11:40:39
2025-12-18 02:52:49

科技要闻

特斯拉值1.6万亿靠画饼 Waymo值千亿靠跑单

头条要闻

坠亡女教师有已婚哥哥和未婚弟弟 父母被指不愿退彩礼

头条要闻

坠亡女教师有已婚哥哥和未婚弟弟 父母被指不愿退彩礼

体育要闻

短短一年,从争冠到0胜垫底...

娱乐要闻

狗仔曝热播剧姐弟恋真谈了???

财经要闻

重磅信号!收入分配制度或迎重大突破

汽车要闻

一车多动力+双姿态 长城欧拉5上市 限时9.18万元起

态度原创

健康
教育
艺术
亲子
公开课

这些新疗法,让化疗不再那么痛苦

教育要闻

孩子沉迷屏幕?3大类趣味实践活动玩中学!

艺术要闻

毛主席书写林则徐诗词,字迹超凡,引发关注。

亲子要闻

撒泼打滚的娃妈妈只有一早就制服了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×