网易首页 > 网易号 > 正文 申请入驻

告别 Photoshop?谷歌新 AI 能让你通过对话编辑图像

0
分享至

全新实验性AI支持无需技能的照片编辑,包括去除水印。但它并不完美

谷歌推出了一款新的AI模型,它可以像生成文本一样轻松地生成或编辑图像——作为其聊天机器人对话的一部分。虽然结果并不完美,但在不久的将来,每个人都有可能通过这种方式操作图像。

上周三,谷歌扩大了Gemini 2.0 Flash原生图像生成功能的访问权限,使这一实验性功能对所有使用Google AI Studio的用户开放。此前,该功能自去年十二月以来仅限于测试人员使用,这一多模态技术将原生文本和图像处理能力集成到一个AI模型中。

新模型名为“Gemini 2.0 Flash(图像生成)实验版”,上周并未引起广泛关注,但由于其具备去除图像水印的能力——尽管会产生伪影并降低图像质量——近年来几天来受到了更多关注。

但这并不是唯一的功能。Gemini 2.0 Flash可以添加物体、移除物体、修改场景、改变光线、尝试改变图像角度、缩放以及执行其他转变——其成功程度因主题、风格和图像而异。

为了实现这一点,谷歌在大量图像(转换为令牌)和文本数据集上训练了Gemini 2.0。该模型对图像的“知识”与其从文本来源获得的世界概念知识位于同一神经网络空间,因此它可以直接输出图像令牌,这些令牌被转换回图像并反馈给用户。

将图像生成集成到AI聊天中本身并不新鲜——去年九月,OpenAI将其图像生成器DALL-E 3集成到ChatGPT中,其他科技公司如xAI也效仿了这一做法。但直到现在,这些AI聊天助手中的每一个都是调用一个独立的基于扩散的AI模型(其合成原理与大型语言模型不同)来生成图像,然后将这些图像返回给用户的聊天界面。在这种情况下,Gemini 2.0 Flash既是大型语言模型(LLM),又是AI图像生成器,合二为一。

有趣的是,OpenAI的GPT-4o也具备原生图像输出功能(OpenAI总裁Greg Brock曾在去年某个时候在X上暗示过这一功能),但该公司尚未发布真正的多模态图像输出能力。一个原因可能是,真正的多模态图像输出在计算上非常昂贵,因为每张输入或生成的图像都由令牌组成,这些令牌成为图像模型一次又一次通过每个后续提示运行的上下文的一部分。考虑到创建一个真正视觉全面的多模态模型所需的计算需求和训练数据量,图像的输出质量目前还不一定比扩散模型更好。

OpenAI之所以尚未推出,另一个可能的原因是“安全”相关的考虑:类似于训练有音频的多模态模型可以吸收样本人声音的短片段,然后完美地模仿它(这就是ChatGPT的高级语音模式的工作原理,它使用的是得到授权模仿的配音演员的片段),多模态图像输出模型在适当的训练数据和计算支持下,能够以相对轻松和令人信服的方式伪造媒体现实。拥有足够好的多模态模型,潜在的、破坏性的深度伪造和照片操纵可能比现在更加容易制作。

实地测试

那么,Gemini 2.0 Flash究竟能做些什么?值得注意的是,其支持对话式图像编辑,允许用户通过自然语言对话在多个连续提示中迭代优化图像。你可以与它对话,告诉它你想添加、移除或更改什么。虽然并不完美,但这是科技界新型原生图像编辑能力的起点。

我们对Gemini Flash 2.0进行了多项非正式的AI图像编辑测试,结果如下。例如,我们从一个草坪上的图像中移除了一只兔子。我们还从一个凌乱的车库中移除了鸡。Gemini会根据最佳猜测填充背景。不需要克隆刷——小心,Photoshop!

我们还尝试向图像中添加合成物体。始终警惕媒体现实的崩塌,被称为“文化奇点”,我们在作者从飞机窗户拍摄的照片中添加了一个UFO。然后我们尝试添加了一个野人和一个鬼魂。结果不够真实,但该模型也仅在有限的图像数据集上训练(更多内容将在下文提及)。

接着,我们在一张Atari 800屏幕(《巫师之怒》)的照片中添加了一个电子游戏角色,结果可能是这组中最真实的图像合成结果。你可能看不到,但Gemini添加了与显示器特性相匹配的逼真CRT扫描线。

Gemini还可以以新颖的方式扭曲图像,例如“缩小”图像到一个虚构的场景,或为一个EGA调色板角色赋予身体,然后将其置入冒险游戏中。

当然,你也可以移除水印。我们尝试从Getty Images的图像中移除水印,效果不错,尽管生成的图像在分辨率和细节质量上远不及原图。最终,如果你的脑海中能描绘出一张没有水印的图像,AI模型也能做到。它会根据训练数据,用最合理的结果填充水印所在的位置。

最后,我们知道你可能已经厌倦了在电视机旁边看到野蛮人(按传统),所以我们试了一下。起初,Gemini并没有在野蛮人图像中添加CRT电视机,于是我们要求它添加一个。

然后,我们让电视机着火了。

总的来说,Gemini生成的图像在质量和细节上并不完美,但我们实际上对这些图像除了输入请求外并没有进行任何编辑工作。Adobe Photoshop目前允许用户使用基于书面提示的“生成填充”AI合成来操作图像,但还不如这种方式自然。我们可以预见,未来Adobe可能会添加类似的对话式AI图像编辑流程。

多模态输出开启新可能

拥有真正的多模态输出为聊天机器人开启了有趣的新可能性。例如,Gemini 2.0 Flash可以玩互动图形游戏,或生成具有一致插图的故事,在多个图像中保持角色和场景的连续性。虽然还不完美,但角色一致性是AI助手的新能力。我们试用了之后感觉相当疯狂——特别是当它从另一个角度生成我们提供的照片视图时。

文本渲染是该模型的另一个潜在优势。谷歌声称,内部基准测试显示Gemini 2.0 Flash在生成包含文本的图像时表现优于“领先的竞争模型”,使其在创建集成文本的内容方面具有潜力。根据我们的经验,结果并不是那么令人兴奋,但它们是可读的。

尽管Gemini 2.0 Flash目前存在一些不足,但真正的多模态图像输出的出现被视为AI历史上的一个显著时刻,因为它预示着如果技术继续进步,将带来什么可能。如果你想象一个未来,比如十年后,一个足够复杂的AI模型能够实时生成任何类型的媒体——文本、图像、音频、视频、3D图形、3D打印的实物对象和互动体验——你基本上就拥有了一个全息甲板,但没有物质复制。

回到现实,多模态图像输出仍处于“起步阶段”,谷歌也认识到这一点。回想一下,Flash 2.0旨在成为一个更小、更快、更便宜的AI模型,因此它尚未吸收互联网的全部广度。所有这些信息在参数数量上占用了大量空间,更多的参数意味着更多的计算。相反,谷歌通过提供一个经过策划的数据集,并可能包含有针对性的合成数据,来训练Gemini 2.0 Flash。因此,该模型并不“了解”世界上所有的视觉内容,谷歌本身也表示,训练数据是“广泛和通用的,而不是绝对或完整的。”

这只是花哨地说图像输出质量尚不完美——但未来有很大的改进空间,随着训练技术的进步和计算成本的下降,可以整合更多的视觉“知识”。如果这个过程变得像我们在基于扩散的AI图像生成器(如Stable Diffusion、Midjourney和Flux)中看到的那样,多模态图像输出质量可能会在短时间内迅速提升。准备好迎接一个完全流动的媒体现实吧。

关注【黑客联盟】带你走进神秘的黑客世界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被曝猥亵案件当事人的山西吕梁中院法官已停职,当地纪检监察部门已介入

被曝猥亵案件当事人的山西吕梁中院法官已停职,当地纪检监察部门已介入

界面新闻
2026-04-12 21:43:02
意媒:意足协承担不起孔蒂800万欧的年薪,加图索仅80万欧

意媒:意足协承担不起孔蒂800万欧的年薪,加图索仅80万欧

懂球帝
2026-04-12 17:28:09
汤尤杯前有惊喜有遗憾,羽毛球亚锦赛国羽2冠2亚收官

汤尤杯前有惊喜有遗憾,羽毛球亚锦赛国羽2冠2亚收官

澎湃新闻
2026-04-12 22:16:28
世界杯夺冠仅7天,孙颖莎再传喜讯,国家体育总局点名 王曼昱难了

世界杯夺冠仅7天,孙颖莎再传喜讯,国家体育总局点名 王曼昱难了

林子说事
2026-04-12 12:34:55
赖清德率五大军头发出通牒,收到大陆信号的郑丽文,直接反将一军

赖清德率五大军头发出通牒,收到大陆信号的郑丽文,直接反将一军

东极妙严
2026-02-13 18:58:56
肃然起敬,王祉怡亚锦赛决赛1-2负安洗莹,拼到反复关机重启

肃然起敬,王祉怡亚锦赛决赛1-2负安洗莹,拼到反复关机重启

真理是我亲戚
2026-04-12 17:07:36
黑龙江畜生公公周永福被判死刑,法庭上嚣张大笑:这辈子值了

黑龙江畜生公公周永福被判死刑,法庭上嚣张大笑:这辈子值了

纸鸢奇谭
2025-02-06 14:31:24
试管婴儿活不过40?中国首例试管婴儿郑萌珠:未满40岁,已生孩子

试管婴儿活不过40?中国首例试管婴儿郑萌珠:未满40岁,已生孩子

混沌录
2026-04-10 22:53:07
出轨忍了,私生子也忍了,套现2亿后,“豪门赘婿”终于被踢出局

出轨忍了,私生子也忍了,套现2亿后,“豪门赘婿”终于被踢出局

笑谈历史阿晡
2026-04-12 20:52:38
俄寡头:普京将在一月内对乌发动核打击,发射一枚2万吨当量核弹

俄寡头:普京将在一月内对乌发动核打击,发射一枚2万吨当量核弹

梁濆爱玩车
2026-04-09 16:04:48
鲁比奥再撤销伊朗精英绿卡,将其驱逐出境,撤销人数或高达4000人

鲁比奥再撤销伊朗精英绿卡,将其驱逐出境,撤销人数或高达4000人

山河路口
2026-04-12 00:55:26
为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

流史岁月
2026-04-09 16:30:07
约P?多人运动?夜夜不重样?“娱圈铁肾”的瓜

约P?多人运动?夜夜不重样?“娱圈铁肾”的瓜

萌姐
2026-04-11 18:44:38
22球18助!英媒:亚马尔已是足坛世界第1 超越同龄梅西C罗

22球18助!英媒:亚马尔已是足坛世界第1 超越同龄梅西C罗

叶青足球世界
2026-04-12 20:06:57
回到台湾就被抓?郑丽文和大陆谈完,临走前达成共识,赖清德急了

回到台湾就被抓?郑丽文和大陆谈完,临走前达成共识,赖清德急了

春序娱乐
2026-04-12 01:44:48
释放了4大信号!军队高级干部政治整训,迎接建军一百周年

释放了4大信号!军队高级干部政治整训,迎接建军一百周年

南宗历史
2026-04-11 04:02:12
92岁香港老戏骨郑雷去世,曾出演多部金庸剧

92岁香港老戏骨郑雷去世,曾出演多部金庸剧

极目新闻
2026-04-12 22:05:17
你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

夜深爱杂谈
2026-04-09 19:39:13
靠中国发家却背刺我国,帮美国陷害华为,如今遭到了哪些报应?

靠中国发家却背刺我国,帮美国陷害华为,如今遭到了哪些报应?

春序娱乐
2026-04-13 02:12:19
静到离谱,省到可怕!长安蓝鲸超擎混动全球首发

静到离谱,省到可怕!长安蓝鲸超擎混动全球首发

汽车头条APP
2026-03-31 09:11:09
2026-04-13 03:20:49
黑客联盟I
黑客联盟I
免费、开源、自由……
358文章数 1065关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

家居
艺术
时尚
公开课
军事航空

家居要闻

复古风格 自然简约

艺术要闻

揭开她笔下女人的神秘面纱,豪放洒脱的魅力令人惊叹!

被周冬雨、林更新戴上热搜的珠宝,究竟有多惊艳?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国副总统万斯:美伊谈判未能达成协议

无障碍浏览 进入关怀版