网易首页 > 网易号 > 正文 申请入驻

告别 Photoshop?谷歌新 AI 能让你通过对话编辑图像

0
分享至

全新实验性AI支持无需技能的照片编辑,包括去除水印。但它并不完美

谷歌推出了一款新的AI模型,它可以像生成文本一样轻松地生成或编辑图像——作为其聊天机器人对话的一部分。虽然结果并不完美,但在不久的将来,每个人都有可能通过这种方式操作图像。

上周三,谷歌扩大了Gemini 2.0 Flash原生图像生成功能的访问权限,使这一实验性功能对所有使用Google AI Studio的用户开放。此前,该功能自去年十二月以来仅限于测试人员使用,这一多模态技术将原生文本和图像处理能力集成到一个AI模型中。

新模型名为“Gemini 2.0 Flash(图像生成)实验版”,上周并未引起广泛关注,但由于其具备去除图像水印的能力——尽管会产生伪影并降低图像质量——近年来几天来受到了更多关注。

但这并不是唯一的功能。Gemini 2.0 Flash可以添加物体、移除物体、修改场景、改变光线、尝试改变图像角度、缩放以及执行其他转变——其成功程度因主题、风格和图像而异。

为了实现这一点,谷歌在大量图像(转换为令牌)和文本数据集上训练了Gemini 2.0。该模型对图像的“知识”与其从文本来源获得的世界概念知识位于同一神经网络空间,因此它可以直接输出图像令牌,这些令牌被转换回图像并反馈给用户。

将图像生成集成到AI聊天中本身并不新鲜——去年九月,OpenAI将其图像生成器DALL-E 3集成到ChatGPT中,其他科技公司如xAI也效仿了这一做法。但直到现在,这些AI聊天助手中的每一个都是调用一个独立的基于扩散的AI模型(其合成原理与大型语言模型不同)来生成图像,然后将这些图像返回给用户的聊天界面。在这种情况下,Gemini 2.0 Flash既是大型语言模型(LLM),又是AI图像生成器,合二为一。

有趣的是,OpenAI的GPT-4o也具备原生图像输出功能(OpenAI总裁Greg Brock曾在去年某个时候在X上暗示过这一功能),但该公司尚未发布真正的多模态图像输出能力。一个原因可能是,真正的多模态图像输出在计算上非常昂贵,因为每张输入或生成的图像都由令牌组成,这些令牌成为图像模型一次又一次通过每个后续提示运行的上下文的一部分。考虑到创建一个真正视觉全面的多模态模型所需的计算需求和训练数据量,图像的输出质量目前还不一定比扩散模型更好。

OpenAI之所以尚未推出,另一个可能的原因是“安全”相关的考虑:类似于训练有音频的多模态模型可以吸收样本人声音的短片段,然后完美地模仿它(这就是ChatGPT的高级语音模式的工作原理,它使用的是得到授权模仿的配音演员的片段),多模态图像输出模型在适当的训练数据和计算支持下,能够以相对轻松和令人信服的方式伪造媒体现实。拥有足够好的多模态模型,潜在的、破坏性的深度伪造和照片操纵可能比现在更加容易制作。

实地测试

那么,Gemini 2.0 Flash究竟能做些什么?值得注意的是,其支持对话式图像编辑,允许用户通过自然语言对话在多个连续提示中迭代优化图像。你可以与它对话,告诉它你想添加、移除或更改什么。虽然并不完美,但这是科技界新型原生图像编辑能力的起点。

我们对Gemini Flash 2.0进行了多项非正式的AI图像编辑测试,结果如下。例如,我们从一个草坪上的图像中移除了一只兔子。我们还从一个凌乱的车库中移除了鸡。Gemini会根据最佳猜测填充背景。不需要克隆刷——小心,Photoshop!

我们还尝试向图像中添加合成物体。始终警惕媒体现实的崩塌,被称为“文化奇点”,我们在作者从飞机窗户拍摄的照片中添加了一个UFO。然后我们尝试添加了一个野人和一个鬼魂。结果不够真实,但该模型也仅在有限的图像数据集上训练(更多内容将在下文提及)。

接着,我们在一张Atari 800屏幕(《巫师之怒》)的照片中添加了一个电子游戏角色,结果可能是这组中最真实的图像合成结果。你可能看不到,但Gemini添加了与显示器特性相匹配的逼真CRT扫描线。

Gemini还可以以新颖的方式扭曲图像,例如“缩小”图像到一个虚构的场景,或为一个EGA调色板角色赋予身体,然后将其置入冒险游戏中。

当然,你也可以移除水印。我们尝试从Getty Images的图像中移除水印,效果不错,尽管生成的图像在分辨率和细节质量上远不及原图。最终,如果你的脑海中能描绘出一张没有水印的图像,AI模型也能做到。它会根据训练数据,用最合理的结果填充水印所在的位置。

最后,我们知道你可能已经厌倦了在电视机旁边看到野蛮人(按传统),所以我们试了一下。起初,Gemini并没有在野蛮人图像中添加CRT电视机,于是我们要求它添加一个。

然后,我们让电视机着火了。

总的来说,Gemini生成的图像在质量和细节上并不完美,但我们实际上对这些图像除了输入请求外并没有进行任何编辑工作。Adobe Photoshop目前允许用户使用基于书面提示的“生成填充”AI合成来操作图像,但还不如这种方式自然。我们可以预见,未来Adobe可能会添加类似的对话式AI图像编辑流程。

多模态输出开启新可能

拥有真正的多模态输出为聊天机器人开启了有趣的新可能性。例如,Gemini 2.0 Flash可以玩互动图形游戏,或生成具有一致插图的故事,在多个图像中保持角色和场景的连续性。虽然还不完美,但角色一致性是AI助手的新能力。我们试用了之后感觉相当疯狂——特别是当它从另一个角度生成我们提供的照片视图时。

文本渲染是该模型的另一个潜在优势。谷歌声称,内部基准测试显示Gemini 2.0 Flash在生成包含文本的图像时表现优于“领先的竞争模型”,使其在创建集成文本的内容方面具有潜力。根据我们的经验,结果并不是那么令人兴奋,但它们是可读的。

尽管Gemini 2.0 Flash目前存在一些不足,但真正的多模态图像输出的出现被视为AI历史上的一个显著时刻,因为它预示着如果技术继续进步,将带来什么可能。如果你想象一个未来,比如十年后,一个足够复杂的AI模型能够实时生成任何类型的媒体——文本、图像、音频、视频、3D图形、3D打印的实物对象和互动体验——你基本上就拥有了一个全息甲板,但没有物质复制。

回到现实,多模态图像输出仍处于“起步阶段”,谷歌也认识到这一点。回想一下,Flash 2.0旨在成为一个更小、更快、更便宜的AI模型,因此它尚未吸收互联网的全部广度。所有这些信息在参数数量上占用了大量空间,更多的参数意味着更多的计算。相反,谷歌通过提供一个经过策划的数据集,并可能包含有针对性的合成数据,来训练Gemini 2.0 Flash。因此,该模型并不“了解”世界上所有的视觉内容,谷歌本身也表示,训练数据是“广泛和通用的,而不是绝对或完整的。”

这只是花哨地说图像输出质量尚不完美——但未来有很大的改进空间,随着训练技术的进步和计算成本的下降,可以整合更多的视觉“知识”。如果这个过程变得像我们在基于扩散的AI图像生成器(如Stable Diffusion、Midjourney和Flux)中看到的那样,多模态图像输出质量可能会在短时间内迅速提升。准备好迎接一个完全流动的媒体现实吧。

关注【黑客联盟】带你走进神秘的黑客世界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
叶剑英怒斥许世友:怎么才接电话,许:首长,连滚带爬来接的啊

叶剑英怒斥许世友:怎么才接电话,许:首长,连滚带爬来接的啊

兴趣知识
2025-11-19 03:29:04
袁世凯的10房老婆都啥来头?3个青楼3个朝鲜美女,个个美到逆天

袁世凯的10房老婆都啥来头?3个青楼3个朝鲜美女,个个美到逆天

老达子
2025-11-20 06:55:02
深圳模特比赛争议后续:冠军一身赘肉年纪大,主办方发声却翻车

深圳模特比赛争议后续:冠军一身赘肉年纪大,主办方发声却翻车

深析古今
2025-11-19 13:26:48
周杰伦发文:我觉得有点受够了

周杰伦发文:我觉得有点受够了

TVB的四小花
2025-11-19 12:54:26
什么是文明?看挪威富裕后如何对待自己的国民​

什么是文明?看挪威富裕后如何对待自己的国民​

深度报
2025-11-07 22:57:08
法乌签署《天空盾牌-2025》协议,法国将向乌克兰交付100架阵风

法乌签署《天空盾牌-2025》协议,法国将向乌克兰交付100架阵风

史政先锋
2025-11-17 22:21:10
广东男队晋级4×100米接力决赛,苏炳添将迎“最后一舞”

广东男队晋级4×100米接力决赛,苏炳添将迎“最后一舞”

南方都市报
2025-11-20 11:39:30
全运会乒乓球比赛收官:4人满分,3人爆冷,2人遗憾,1人昙花一现

全运会乒乓球比赛收官:4人满分,3人爆冷,2人遗憾,1人昙花一现

浪子阿邴聊体育
2025-11-19 09:17:56
为什么说台海战争爆发,日本的介入比美国支持台湾还要可怕?

为什么说台海战争爆发,日本的介入比美国支持台湾还要可怕?

细语
2025-11-17 10:23:19
访华拿到了想要的东西,踏上回国专机的泰国国王,笑容压都压不下

访华拿到了想要的东西,踏上回国专机的泰国国王,笑容压都压不下

历史有些冷
2025-11-19 20:55:03
36岁新娘人高马大满臂文身,新郎小鸟依人,网友:这小体格扛不住

36岁新娘人高马大满臂文身,新郎小鸟依人,网友:这小体格扛不住

荔子言
2025-09-24 14:05:51
吴亦凡监狱近况曝光:身染重病、夜夜痛哭!网友:这下彻底完了

吴亦凡监狱近况曝光:身染重病、夜夜痛哭!网友:这下彻底完了

华人星光
2025-11-05 11:47:53
中国“炮轰高市”好几天,美印澳的表现,却是让日本失望了

中国“炮轰高市”好几天,美印澳的表现,却是让日本失望了

通文知史
2025-11-19 15:45:02
前主帅谈小麦代表苏格兰出战:所有苏格兰人都该感谢穆里尼奥

前主帅谈小麦代表苏格兰出战:所有苏格兰人都该感谢穆里尼奥

懂球帝
2025-11-20 07:44:23
我们已经没有退路了,如果中国再次衰落,欧美绝不会再给崛起机会

我们已经没有退路了,如果中国再次衰落,欧美绝不会再给崛起机会

扶苏聊历史
2025-11-14 15:33:48
俞敏洪回应“内部信”争议:所乘邮轮舱位价在20-25万之间,没有花148万,计划明年带10名左右优秀员工游南极

俞敏洪回应“内部信”争议:所乘邮轮舱位价在20-25万之间,没有花148万,计划明年带10名左右优秀员工游南极

极目新闻
2025-11-20 10:49:05
排面!40岁C罗造访白宫+微笑握手特朗普,美国总统宣布:他是GOAT

排面!40岁C罗造访白宫+微笑握手特朗普,美国总统宣布:他是GOAT

我爱英超
2025-11-19 07:10:18
如果高市早苗坚决不撤回其涉台言论,我们接下来又该怎么办呢?

如果高市早苗坚决不撤回其涉台言论,我们接下来又该怎么办呢?

翻开历史和现实
2025-11-19 23:19:34
场均22+7+4!队史最强新秀!联盟最烂球队终于迎来救世主

场均22+7+4!队史最强新秀!联盟最烂球队终于迎来救世主

阿浪的篮球故事
2025-11-20 16:53:17
噩耗,广东美女陈俊玲去世,年仅33岁,入职体检时查出癌症

噩耗,广东美女陈俊玲去世,年仅33岁,入职体检时查出癌症

熠熠生辉的生活
2025-11-18 09:14:21
2025-11-20 18:40:49
黑客联盟I
黑客联盟I
免费、开源、自由……
347文章数 1064关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

男子开奥迪上班被婚车车队当成头车 7台奥迪跟到工厂

头条要闻

男子开奥迪上班被婚车车队当成头车 7台奥迪跟到工厂

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌的每一任都是大美女

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

换购价15.98万起 广汽丰田全新威兰达上市

态度原创

教育
本地
家居
亲子
军事航空

教育要闻

英语听力的压迫感!

本地新闻

卖力整活儿的大湾鸡,靠疯癫成了新顶流

家居要闻

黑白极简 慵懒通透空间

亲子要闻

三个孩子在妈妈肚子里的时候都喜欢吃什么

军事要闻

日本称已向美国出口爱国者导弹

无障碍浏览 进入关怀版