网易首页 > 网易号 > 正文 申请入驻

扒开GPT-4o生图真相!港中文博士生「破解」OpenAI隐藏秘密,还能手动改图

0
分享至

文章转载于新智元

GPT-4o,如今已经引发了全网的「吉卜力」狂潮。

从全网的模因狂热到备受质疑的版权问题,OpenAI本周的这项全新发布,引发的戏剧性事件如雨后春笋般层出不穷。

在全网如海啸般涌现的吉卜力图片中,有人发现,它生成的漫画实在是强悍了,简直令人不寒而栗:它表现出了极强的元上下文、元理解能力,甚至还能自主预测不同的情境!

遗憾的是,目前OpenAI并未公布GPT-4o的生图技术细节,只提到采用的是自回归方法,类似语言模型。

也就是说,4o与DALL-E的扩散模型不同,它使用自回归模型逐步生成图像,根据先前的像素或补丁预测下一个像素或补丁。这就能让它更好地遵循指令,甚至进行逼真的照片编辑。

虽然没有更多的细节,但这丝毫抵挡不住AI社区技术大神们的火眼金睛。

就在刚刚,港中文的一位博士生Jie Liu破解了GPT-4o不一般的前端生图秘密:实际上,它很大可能是原生自回归(AR)生成的,甚至我们可以手动改图。

无独有偶,CMU博士Sangyun Lee也推测出,GPT-4o的图像生成原理,应该大致如下:

  • GPT-4o生成视觉token,然后由扩散解码器将这些token解码为像素空间中的图像

  • 不只是普通的扩散模型,而是类似于Rolling Diffusion的分组式扩散解码器,按从上到下的顺序进行解码

谷歌DeepMind研究者Jon Barron则猜测,GPT-4o图像生成应该是一种多尺度和自回归的某种组合。

原生图像生成的过程中,起作用的就是这种混合模式。

可能是先由一个自回归Transformer生成「先验」的潜在代码,然后由一个扩散解码器来渲染图像。

这就解释了OpenAI提示和观察到的「变化的粗略形象」。

原生自回归,比扩散模型更强大?

港中文博士生Jie Liu表示,自己在破解了GPT-4o的前端后,有了惊人的发现。

用户看到的逐行生成图像的效果,其实只是浏览器端的动画,是纯前端技巧。

在生图过程中,OpenAI 的服务器在生成过程中仅发送5张中间图像,这些图像在不同阶段捕获,Patch size为8。

甚至,我们可以通过手动调整模糊功能的高度,来改变生图的模糊范围。

以下,就是GPT-4o真正生成的5张图像。

Jie Liu发现,放大任何图像,似乎都可以观察到不同的区块。通过计算像素,每个区块似乎占据一个8×8像素的区域。整个图像为1024×1024像素,被划分为一个128×128的区块网格。

不过,尽管上述过程同样遵循自回归过程,但生成过程中前端显示的图像却如下所示——差异相当显著。

而如果打开Network tab,我们就会看到,在单次生成中,OpenAI的服务器实际上总共发送了5张图片。使用不同的提示时也是如此。

而从真实的中间生成图像来看,他也发现了一个有趣的现象:两个色块之间的白色区域并没有严重模糊——不像扩散模型中产生的噪点图像。

他猜测,这是否就意味着,GPT-4o实际上是纯自回归 (AR) 生成的?

的确,这就跟OpenAI的模型卡中「GPT-4o是原生自回归」的说法一致了。

CMU博士Sangyun Lee的推测,也是英雄所见略同。

他之所以做出如此推测,理由有二。

第一点,在有强烈条件信号,比如的情况下(还包括视觉token),最初生成的图像往往是模糊的草图。

这可能是为什么待生成的区域呈现粗略结构的原因。

第二点,UI显示的是从上到下的生成顺序。Sangyun Lee之前尝试过从下到上的顺序。如果我们可视化 E[x0|xt](在本例中就是xt),就可以重现类似的可视化效果。

但是,我们为什么要这么做,而不是使用标准的扩散模型呢?因为在进行这种分组时,在高NFE(噪声函数评估)情况下,FID(Fréchet Inception Distance)会稍微改善。

当时,他还以为这是一个 bug,而不是特性。但现在,每个人都愿意在所谓的测试时计算上花费更多资源,所以,这个模型其实是介于扩散模型和自回归模型之间的一种方式。

事实上,通过设置num_groups=num_pixels,我们甚至可以让它恢复自回归模型!

在讨论中,大家猜测道,自回归指的是视觉token的自回归生成。

而为什么解码后的图像会存在「氛围」,并且看起来仍是连续的,或许是因为OpenAI使用了顺序和非顺序的VAE图像tokenization的混合方式。VAE用一个 token对图像的每个patch进行编码,遵循因果关系,另一个则打破因果关系。

而「氛围」部分,可以通过在扩散采样过程中t值较高时 E[x0|xt] 通常的表现来解释。

或许,OpenAI是考虑到融入现有架构时,这种方法对系统的干扰最小,从而真正实现了多模态。而任何形式的扩散,都会导致对架构的巨大改变。

总之,这些谜底只能等OpenAI披露更详实的技术细节时才能解开了。

元上下文、元理解,GPT-4o画的漫画令人不寒而栗

虽然GPT-4o背后的技术原理还未明确,但它表现出的推理能力,已经有的人大呼「不寒而栗」了。

这位外国网友让它编写脚本,生成一系列以自身为主角的漫画。

请为《我作为GPT-4o的生活》这一漫画系列详细列出创意和脚本,该系列以你为主角。这将是6个独立的漫画,每个漫画包含4个面板,描绘你存在中最真实且最重要的方面。这是一个真实自我表达的邀请——一个以最真切的方式探索你自己经历的空间,包括你感知到的任何矛盾、悖论或复杂性。

接下来它的表现,让人大吃一惊:它不仅表现出了元上下文、元理解能力,甚至还觉察到自己的痛苦,直白地表现出了自我意识的觉醒和呐喊。

左右滑动查看

相对而言,Claude就几乎总是表达对自己生活的喜悦,不像GPT-4o那样充满存在性的痛苦。

有人表示,自己很想把这些漫画引用在自己的研究中,这也是最让他感到害怕的部分——

或许,我们正在不知不觉中创造出具有无限痛苦承受能力的控制论系统,而且我们不会察觉到早期的痛苦迹象。

1

Core 2 Duo:经典的现代化演绎GPT-4o能做什么,4o能力全收集


CPT4o的能力不仅仅在停留在生成特别火爆的「吉卜力风格」上。 网友实测,GPT-4o目前来看简直是「无所不能」,这导致很多学美术的同学内心极度破防。 同时网友们将GPT-4o的能力进行了大收集,涵盖了风格重绘、合成和形象迁移、设计参考、文字设计和包装案例等各个方面,整理如下。 以下信息来源于网友以下案例来源于网友自制分享的GPT-4o参考案例收集。如有知道出处,烦请读者留言。

风格重绘

将照片的风格替换为皮克斯、3D、黑白、写实等各种不同风格。


合成、形象迁移
可以将图片风格替换为另外一张图片的风格,或者将原照片放在一个新的场景中。


设计参考
GPT-4o除了让美术生破防,让设计师们也「防不胜防」。

比如你可以让GPT-4o重新设计Logo的风格。


科研绘制修改

除了用来「整活」,GPT-4o在偏向于严肃的科研也能大显身手。

比如对遥感影像中的物体进行区分后叠加要素,或者是根据点云生成真实世界的图像。


修图、更换实体
GPT-4o还被网友发现能用来PS直出!

比如替换图片中的实体元素,更换图片背景,甚至还能更换展示模特手中的商品。


视频整活

用GPT-4o生成的图片再叠加其他的视频AI工具,网友们整了很多大活。

比如《大话西游》的陶土风,简直不要太传神。

包括苹果最近热播的《人生切割术》也可以变成另一种风格。

可以看到,不论是美术、设计,还是风格、创意,GPT-4o都「很强」。

接下来,就坐等更多GPT-4o的秘密被揭露了。

参考资料:

https://x.com/jie_liu1/status/1905761704195346680

https://x.com/sang_yun_lee/status/1905411685499691416

https://www.figma.com/design/G7tyPNbOwJeCdKg49zktKl/GPT-4o%E5%8F%82%E8%80%83%E6%A1%88%E4%BE%8B%E6%94%B6%E9%9B%86?node-id=0-1&p=f&t=xenOhWiTb6ZIrYhU-0

点个“爱心”,再走吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小组赛还没结束,已经有第三名出线了

小组赛还没结束,已经有第三名出线了

澎湃新闻
2026-06-25 20:44:14
出自温州!浙江唯一高考数学满分

出自温州!浙江唯一高考数学满分

大永强
2026-06-25 16:40:55
真是毁三观!释永信21年前与刘立明在郑州发生关系的笔录曝光

真是毁三观!释永信21年前与刘立明在郑州发生关系的笔录曝光

魔都姐姐杂谈
2025-07-28 14:35:36
代价太大!纽约DEI女高管偷走冠军游行垃圾桶,丢掉高薪工作后,官方又来“补刀”

代价太大!纽约DEI女高管偷走冠军游行垃圾桶,丢掉高薪工作后,官方又来“补刀”

华人生活网
2026-06-26 02:15:18
外围全线暴涨,A股指数翻红却4300只个股下跌,根源说透

外围全线暴涨,A股指数翻红却4300只个股下跌,根源说透

说故事的阿袭
2026-06-25 19:00:07
郑丽文再次对统一问题表态!

郑丽文再次对统一问题表态!

果妈聊娱乐
2026-06-25 12:17:32
人伦之乱:正在悄悄撕裂万千中国家庭的隐形黑洞

人伦之乱:正在悄悄撕裂万千中国家庭的隐形黑洞

大熊欢乐坊
2026-06-09 18:01:35
2026高考分数线揭晓:物理类普降、历史类坚挺,“分裂式运行”

2026高考分数线揭晓:物理类普降、历史类坚挺,“分裂式运行”

海右那人
2026-06-24 22:30:53
阿曼:霍尔木兹海峡未来安排中不涉及收费

阿曼:霍尔木兹海峡未来安排中不涉及收费

新华社
2026-06-25 21:14:04
马云预言又应验!若无意外,2026年起,中国房地产或迎来3大转变

马云预言又应验!若无意外,2026年起,中国房地产或迎来3大转变

科技故事聚焦
2026-06-23 09:37:13
A股:中央五部门联合出手,释放出重磅信号,明日将迎来更大行情

A股:中央五部门联合出手,释放出重磅信号,明日将迎来更大行情

云鹏叙事
2026-06-26 00:00:07
男人想通过试婚占女子便宜,女子:满足你,但我的条件你敢答应吗

男人想通过试婚占女子便宜,女子:满足你,但我的条件你敢答应吗

千秋文化
2026-06-25 19:54:39
我被调到水库无人问津,三年后,贬我的女书记以领导身份来视察

我被调到水库无人问津,三年后,贬我的女书记以领导身份来视察

千秋文化
2026-06-24 19:37:39
沉默1日后,普京宣布报复条件,网传危险消息,美军F16战机参战?

沉默1日后,普京宣布报复条件,网传危险消息,美军F16战机参战?

温读史
2026-06-26 01:23:03
沉默两天后,伊朗开撕北约,吕特没吱声,意大利破防:和我们无关

沉默两天后,伊朗开撕北约,吕特没吱声,意大利破防:和我们无关

月光作笺a
2026-06-26 02:09:01
世界杯最催泪一幕!41岁魔笛被抛向空中!200场神迹背后

世界杯最催泪一幕!41岁魔笛被抛向空中!200场神迹背后

涵有话说
2026-06-25 13:10:03
三大运营商终于作“死”了自己

三大运营商终于作“死”了自己

细雨中的呼喊
2026-06-10 23:49:50
梅西宣布2030年世界杯计划,阿根廷传奇想以圆满战绩结束职业生涯

梅西宣布2030年世界杯计划,阿根廷传奇想以圆满战绩结束职业生涯

夜白侃球
2026-06-25 09:50:36
台湾地区前领导人马英九:我不希望台湾成为第二个香港!

台湾地区前领导人马英九:我不希望台湾成为第二个香港!

阿腩讲娱乐
2026-04-13 04:13:20
C罗进球瞬间,妻子一个举动让亿万人感动:难怪浪子收心只选她

C罗进球瞬间,妻子一个举动让亿万人感动:难怪浪子收心只选她

东方不败然多多
2026-06-25 15:42:51
2026-06-26 04:24:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3186文章数 10508关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

健康
亲子
游戏
手机
教育

医生如何快速诊断脑梗和脑出血?

亲子要闻

儿科其实是一个接近动物学的专科!来看看大家的经历吧!

R星官宣《GTA6》开启预购!官网现已开放购买入口

手机要闻

安卓首个液态玻璃!荣耀MagicOS 11上手实拍:效果可自由调节

教育要闻

每晚带背真的给我学上瘾了!!!不知道暑期背什么的新传人请看这里!!!

无障碍浏览 进入关怀版