网易首页 > 网易号 > 正文 申请入驻

OpenAI的吉卜力,撞车了被字节起诉“投毒AI”的前实习生?

0
分享至

作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com

想象一下,耗费动画大师宫崎骏数十年心血、一帧一画精雕细琢的艺术风格——比如《起风了》中耗时一年多的四秒人群场景,或是《幽灵公主》里那个生物钻地镜头背后一年零七个月的 5300 帧手绘,如今,在GPT-4o手中,似乎变得“唾手可得”。用户们兴奋地将个人照片、网络梗图甚至历史影像纷纷“一键吉卜力化”,其效果之逼真、风格之统一,迅速点燃了网络。无数人的时间线都被塞入了宫崎骏的平行宇宙。OpenAI CEO Sam Altman透露,4o的图像生成功能在一小时内就吸引了百万新用户。

但如果你认为这仅仅是OpenAI用一个更强的模型替换了之前的DALL-E,那可能就忽视了全貌。有敏锐的网友指出:“这不仅仅是一次产品更新——这很可能是一个彻底的范式转变。” OpenAI 似乎正在解决那些长期困扰AI图像生成过程中,让创作者望而却步的问题。

那么,秘密武器是什么?OpenAI自己给出了线索:这次的图像生成是直接内置在GPT-4o模型中的,并且,与广泛采用扩散模型(Diffusion Models)的DALL-E、Midjourney、Stable Diffusion 不同,OpenAI在模型卡片中声明:“与作为扩散模型运行的DALL·E不同,4o图像生成是一个原生嵌入在ChatGPT中的自回归模型”

值得注意的是,将自回归思想应用于图像生成并非OpenAI的独创。事实上,如何让擅长序列预测的自回归模型在视觉领域发挥潜力,一直是AI研究者们试图攻克的方向之一,意在寻找不同于主流扩散模型的新范式。

例如此前获得顶级学术会议NeurIPS 2024最佳论文奖等《视觉自回归建模:通过下一尺度预测实现可扩展的图像生成》(Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction)的研究,它不仅提出了一种创新的 VAR 方法,显著提升了自回归模型生成图像的质量和效率,更是在实验中首次证明了类 GPT 的纯自回归模型在图像生成任务上,有潜力超越当时顶尖的扩散 Transformer 模型。

这篇论文由北京大学与字节跳动的研究者共同完成。而为这篇技术含量极高的论文增添了更多话题性的,是其第一作者田柯宇的另一重身份——他正是那位因被指控恶意攻击字节跳动训练集群、面临巨额索赔而备受关注的前字节实习生。

这位“含金量还在上升”的实习生,以一种意想不到的方式,与AI图像生成的前沿探索交织在了一起。

1

自回归的“复兴”

GPT-4o 在图像生成上的突破,关键之一在于其宣称采用的自回归技术(AR)路径,这与主流的扩散模型截然不同。理解这一差异,是把握这场潜在“范式转变”的核心。

扩散模型,如Midjourney和Stable Diffusion,其原理是从随机噪声出发,通过学习数据分布逐步去噪,最终生成图像,强项在于生成高质量、逼真的图像,但在速度、计算成本以及精确理解复杂指令(尤其是文字渲染)方面常显不足。

自回归模型则借鉴了GPT处理文本的方式:按顺序预测下一个元素。在图像上,这意味着模型基于已生成的部分(如像素或图像标记),逐步构建出完整图像。理论上,这赋予了AR在上下文理解、细节控制和连贯性上的优势。然而,传统AR方法存在效率低、易出错的问题,长期以来难以在效果上匹敌扩散模型。

近年来,以 VAR(Visual Autoregressive Modeling)、掩码自回归建模(MAR)等研究,开始为 AR “正名”。VAR提出的“下一尺度预测”(从粗到细生成)等创新,显著提升了AR模型的图像质量和生成效率,证明了AR路径不仅可行,甚至有潜力超越扩散模型。VAR等研究可能为GPT-4o提供了理论启发,而GPT-4o的实践进一步验证了自回归模型在视觉生成中的可行性,让 AR 在图像生成领域迎来了“复兴”的可能。

那么,GPT-4o 的图像生成具体是如何运作的?OpenAI强调其图像功能原生集成于模型核心,而非独立模块。这意味着4o能充分利用其强大的语言理解和世界知识来指导图像生成,实现前所未有的上下文理解和指令遵循能力——比如准确画出包含特定公式的白板。这种深度融合是 4o 效果出色的关键。

然而,一张流出的内部白板图(标注了Transformer -> Diffusion流程)引发了对其“纯粹”自回归的质疑,可能采用了混合架构:即利用 AR 的理解能力生成中间表示,再结合 Diffusion 的像素生成优势输出最终图像。这种猜测认为4o可能融合了两条路线的优点,以规避各自的短板。不过也不能排除是OpenAI在故意混淆事实。

由于没有任何技术报告,其具体实现细节仍是谜团,但OpenAI的战略意图清晰可见:一是将自回归原则置于下一代多模态模型图像生成的核心位置;二是依托其超大规模的模型为这一切提供算力和智能基础。 无论最终的技术“配方”如何,GPT-4o 都已将自回归推向了前沿,这很可能会改变AI图像生成的未来发展方向。

1

中美温差

GPT-4o图像生成功的成功,引出了一个值得关注的现象:无论是语言模型还是视频模型,中国的企业追赶迅速,但在尖端图像生成上,似乎总是美国公司在前沿“独奏”?无论是从Midjourney到Gemini Image再到4o,在中国似乎都看不到能与之“对标”的企业或产品。

我们可以从技术和商业两个视角来看待这种“温差”。技术上,美国顶尖公司似乎更倾向于探索和押注如自回归(AR)等可能带来范式革命的新路径,这或许得益于其在基础研究上的长期投入和对风险的更高容忍度。OpenAI在2020年就推出的自回归图像生成模型Image GPT,旨在将自然语言处理中的Transformer架构应用于图像生成领域。

而国内力量可能更集中于优化成熟的Diffusion路线并快速落地应用,这在追赶阶段十分有效,但也可能带来一定的路径依赖。同时,顶尖模型所需的算力、高质量数据和核心算法创新,本身就构成了不低的壁垒。有观点认为, Diffusion模型可能已触及瓶颈,亟待新的突破。

商业上,市场定位和变现模式也塑造了不同的发展方向。Midjourney、GPT-4o等似乎更瞄准对效果要求极致的专业用户或付费意愿强的市场,追求打造“爆款”工具并直接收费。而中国庞大的应用场景(电商、社交、营销等)或许更看重成本、效率和与现有生态的融合,促使技术发展更偏向工程优化和平台赋能,而非单一工具的极限探索。不同的资本偏好和生态整合策略也加剧了这种分野。

当然,这并非说中国在生图领域毫无建树。阿里巴巴、字节、DeepSeek等公司也在持续推出有竞争力的模型。只是在全球“爆款”层面,暂时由美国公司领跑。

归根结底,技术和商业的合力共同塑造了当前的格局。随着 GPT-4o可能引领的自回归新浪潮,我们无疑等不及要看到这个方向的开源进展,或是中国企业的快速跟进与实现了。

点个 “爱心”,再走吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Wi-Fi 8,史上最大变革?

Wi-Fi 8,史上最大变革?

半导体行业观察
2025-12-28 10:54:15
这个无人问津的国家,正爆发21世纪最大最惨烈的灭绝屠杀

这个无人问津的国家,正爆发21世纪最大最惨烈的灭绝屠杀

孔孔说体育
2025-12-15 14:13:58
因个别乘客在车门关闭之际强行登车,致地铁4号线3409次下行列车临时停车,济南地铁发布安全倡议

因个别乘客在车门关闭之际强行登车,致地铁4号线3409次下行列车临时停车,济南地铁发布安全倡议

环球网资讯
2025-12-29 12:25:13
600865,股价大跳水!人形机器人爆发在即,融资客加仓的超跌股出炉

600865,股价大跳水!人形机器人爆发在即,融资客加仓的超跌股出炉

数据宝
2025-12-29 12:06:19
驴肉用马肉被曝光后,保定不少商家把“户”字给拆了

驴肉用马肉被曝光后,保定不少商家把“户”字给拆了

映射生活的身影
2025-12-29 10:33:59
终于明白了!为啥农民宁愿断缴医保,也不愿再掏这400块钱?

终于明白了!为啥农民宁愿断缴医保,也不愿再掏这400块钱?

复转这些年
2025-12-25 23:30:29
火药味十足!6位著名媒体人评价晋粤大战,付政浩: 比UFC精彩多了

火药味十足!6位著名媒体人评价晋粤大战,付政浩: 比UFC精彩多了

金山话体育
2025-12-29 09:09:29
徐湖平父亲和岳父身份被扒!个个不简单,难怪举报他4次都不成功

徐湖平父亲和岳父身份被扒!个个不简单,难怪举报他4次都不成功

叶公子
2025-12-27 19:19:28
尼克松访华时留意到 “打倒美帝国主义” 的标语,毛主席用风趣的话语化解尴尬,尼克松听后爽朗大笑

尼克松访华时留意到 “打倒美帝国主义” 的标语,毛主席用风趣的话语化解尴尬,尼克松听后爽朗大笑

清风鉴史
2025-12-20 18:40:22
章子怡为女儿醒醒庆生,蛋糕上"祝醒宝大作早日出版"很醒目

章子怡为女儿醒醒庆生,蛋糕上"祝醒宝大作早日出版"很醒目

韩小娱
2025-12-29 09:22:44
商丘36岁银行女经理家中自缢:丈夫已死,储户赔偿难,银行不担责

商丘36岁银行女经理家中自缢:丈夫已死,储户赔偿难,银行不担责

奇思妙想草叶君
2025-12-28 01:45:36
痛心!安徽“半挂西施”王迪去世,有三台X6000,出事前刚换轮胎

痛心!安徽“半挂西施”王迪去世,有三台X6000,出事前刚换轮胎

洲洲影视娱评
2025-12-27 23:22:14
我66岁,退休存款230万,女婿问时我说:10万,3天后收到银行短信

我66岁,退休存款230万,女婿问时我说:10万,3天后收到银行短信

堇色夜行
2025-12-27 14:16:22
阚清子面临巨额违约索赔,未婚夫一家变脸,孩子去世后豪门梦破碎

阚清子面临巨额违约索赔,未婚夫一家变脸,孩子去世后豪门梦破碎

花哥扒娱乐
2025-12-28 19:49:42
1949年,一个师跑错路闯进敌窝,林彪看了一眼地图:全师归我直接指挥

1949年,一个师跑错路闯进敌窝,林彪看了一眼地图:全师归我直接指挥

历史回忆室
2025-12-25 10:40:05
记者:老鹰愿在浓眉交易中加入去年状元里萨谢,后者表现未达预期

记者:老鹰愿在浓眉交易中加入去年状元里萨谢,后者表现未达预期

懂球帝
2025-12-29 12:06:47
也谈人民币国际化:外汇管制下的悖论

也谈人民币国际化:外汇管制下的悖论

生命可以承受之轻
2025-12-28 23:25:02
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
扣押中国油轮后,美方发现中国货轮填满导弹,白宫的说法终于变了

扣押中国油轮后,美方发现中国货轮填满导弹,白宫的说法终于变了

老谢谈史
2025-12-28 03:34:10
演员王星自曝被骗缅甸时手机被人拿走刷了数万元网贷,回国后自己分期还款;透露有人找他出演“人口贩卖”题材影片,但都拒绝了

演员王星自曝被骗缅甸时手机被人拿走刷了数万元网贷,回国后自己分期还款;透露有人找他出演“人口贩卖”题材影片,但都拒绝了

扬子晚报
2025-12-27 18:49:32
2025-12-29 15:51:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2751文章数 10423关注度
往期回顾 全部

科技要闻

肉搏非洲,传音不想只当个卖手机的

头条要闻

外交部:美在中国实现完全统一问题上是欠了中国债的

头条要闻

外交部:美在中国实现完全统一问题上是欠了中国债的

体育要闻

“史上最贵”的世界杯,球迷成了韭菜

娱乐要闻

谭松韵扛剧能力被质疑 赵丽颖成女主?

财经要闻

白银惊魂过山车 贵金属牛站在悬崖边?

汽车要闻

一汽正式“入股”零跑,总金额超37亿元!

态度原创

本地
时尚
数码
手机
公开课

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

“勃肯鞋”今年冬天爆火!这几双怎么搭都好看

数码要闻

CES 2026前瞻:海信或将发布新一代RGB-Mini LED技术

手机要闻

小米POCO M8系列手机规格曝光,预计近期印度发布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版