网易首页 > 网易号 > 正文 申请入驻

GPT-4o原生图像热闹之后,看DeepSeek,看统一多模态大模型

0
分享至


GPT-4o推出原生图像掀起的热潮不减。OpenAI故伎重演,光芒盖过了同时发布的DeepSeek-V3 0324和Gemini 2.5 pro。

无数用户使用吉卜力画风生成和变化图片,乐此不疲。就连奥特曼也换了头像,得意地说:

“我们的GPU都熔化了”。

然后宣布对使用量临时设限,即使放开之后,ChatGPT免费用户每天只能生成三张图。

这次由多模态大模型原生出来的图像,已经融入了大模型的语言、推理、上下文学习等能力,有时体现出令人震撼的能力——它能让人感到画片背后所要表达的意味。

大模型原生出来的能力是如此强大,让那些五花八门的AI工具、垂类的智能体、甚至Midjourney和Stable Diffusion,开始怀疑人生。

统一多模态大模型

OpenAI并没有为此而改变4o的名称,它还叫4o,显示OpenAI正在构建强大的统一多模态大模型。

原生图像能准确地渲染文字、细腻地理解提示、并且调动起4o内在的知识库、交谈的上下文;还能转变上传的图片,以及用它们来启发更有创意的视觉效果。

正如OpenAI所说,图像生成本来就应该是大语言模型的主要能力。关于训练,有一小段高度概括的文字:

我们在网络图像与文本的联合分布上训练了模型,不仅学习图像与语言之间的关系,也学习图像彼此之间的关联。结合强力的后训练策略,最终得到的模型展现出令人惊讶的视觉流畅性,能够生成实用、一致且具备上下文感知能力的图像。

从中可以看到,一个原生的、统一的多模型大模型,可以把语言、视觉和声音的理解有机地结合在一起,更加接近世界知识。

正因为图像生成已经内嵌于4o中,用户可以通过自然对话来转变图像。而且由于4o模型是在上下文中构建图像和文本的,图像的一致性得到保持。例如,如果设计一个游戏中的形象,用户对它进行修正和试样,在多次迭代之后,形象仍不会走样。它还解决了图中嵌入文字的问题,并且产生了图文并茂的效果(但我们试用发现,仍然不能处理好图中较多的中文)。

而且由于它原生嵌入在我们全模态模型 GPT-4o 的深层架构中,4o 图像生成可以调动模型所掌握的全部知识,将这些能力以微妙而富有表现力的方式发挥出来。

模型即产品。大模型的第一性原理,仍然需要不断提升理解的境界。

怎么训练出来的

OpenAI在其技术报告中,重点谈了安全。对于训练提到了这么几点:

系统卡重点谈了安全,提及这是一种自回归模型。“与采用扩散模型的 DALL·E 不同,4o 图像生成是一种自回归模型,原生嵌入在 ChatGPT中。”

清华与字节的研究人员,去年底曾提出了 ACDIT(Autoregressive blockwise Conditional Diffusion Transformer),一种将扩散过程与自回归范式融合的模型。根据论文,具体的工作机制如下:

实现ACDiT 并不难,仅需在现有的扩散Transformer架构上添加一个 Skip-Causal Attention Mask 即可。在推理过程中,生成以两个阶段交替进行:一是在块内进行条件扩散去噪(以完整的干净上下文为条件),二是以自回归方式生成新的块,并将其作为新的上下文追加进来。借助这种方式,可以使用 KV-Cache 来加速推理过程。

总体而言,ACDiT 具有以下天然优势:

(i)ACDiT 同时学习了块与块之间的因果依赖(通过自回归建模)以及块内部的非因果依赖(通过扩散建模);

(ii)ACDiT 以 clean 的连续视觉特征作为输入,无需进行向量量化,从而提升了模型在完成生成任务后向视觉理解任务迁移的能力;

(iii)ACDiT 可以充分利用 KV-Cache,在任意长度下实现灵活的自回归生成,并有潜力结合文本领域最新的长上下文技术,进一步拓展至长视频生成任务。

如图所示:

(a):对于每个带噪块 nin_i,它只能关注之前的 clean 潜在块 c0,c1,…,ci−1c_0, c_1, \ldots, c_{i-1} 以及它自己对应的 clean 表示。每个 clean 块 cic_i 只能关注之前的 clean 潜在块。

(b):ACDiT 可以高效地利用 KV-Cache 进行自回归推理。

(c):ACDiT 的三维视图,其中 B 表示块大小,L 表示块的数量,T 表示去噪的时间步。颜色越深表示噪声越高。

ACDiT不仅可以用来生成图像,而且可以用来生成视频。

DeepSeek的动作

ACDiT的共同一作是清华博士胡声鼎,相当了得。

因为是与字节合作的论文,他被科技媒体晚点报道将加入字节的AGI研究团队Seed Edge。

晚点称字节号称正要打造国内人才密度最高的AI研究团队,甚至张一鸣都亲自下场去见一些顶尖的博士和科学家。

但是已经有传闻,胡声鼎并没有加入字节,而是选择了DeepSeek。

DeepSeek创始人梁文锋,去年接受暗涌采访时,就已经表示要进入多模型大模型领域。他眼中的AGI,包括要应用于机器人领域。

以梁文锋在国内顶尖学校招收顶尖博士的做法,胡升鼎加入DeepSeek顺理成章。多模态与推理,正统一于下一代大模型中。

看起来已经成为一种趋势!自回归条件块注意力(autoregressive conditional block attention)或许就是我们统一多模态所需要的一切。

女艺术家对AI爆粗口

不久前,OpenAI以国家安全的名义,向白宫建言:必须给我们在知识产权保护方面松绑,否则我们将输给中国AI企业(DeepSeek)。

紧接着,OpenAI试图施压《纽约时报》放弃对其发起的诉讼。

4o推出图片生成和编辑功能之后,社交媒体上开始充斥着吉卜力风的图像和meme。

日本漫画大师宫崎骏是吉卜力工作室的主要创始人,其独特的艺术风格和深刻的主题,超越了文化和语言的障碍,经典作品《千与千寻》、《龙猫》在全球产生了巨大的影响力。

4o惊人的复制画风能力,加上之前Gemini稍早发布类似功能中,可以除去图像中的水印,以及马斯克的Grok模型,以言论自由之名更无忌惮地生成模仿,很快激起了许多艺术创作者的反击。

OpenAI有可能用吉卜力电影的数百万帧来训练其模型,否则怎能如此相似。OpenAI和 Google的最新工具,只要输入文本提示,只要动动嘴,就重现受版权保护作品的风格。这显然对艺术家和创意者的生存空间,又产生的前所未有的冲击和挤压,包括其中一部分人刚刚学会掌握的其他专用的图像生成工具。

OpenAI是否在对受版权保护的作品进行训练?如果是,这是否违反了版权法?但使用受版权保护的作品训练 AI 模型,是否属于“合理使用” (fair use),从而受到法律保护,这在一些法院依然是未决的问题。

有人用宫崎骏2016年对AI模仿的愤怒,也生成了一张吉卜力:“我简直恶心透了,AI在侮辱生活本身。”

这位女艺术家,已经愤怒得对AI爆粗口了。

原生图像提出了一个严峻的问题:AI如果能以如此高效的方式训练并模仿出所有的创作风格,那些艺术家、作家、创意者、创作者的工作价值何在?

这涉及到奥特曼所说的“创作自由”,还有科技右翼一直倡导的“言论自由”,在不断拓展AI的能力边界。这位Tech Bro高呼:

Memes always win!

GPU都被熔化了,不得不对用户设限了,难怪奥特曼需要5000亿美元的星际之门计划。

释放创作自由”

AI放大的“创作自由”,人类艺术家的创作自由以及他们的版权,两者之间,如何平衡?

OpenAI在提出一种理念。其模型行为负责人Joanne Jang,把奥特曼的AI创作自由理论进行了系统化的阐述。

从中可以看出,OpenAI主张,因为AI在不断发展出新的能力,这些能力会同时给人类带来福利与风险,应该首先鼓励推出这些能力并释放福利,同时用一种新的责任、新的方法去控制可能产生的风险,而不是用现有的法律,一刀切地拒绝新的能力。

这样的问题,DeepSeek和Owen们,豆包和元宝们,如果想做出同样强大的统一多模态大模型,也无法回避。

(Joanne Jang,来源:个人X账号)

下面是她的博客文章:

AI新能力制定政策的思考

我在OpenAI负责模型行为方面的工作。

本周,我们通过GPT-4o在 ChatGPT 中上线了原生图像生成功能。

这是一次特别的发布,原因有很多——其中之一是我们 CEO 山姆 所强调的:“这是我们在释放创作自由方面的新高峰”。

我想稍微展开说说,因为如果你不是深入AI领域,或者没有紧跟我们对模型行为的最新思考(什么?你居然没在空闲时间读那份60页的《模型规范》??),可能会很容易忽略这点。

简而言之:我们正在从对敏感领域的一刀切拒绝,转向一种更精细的策略,核心是防止现实世界中的实际伤害。我们的目标是拥抱“谦逊”——承认我们仍有很多未知,并以便于学习和适应的方式前进。

图像具有直观的冲击力

图像有一种独特而强烈的力量,能带来难以比拟的愉悦与震撼。与文字不同,图像超越语言障碍,唤起多样的情绪反应,也能瞬间阐明复杂的想法。

正因为图像具有如此强烈的影响力,我们在制定相关政策和模型行为时,也感受到比以往发布更多的责任与分量。

对“新能力”的发布,态度也在演变

每当发布一种“看似全新”的能力,我们的视角也在不断演变:

  • 信任用户的创造力,而不是依赖我们的假设。AI 实验室的员工不该决定什么是人们“可以”或“不可以”创造的。我们总是在发布之后被用户的创意所震撼,发现许多我们从未想象的用途——甚至是一些现在看来“理所当然”的场景,事先我们也根本没想到。

  • 清楚看到风险,但不忽视用户日常使用中的价值。人们很容易专注于潜在的风险,而大范围的限制听起来总是最安全(也最简单)的。但我们常常会问自己:“我们真的需要更强大的 meme 生成能力吗?毕竟这些 meme 也可能被用来冒犯他人。”但我认为这种思维方式本身就是有问题的。它意味着日常的小乐趣、小幽默和连接必须为“最坏情况”让步,而这低估了这些微小瞬间对人们生活带来的真实改善。

  • 重视那些我们未曾想象的可能性。也许是因为我们天然倾向于避免损失,我们很少认真思考“无所作为”的负面影响。有人称之为“看不见的墓地”,虽然这听起来有些阴郁。这些“新能力”往往会带来间接的积极影响——无数原本可能发生的互动、创新和想法,可能就因为我们过度担心最坏的情况而从未诞生。

决定政策的Day1考量

我们希望在保护现实安全的前提下,尽可能释放创造自由。以下是我们在首次发布时的一些政策案例:

  • 公众人物:我们知道公众人物的图像生成很敏感,尤其是在新闻、讽刺和个人形象权益之间界线模糊的时候。我们希望政策对所有人都公平适用,不管“身份地位”为何。但我们不想扮演决定“谁够重要”的角色,因此我们引入了“主动退出名单”机制——任何可能被模型生成形象的人,都可以自行选择退出。

  • “冒犯性”内容:关于“冒犯性”,我们反思了哪些内容是不舒服,是因为它真的可能造成伤害,还是只是因为我们自己的偏好或不适。模型曾默认拒绝一些请求,比如“让这个人看起来更像亚洲人”或“让这个人更胖”,这其实在无意中暗示了这些特征本身是“冒犯的”。

  • 仇恨符号:我们清楚像纳粹符号这样的标志承载着深重的历史痛苦,但它们也可能出现在真正的教育或文化语境中。全面封禁反而可能抹除重要的对话和思想探索。因此我们正研发更精准的技术手段,识别并拦截有害滥用的情况。

  • 未成年人:凡是涉及青少年的政策,我们都选择更加谨慎,优先保护未满 18 岁的用户,不论是在研究还是产品中。

最终,这些考量,加上我们在技术控制能力上的进步,引导我们制定了更具包容性的政策。我们理解这可能会被误读为“OpenAI 降低了安全标准”,但我个人认为,这种解读无法体现我们团队所投入的大量研究、深度讨论,以及对用户和社会的真诚关怀。

我有位同事 Jason Kwon 曾对我说过一句话:

“船停在港口最安全,模型如果什么都拒绝最安全。但那不是造船或训练模型的目的。”

未来,是靠想象力和冒险精神构建的。随着研究继续、社会反馈不断涌现,我们相信可以在“负责任”与“自由”之间不断找到新的平衡。我们的政策也将随现实反馈而持续更新——这不是失败,而正是我们“逐步部署”理念的核心。

参考论文及文章:

https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

https://reservoirsamples.substack.com/p/thoughts-on-setting-policy-for-new

https://arxiv.org/pdf/2412.07720

https://arxiv.org/pdf/2503.09573

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
弘一法师:你最大的修行,是无论别人如何,都要善待自己

弘一法师:你最大的修行,是无论别人如何,都要善待自己

清风拂心
2025-10-25 11:15:03
门头沟区雁翅镇大村村党支部书记、村委会主任李占森接受审查调查

门头沟区雁翅镇大村村党支部书记、村委会主任李占森接受审查调查

鲁中晨报
2025-11-12 16:19:02
64岁的刘德华终于开始大大方方的公开自己和老婆朱丽倩的照片。

64岁的刘德华终于开始大大方方的公开自己和老婆朱丽倩的照片。

科学发掘
2025-11-11 13:33:40
C罗到沙特的动态点赞历史前十,被梅西去诺坎普不断逼近!

C罗到沙特的动态点赞历史前十,被梅西去诺坎普不断逼近!

氧气是个地铁
2025-11-12 19:13:00
女生穿成这样去健身房,真的合适吗??

女生穿成这样去健身房,真的合适吗??

健身厨屋
2025-10-20 12:22:34
哨兵被队友遗忘,深埋地下9年,发现时仍坚守军需库,双目已失明

哨兵被队友遗忘,深埋地下9年,发现时仍坚守军需库,双目已失明

兴趣知识
2025-11-11 21:20:51
中国还没来得及对黄岩岛吹填,就有人捷足先登,对南海三大岛下手

中国还没来得及对黄岩岛吹填,就有人捷足先登,对南海三大岛下手

阿策聊实事
2025-11-12 16:17:23
陈布雷得知地下党女儿被捕后,竟要毛人凤立即枪毙,此举反救她一命

陈布雷得知地下党女儿被捕后,竟要毛人凤立即枪毙,此举反救她一命

睡前讲故事
2025-11-08 13:28:15
祝贺!上海U20男足夺得十五运会铜牌

祝贺!上海U20男足夺得十五运会铜牌

上海体育
2025-11-12 19:00:14
全运体操男团江苏夺金湖南摘银

全运体操男团江苏夺金湖南摘银

体坛周报
2025-11-12 22:11:10
你所不知道的,全面抗战时期,国民政府为中共提供超过3000万军费

你所不知道的,全面抗战时期,国民政府为中共提供超过3000万军费

老谢谈史
2025-11-09 04:34:28
男子中午鱼刺卡喉、上班后不舒服抢救无效身亡,家属工伤诉求再审遭驳回

男子中午鱼刺卡喉、上班后不舒服抢救无效身亡,家属工伤诉求再审遭驳回

红星新闻
2025-11-12 15:52:13
特朗普:美国不再资助乌克兰!北约前秘书长:北约不会为乌克兰问题与俄进行武装冲突

特朗普:美国不再资助乌克兰!北约前秘书长:北约不会为乌克兰问题与俄进行武装冲突

每日经济新闻
2025-11-11 20:50:40
什么时候吃降压药合适?早上空腹能吃吗?告诉你答案

什么时候吃降压药合适?早上空腹能吃吗?告诉你答案

泠泠说史
2025-11-06 15:45:43
检察机关依法对王中和涉嫌受贿、行贿案提起公诉

检察机关依法对王中和涉嫌受贿、行贿案提起公诉

新华社
2025-11-12 10:01:02
九成“地补”暂停、北京置换补贴“余额不足” 2026年汽车“两新”政策亟待出炉

九成“地补”暂停、北京置换补贴“余额不足” 2026年汽车“两新”政策亟待出炉

财联社
2025-11-12 15:24:09
男性衰老的标志:1臭、2大、2小,如果你没有,说明还年轻!

男性衰老的标志:1臭、2大、2小,如果你没有,说明还年轻!

荷兰豆爱健康
2025-10-31 14:56:32
表面上"黄花大闺女",实际未婚当妈的几位女星,最后一位人人喊打

表面上"黄花大闺女",实际未婚当妈的几位女星,最后一位人人喊打

丰谭笔录
2025-11-10 10:28:39
证监会:坚决防止市场大起大落、急涨急跌!接下来股市行情怎么走

证监会:坚决防止市场大起大落、急涨急跌!接下来股市行情怎么走

有料财经
2025-11-12 18:56:28
2025-11-13 05:03:00
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
244文章数 52关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

男子打92岁母亲 邻居:老人4女1子 打人者为小儿子

头条要闻

男子打92岁母亲 邻居:老人4女1子 打人者为小儿子

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

亲子
数码
教育
旅游
时尚

亲子要闻

男孩总是躁怒崩溃,送去医院就诊,被确诊的却是孩子父母

数码要闻

京东11.11办公平板成交额同比增150% 游戏平板表现亮眼

教育要闻

2025年中国教育科学研究院实验区(校)教育成果展示交流活动即将拉开序幕

旅游要闻

638栋楼的灯光秀,与滕王阁的千年对话

女人年纪大了也不必慌,掌握这3个穿衣技巧,优雅体面极了

无障碍浏览 进入关怀版