网易首页 > 网易号 > 正文 申请入驻

OpenAI 复制吉卜力,大模型正在吞噬一切产品?

0
分享至

题图由 GPT-4o 生成,提示词是“请你根据下面这句话生成一个吉卜力风格的图像:周围有一圈人,看着一个机器吐出图像”。

文丨贺乾明
编辑丨黄俊杰

新产品发布两天后,在 OpenAI 创始人山姆·阿尔特曼(Sam Altman)的推文下,有人祝贺他十年努力终于带来了 AGI——社交网络上全是吉卜力图像 “All Ghibli Images”。

3 月 26 日,OpenAI 更新 GPT-4o 文生图功能。付费用户可以在 ChatGPT 直接调用 4o 生成、修改图片,不再需要使用 OpenAI 的文生图模型 DALL-E。仅仅一天时间,近年影响较大的照片和 meme 图都被 4o 重做了一遍,最流行的就是宫崎骏的画风。

人人都用生成吉卜力画风不仅仅因为宫崎骏对世界的卓绝贡献,也因为 OpenAI 的引导——阿尔特曼在 GPT-4o 新功能发布的直播里选择生成吉卜力风格的三人自拍照。但其实 GPT-4o 生成其他风格效果通常也不错。

文生图已经不新鲜,此前也有文生图产品能实现风格化效果。比如 Midjourney 年付费用户可以改照片风格,Stable Diffusion 也有专门训练成吉卜力风格的模型,Gemini 2.0 半个月前也增强了文生图功能。

但 GPT-4o 在多个领域明显超过所有对手,比如图像中的文字(尤其是英文)基本不再是乱码。以图生图时,画面细节更符合现实情况,修改图片时画面细节能保证较高的一致性。

右图是原图,有两轮提示词,分别是 “保留图片中的文字,把图片改成动漫风格”“在周围加一圈猫”。

提示词是 “请帮我生成一个泡泡玛特的 MOLLY ,画面中是它正在爆炸起飞,像皇帝一样登基了,周围有人朝拜它”“那你改成 3D 版本”。

GPT-4o 对技术普及影响最大的可能是控制更容易也更精确,整个过程不再需要复杂、精确的提示词,像平时说话一样给修改建议就行。

文生图开源模型 Stable Diffusion 在 2022 年发布。需要制图、画插画的行业很快就将它引入工作。但 Stable Diffusion 本身不够可控,于是 LoRA、ControlNet 等技术被发明出来,新的创业公司应运而生,帮助完善产品、提供服务,搭建起一套实际可用的工作流程。

“(GPT-4o)直接干翻了之前很多创业公司的产品。” 资深用户体验设计师章萧醇说。“他们花了那么多时间、人力、投资人的钱,调优的算法、工作流、模型,直接被一次大模型的更新取代了。”

“因为大模型变得过于强大,一种新型编程方式正在兴起。”AI 科学家安德烈·卡帕斯(Andrej Karpathy)把它称为 “Vibe Coding(氛围编程)”,“只是看东西、说话、运行程序和复制粘贴,就能开发程序,这套流程大多数时候都能正常工作。”

而 GPT-4o 的文生图功能就像是 Vibe Painting。

技术细节有限,推论是 OpenAI 靠底层能力提升

不论是 Google 还是 OpenAI,发布新的文生图功能时,都没有介绍技术细节,以至于许多人去问 ChatGPT,OpenAI 到底是怎么做到的。

相对权威的技术介绍,是 OpenAI 的研究员加布里埃尔·吴(Gabriel Goh)在直播中提到的两点:

全模态的 GPT-4o 是这项功能的基础,它有生成各种类型数据如文本、图像、音频和视频的能力。

采用自回归(autoregressive)方法(根据已经生成的内容来预测下一个元素)——从左到右、从上到下顺序生成图像,类似于文本的书写方式——而不是大多数图像生成模型(如 DALL-E)使用的扩散模型(Diffusion Model)技术,一次性创建整个图像,然后降噪提高清晰度。

GPT-4o 是 OpenAI 去年 5 月发布的大模型,与 GPT-4.5、DeepSeek-V3 等专注文本能力的模型不同,它用文本、视觉、音频等数据训练。OpenAI 称,它可以处理用户输入文本、音频、图像或视频的组合内容,也可以反馈文本、音频、图像或视频组合内容——不过现在 GPT-4o 还没有完全具备上述能力。

OpenAI 新发布的文生图功能,是其沿着 GPT-4o 技术路线发掘到的新成果。

清华大学 NICS-EFC 实验室专注文生图研究的博士生赵天辰对《晚点 LatePost》说,GPT-4o 用自回归技术可能不是图像生成能力大幅提升的核心原因,而是 OpenAI 大幅提升了“文本-图像对齐”(text-image alignment)能力。

行业内惯用的文生图模型,如 Midjourney、DALL-E 系列,生成图像时会用到多个组件:先理解用户输入的提示词,转换为文本特征,再聚合对应的图像特征,最后生成图像。

赵天辰说,目前开源的文生图模型,引入文本控制信号上,存在以下不足:

一般都采用较小的模型提取文本特征(CLIP/T5),文本的理解能力会受到 “不够强” 的文本制约,损失一些文本信息。

引入控制信号的方式 “相对朴素”,用注意力机制融合文本特征与图像特征,即使文本特征足够好,也无法保证图像特征能够准确遵循文本特征。

许多开发文生图工具的公司或者使用文生图工具的设计师,往往用精心调教的提示词、层层叠加的插件、环环相扣的模型链弥补缺陷,把它变成可用的工具。

OpenAI 用 GPT-4o 提升了模型的理解文本特征和提示词的能力。“如果我去画一幅图,虽然能力有限,但也会用自己积累的知识完成它”。ChatGPT 多模态产品负责人杰基·香农(Jackie Shannon)说,“大模型有通用知识,当你用 GPT-4o 生成一张牛顿棱镜实验的图像时,你不需要解释那是什么,就能得到相应的结果。”

赵天辰推测,OpenAI 模型展示出的惊艳文本遵从能力,尤其是能准确把握文本描述中多个对象,以及形容词和位置关系,可能很难通过传统的单次文生图“端到端”达成。在现有模型中,如果提示词中有很多颜色,比如 “蓝色的帽子” 和 “红色的衣服”,直接交给模型端到端生成,结果可能是衣服和帽子都有蓝有红,颜色混在一起。

GPT-4o 基本不会有类似错误。他认为可能采用了 “组合-分解式” 的生成方案,比如生成一个人在左边,再生成一条狗在右边,然后把这些图叠起来,最后整体生成一遍,把它们融合在一起。

从编程到图片生成,大模型试图吞噬依赖它的应用

编程是大模型最早规模商业化的场景。2021 年 OpenAI 推出 GPT-3 不久,微软就用它做出了 GitHub Copilot。

就像它的名字那样,受限于模型能力,GitHub Copilot 很长时间只能作为辅助编程工具,它最好用的场景是补全代码和 Debug,程序员还要做不少引导工作。

随着大模型能力持续提升,GitHub Copilot 在 2023 年用上新模型后,年化收入迅速突破 1 亿美元。行业内也诞生了 Cursor、甚至 Devin 这样的产品。它们集成了 Anthropic、OpenAI 的最新模型,编写简单的代码多数情况都不需要程序员干预,但写复杂的代码还是需要程序员引导。

Cursor 等产品还面临一批竞争对手——它们依赖的大模型公司,如 Anthropic、OpenAI 等。它们在持续提高大模型本身的编程能力,每一次更新都有可能削减 Cursor 等产品的价值。比如编程竞赛 CodeForces 的测试,OpenAI 的 o3 的编程能力已经达到了 Top 200 人类程序员的水平。虽然它并不代表实际的编程水平,但证明了大模型本身的潜力。

这就是安德烈·卡帕斯提出 Vibe Coding 的背景,编程 “几乎不用碰键盘”,收到报错信息时,只用复制粘贴进去,通常就能解决问题。

硅谷创业孵化器 YC CEO 陈嘉兴(Garry Tan)接受采访说,创业者不再需要第一个 50 或 100 人的工程师团队,可以用 10 个人建立每年赚 1000 万或 1 亿美元的公司。最新一期 YC 创业营中,有 1/4 的公司采用 Vibe Coding, 95% 的代码由大模型直接生成。

GPT-4o 也推动文生图沿着类似的趋势发展。过去的文生图模型可以生产出来以假乱真的图像,但还是有足够高的门槛——更懂模型的人、更有审美的人、更会写提示词的人,再自己训练模型、找插件,可能还得动手 PS 一下,才能得到理想的图。

现在模型本身变成了一个聪明的专业人士。

“我曾引以为傲的复杂工作流程——精心调教的提示词、层层叠加的插件、环环相扣的模型链——如今都被一个简单对话界面所取代。” 资深产品设计师歸藏说,他认为这会是 AI 领域的常态,“复杂工程化注定会被模型碾碎”。

GPT-4o 图片生成功能推出后,文生图领域明星创业公司 Midjourney CEO 创始人大卫·霍尔兹(David Holz)在公司举办的活动中说,OpenAI 只是 “在试图筹钱,并以一种有毒的方式竞争,它只是一个梗而不是创意工具”,未来 Midjourney 还是会基于社区的反馈驱动改进,而不是外部的市场压力。

Midjourney 的成长得益于 OpenAI 在 2021 年推出的文本-图像对齐模型 CLIP。在后续的产品迭代中,Midjourney 用更精细的工程能力,对生成图像审美的苛刻关注,训练了效果更好的模型,仅靠 Discord 就迅速获得每年数亿美元的收入。类似的例子还有 AI 搜索应用 Perplexity。

如果大模型本身的能力进步有限,就是这类创业公司的机会——他们针对垂直领域的功能优化或者训练小模型,可以更好地发挥大模型效果。

但如果大模型能持续进步,许多精心调教后的产品能力成为庞大模型的一部分,用户直接说几句话就能实现想要的效果,那大模型本身就是终极产品。能投入组建大团队、巨资训练模型的公司才有资格参与大模型性能的比拼。

技术演进偏向哪一端,最终将决定 AI 生态的未来更偏向大公司还是新锐团队。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视曝光!真别在吃了!头皮发麻!市监局通报40批食品抽检不合格

央视曝光!真别在吃了!头皮发麻!市监局通报40批食品抽检不合格

刘哥谈体育
2026-01-21 11:50:01
2026油电新政实锤!电车缴里程税+油车减税,公平时代真的来了?

2026油电新政实锤!电车缴里程税+油车减税,公平时代真的来了?

沙雕小琳琳
2026-01-21 08:08:12
阿根廷大逆袭!米莱执政两年,通胀暴跌,经济增速扭负为正!

阿根廷大逆袭!米莱执政两年,通胀暴跌,经济增速扭负为正!

百态人间
2026-01-07 16:41:49
冉莹颖穷到晚上不敢开灯!儿子穿破洞鞋、节约餐费,满墙名包讽刺

冉莹颖穷到晚上不敢开灯!儿子穿破洞鞋、节约餐费,满墙名包讽刺

探索新高度
2026-01-21 12:12:44
2月左右开播!腾讯视频又一部年代剧来袭,阵容我很喜欢

2月左右开播!腾讯视频又一部年代剧来袭,阵容我很喜欢

小邵说剧
2026-01-21 16:29:55
女子用600块彩色冰砖“手搓”冰屋,因“翻车”意外圈粉,网友“云监工”下大功告成!邀游客围炉赏雪吃火锅

女子用600块彩色冰砖“手搓”冰屋,因“翻车”意外圈粉,网友“云监工”下大功告成!邀游客围炉赏雪吃火锅

极目新闻
2026-01-21 11:34:37
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

丞丞故事汇
2025-12-28 00:13:54
64岁刘德华搀扶,75岁谭咏麟唱歌!半个香港娱乐圈给94岁男星祝寿

64岁刘德华搀扶,75岁谭咏麟唱歌!半个香港娱乐圈给94岁男星祝寿

素衣读史
2026-01-21 16:19:41
江苏省教育厅紧急通知:迟到不处理!江苏家长微信群刷屏了…

江苏省教育厅紧急通知:迟到不处理!江苏家长微信群刷屏了…

教师吧
2026-01-21 13:14:12
陈晓旭走了,周海媚走了,何晴也走了,四大古装美人只有她还活着

陈晓旭走了,周海媚走了,何晴也走了,四大古装美人只有她还活着

凡知
2026-01-20 16:44:16
俄军终于锁定乌克兰命门,集火全力猛攻三座城,乌军现20万逃兵潮

俄军终于锁定乌克兰命门,集火全力猛攻三座城,乌军现20万逃兵潮

百科密码
2026-01-21 16:20:07
开国上将许世友之孙:中国首位火箭军女博士,长相俊美,为人低调

开国上将许世友之孙:中国首位火箭军女博士,长相俊美,为人低调

文史达观
2026-01-15 14:50:48
2025上海GDP总量全球第五,增速跑赢全国

2025上海GDP总量全球第五,增速跑赢全国

第一财经资讯
2026-01-21 10:03:03
滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

比利
2026-01-20 14:37:21
央视主持人朱迅:生命终将结束,为何不勇敢面对生命的终点呢

央视主持人朱迅:生命终将结束,为何不勇敢面对生命的终点呢

趣文说娱
2026-01-21 13:51:14
越媒:9名越南球迷花费人均超1亿越南盾前往沙特观看半决赛

越媒:9名越南球迷花费人均超1亿越南盾前往沙特观看半决赛

懂球帝
2026-01-20 17:50:09
俄军越打越无人化了

俄军越打越无人化了

星火聊天下
2026-01-21 16:03:15
向涵之瘦成钟楚曦?被赞淡颜神女,被粉丝喊妈,御姐秒变含羞少女

向涵之瘦成钟楚曦?被赞淡颜神女,被粉丝喊妈,御姐秒变含羞少女

露珠聊影视
2026-01-21 16:05:28
1937年八路军6个旅长排座次,陈赓竟然只排第五?榜首那位确实惹不起

1937年八路军6个旅长排座次,陈赓竟然只排第五?榜首那位确实惹不起

寄史言志
2026-01-15 12:38:08
惊天发现!斯里兰卡挖出“天价紫星”,估值惊人!远超所有钻石

惊天发现!斯里兰卡挖出“天价紫星”,估值惊人!远超所有钻石

Science科学说
2026-01-20 08:05:03
2026-01-21 17:07:00
晚点LatePost
晚点LatePost
晚一点,好一点。商业的真相总是在晚点。《晚点LatePost》官方账号
3035文章数 21885关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

中国是否加入"和平委员会" 外交部回应

头条要闻

中国是否加入"和平委员会" 外交部回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

消失的投资金 起底华文映像电影投资骗局

汽车要闻

新一代理想L9电池加码体型加大 重夺高端话语权

态度原创

教育
游戏
手机
房产
公开课

教育要闻

初中竞赛题:这种指数方程怎么解?数形结合一招搞定

《圣歌》刚关服惊现私服 粉丝高玩在努力招魂中

手机要闻

消息称被取消的华硕ROG Phone 10系列手机原定今年2月发布

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版