网易首页 > 网易号 > 正文 申请入驻

OpenAI直播狙击谷歌,奥特曼AGI梗图现场直出!GPT-4o超强原生生图来袭

0
分享至

新智元报道

编辑:Aeneas 好困

【新智元导读】刚刚,OpenAI深夜直播,GPT-4o的原生图像生成大升级!奥特曼亲自上阵组队,演示了自拍变梗图、相对论漫画等功能,不过相对隔壁谷歌发布的新模型,OpenAI的这波动作着实有点不够看。

就在谷歌刚刚扔出地表最强模型Gemini 2.5 Pro不久,OpenAI也有动作了。

奥特曼亲自带队,展示了GPT-4o图像生成技术的各种大升级,比如制作梗图、文本渲染、多轮交互生成和指令遵循等。

整个直播中最亮的演示,莫过于这张官方玩梗的表情包了。

目前,这项功能已经在ChatGPT和Sora中,向所有Plus、Pro、Team和免费用户推出。

当然,新版Sora生图的时间,也比以往更长了。但OpenAI看来,生图的质量和其具备的世界知识,让用户值得等待那多出的几秒。

GPT-4o原生图像生成来了!

在直播中,奥特曼介绍道,从今天起,ChatGPT中的原生图像生成功能正式推出!

GPT-4o的全模态能力,从此也融合进了Sora中。

OpenAI多模态研究的负责人Gabe介绍说,两年前刚开始这个项目时,他对于GPT-4这个强大的模型会怎样原生支持图像模型非常好奇。

一年后,当模型完成训练时,他看到了令人兴奋的迹象。从GPT-2以来,他已经很久没有这种感觉——这是一个疯狂时刻。

给出以下prompt,GPT-4o就生成了符合要求的图像,完全还原了要求。

接下来,三个人用手机来了张自拍,GPT-4o立刻把三人自拍转换成了动漫风格的版本。

甚至他们开始官方玩梗,让模型添加一段「Feel The AGI」在图片上,一张表情包就此诞生。

这个过程,就体现了4o作为全能模型的强大能力。

因为它不仅仅是一个语言模型,还包括图像、音频,所有输入和输出的模态。它可以理解、生成这些模态,并且无缝地在它们之间工作。

用OpenAI的话说,「我们终于迈向了这种真正集成的多模态模型」。

接下来,他们让模型画出一幅描述相对论的漫画,要求通俗易懂,还要加入一些幽默元素。

这个提示词非常模糊,因此看看模型会生成什么样的图,就格外令人期待了。果然,生成效果令人惊喜。

注意,这个过程中,模型很可能利用了自己的世界知识,对提示词进行了扩展。

然后,他们给了模型一张卡片,希望生成同样风格的图像,但要求主角不再是卡片中的巨猫国王,而是某位研究者的狗狗。

另外,卡片上还需要出现一些细节,比如模型的名字和年份,以及狗狗的体重和身高。

可以看到,生成图像在文本渲染方面非常惊艳,所有数据都准确无误。

最后一个演示,是基于此前几人生成的内容,制作一个纪念币。

而且,还要求图使用了一个特殊的十六进制代码,且加上生成图像的文本和日期。

可以看到,生成结果非常惊艳!此前曾出现的艺术熊、收音机、爱因斯坦漫画、研究者的狗狗以及模型名称和日期,全部都出现在了纪念币上。

模型之所以精准完成这样复杂的要求,是因为它是用非自回归的方式训练的,因此它能够理解上下文中的文本和多张图片,以非常和谐的方式在纪念币上呈现出来。

和GPT-4o聊天,定制各种图像

总之,现在使用这个功能,我们可以创建各种图像,或将其转换为各种风格。

从此,用GPT-4o创建和定制图像,就像聊天一样简单。

只需描述所需,就能得到想要的任何细节,比如纵横比、使用十六进制代码的精确颜色或透明背景。

我们可以让它设计一个信息图,解释牛顿的棱镜宽高比,背景为深蓝色。

一张画质高级的教学级图片,立马生成。

这个图像生成功能的特点就是,能遵循非常复杂的提示,极其注重细节。

15个非常细化的要求,它都在一张图里完美实现了。

要知道,大多数生图模型被要求渲染多个项目时,往往就会混淆颜色和形状,但新模型却能正确绑定15到20个对象的属性,还能成功理解各自的复杂需求。

在你和它的聊天上下文中,GPT-4o就能为你构建图像和文本,还能确保一致性。

主打一个实用

从最早的洞穴壁画到现代信息图表,人类一直使用视觉图像来交流、说服和分析。

如今的生成式AI模型可以创造出超现实的场景,但在处理人们用于分享和创建信息的实用图像方面仍然存在困难。

GPT‑4o的图像生成功能擅长准确渲染文本,精确遵循提示词,并利用GPT-4o固有的知识库和聊天上下文——包括转换上传的图像或将其用作视觉灵感。

这些能力让用户可以更加容易地创建想象中的画面,帮助通过视觉更有效地沟通,并将图像生成发展成为一种具有精确性和强大功能的实用工具。

毕竟,只有当图像配上指代共享语言和经验的符号时,才能传达精确的含义。

左右滑动查看

能力大幅增强

通过线上图像和文本的联合分布训练,模型不仅能学会图像如何与语言相关联,还能知道它们之间的相互关系。

结合积极的后训练优化,最终的模型展现出惊人的视觉表现力,能够生成实用、一致且具有上下文感知能力的图像。


文本渲染

一张图片胜过千言万语,但有时在正确的位置添加几个词能够大大提升图像的含义。

GPT-4o将精确的符号与图像融合的能力使图像生成成为视觉交流的有力工具。

左右滑动查看

多轮交互生成

由于图像生成现在是GPT‑4o的原生功能,用户可以通过自然对话来完善图像。

GPT‑4o能够基于聊天上下文中的图像和文本进行构建,确保始终保持一致性。

比如,一个正在设计中的游戏角色,它的外观就能在多次迭代和调整中保持连贯一致。

指令遵循

GPT‑4o的图像生成功能不仅可以遵循详细的提示词,而且还十分注重细节。

相比起其他只能处理5-8个物体的模型,GPT‑4o可以轻松搞定多达10-20个不同的物体。

并且,物体与其特征和关系的更紧密绑定使得控制更加精准。

左右滑动查看

上下文内学习

GPT‑4o能够分析并学习用户上传的图像,将图像细节无缝整合到上下文中,用于辅助图像生成。

左右滑动查看

世界知识

内置的图像生成功能使GPT‑4o能够连接文本和图像之间的知识,使模型表现得更智能、更高效。

左右滑动查看

真实照片风格

通过对反映多种多样图像风格的图像进行训练,模型能够以令人信服的方式创建或转换图像。

左右滑动查看

左右滑动查看

左右滑动查看

参考资料:

https://openai.com/index/introducing-4o-image-generation/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Angelababy为了复出,跑去演短剧了?网友:这颜值,降维打击!

Angelababy为了复出,跑去演短剧了?网友:这颜值,降维打击!

背包旅行
2026-03-09 20:55:56
推断又正在被证实:美以的全面轰炸已逐渐开始

推断又正在被证实:美以的全面轰炸已逐渐开始

邵旭峰域
2026-03-10 10:20:32
意甲欧冠独苗1-6惨遭淘汰,拜仁细节引争议

意甲欧冠独苗1-6惨遭淘汰,拜仁细节引争议

老淸医学科普
2026-03-11 06:19:18
6家房企老板长居香港,是为拯救企业,还是另有打算?

6家房企老板长居香港,是为拯救企业,还是另有打算?

帅真商业
2026-03-09 18:52:41
没想到,两会还没结束,48岁王励勤高调官宣喜讯,又让人刮目相看

没想到,两会还没结束,48岁王励勤高调官宣喜讯,又让人刮目相看

八斗小先生
2026-03-10 16:56:35
67岁汤镇业近况曝光!再婚娶小25岁青岛美女,如今一家8口很幸福

67岁汤镇业近况曝光!再婚娶小25岁青岛美女,如今一家8口很幸福

代军哥哥谈娱乐
2026-03-10 09:09:50
全球追杀开始了!美国,更大的噩梦来了!

全球追杀开始了!美国,更大的噩梦来了!

大嘴说天下
2026-03-09 22:28:27
值得珍藏:电力+卫星互联网+光刻机+商业航天+英伟达+硅+半导体等

值得珍藏:电力+卫星互联网+光刻机+商业航天+英伟达+硅+半导体等

Thurman在昆明
2026-03-10 00:16:42
已有8人逃离!曝伊朗女足已提前奔赴机场 澳政府在机场做最后挽留

已有8人逃离!曝伊朗女足已提前奔赴机场 澳政府在机场做最后挽留

风过乡
2026-03-10 13:02:25
为什么全世界最瘦的是日本人?评论区的回答笑晕了,简直一针见血

为什么全世界最瘦的是日本人?评论区的回答笑晕了,简直一针见血

另子维爱读史
2026-03-06 20:14:42
傻狍子给伐木累介绍“公共嫂子”

傻狍子给伐木累介绍“公共嫂子”

毒舌扒姨太
2026-03-10 22:46:39
辞职两个月拿下马拉松亚军,张水华称想撕掉“最快女护士”标签;专职跑步后接连签约多个代言,并已开启日常直播

辞职两个月拿下马拉松亚军,张水华称想撕掉“最快女护士”标签;专职跑步后接连签约多个代言,并已开启日常直播

极目新闻
2026-03-10 20:43:30
盐城一副处级干部被查

盐城一副处级干部被查

俯瞰江苏
2026-03-10 18:53:55
大风315丨坦克500智慧巡航“掉链子”,高架上突然降速至22公里,车主冒险拍下证据;4S店:路试没问题,确实不知道啥原因

大风315丨坦克500智慧巡航“掉链子”,高架上突然降速至22公里,车主冒险拍下证据;4S店:路试没问题,确实不知道啥原因

大风新闻
2026-03-10 15:52:13
中东战火未熄,亚太再起波澜,朝鲜导弹挑战特朗普

中东战火未熄,亚太再起波澜,朝鲜导弹挑战特朗普

青灯古卷
2026-03-11 05:22:43
笑麻了,在公司三进三出,公司上辈子是救过你的命吗?

笑麻了,在公司三进三出,公司上辈子是救过你的命吗?

夜深爱杂谈
2026-03-09 22:20:49
41万ModelY新款上市,特斯拉吓了车圈一跳!

41万ModelY新款上市,特斯拉吓了车圈一跳!

财经三分钟pro
2026-03-09 12:52:24
伊朗驻华大使回应《环球时报》:将通过“三步走”推动当前局势的缓和与政治解决

伊朗驻华大使回应《环球时报》:将通过“三步走”推动当前局势的缓和与政治解决

环球网资讯
2026-03-10 11:30:12
里子面子都没了!赔光2亿后,妻子深夜亲手撕下邹市明最后的体面

里子面子都没了!赔光2亿后,妻子深夜亲手撕下邹市明最后的体面

离离言几许
2026-03-09 19:06:24
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

自己撑起一片天
2026-03-11 05:22:44
2026-03-11 06:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14689文章数 66680关注度
往期回顾 全部

科技要闻

全民"养虾"背后:大厂集体下场疯狂卖Token

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

体育要闻

加兰没那么差,但鲈鱼会用吗?

娱乐要闻

《逐玉》注水风波升级!315评论区沦陷

财经要闻

“龙虾补贴”密集出炉 最高1000万!

汽车要闻

MG4有SUV衍生 上汽乘用车多款新车规划曝光

态度原创

教育
房产
亲子
旅游
数码

教育要闻

南京艺术学院或入选双一流?艺术生别错过!

房产要闻

信号!千亿巨头入局,三亚开启新一轮大征拆!

亲子要闻

老婆怀的是女孩吗?

旅游要闻

公园里的CBD!解码生态、经济同频跃升的“天河范式”

数码要闻

苹果iPhone17e体验:加量不加价,值不值得入手呢?

无障碍浏览 进入关怀版