凌晨三点,我又被炸醒了。
这次不是产品爆火,是OpenAI在凌晨发布了ChatGPT Images 2.0。真正让我睡不着的原因很简单:这次AI画图,终于不是上来就画,而是先想再画了。
![]()
你可能觉得这有什么了不起的?不就是画图吗?
但如果你还记得两年前用DALL-E 3生成菜单的样子,大概会对那些凭空捏造的菜名记忆犹新。什么enchuita、churiros、burrto、margartas。。。没有一个词拼对的。那时候的AI画图,本质上是在从噪声里重建像素,文字只是画面中微不足道的一小部分,模型压根学不会把这些像素排对。
现在呢?同样的墨西哥菜单,出来的成品可以直接拿去印刷。菜品名称拼写正确,排版清晰规整,连价格都老老实实标在上面。虽然13.5美元的酸橘汁腌鱼可能让你对食材产生怀疑,但至少菜单本身看不出任何破绽。
![]()
这不是画得更像了,是画得更对了。
从黑箱到思考者
传统图像模型的工作方式,就像一个只会抄作业的学生。你给它提示词,它直接吐出图像,中间发生了什么,没人知道。
ChatGPT Images 2.0不一样。它在渲染第一个像素之前,会先花时间做准备工作:搜索网络获取最新信息,分析你上传的文件内容,通过推理规划图像的结构布局,甚至对生成结果做一遍自我检查。
![]()
就像一个真正的设计师,先打草稿,再动笔。
OpenAI的产品负责人在演示中上传了一份复杂的产品策略演示文稿。模型没有简单配张图了事,而是综合了文档里的核心数据,识别了正确的标志,最终生成了一张专业海报,完整保留了原始文件的风格特征。
这种能力,让模型可以承担从想法到图像之间更多的中间活。
一张图,看清差距
更直观的对比来自开发者的测试。
他让新旧模型分别生成一张"沃利在哪里"风格的寻物图,目标是找到一只拿着业余无线电的浣熊。
旧版模型生成的画面内容丰富,但翻遍整张图也找不到浣熊的影子。
新版模型在设置为高画质后,吐出了一张17MB的复杂图像。那只浣熊正安安静静地坐在左下角的业余无线电摊位里,清晰可辨。
一个找不到,一个一眼看到。这不是技术进步,这是认知升级。
小字、海报、信息图,终于能用了
过去最容易翻车的菜单、小字、海报和信息图,这一次突然都有了能直接拿来用的味道。
小号文字、图标、用户界面元素、密集构图、微妙的风格限制,这些过去让图像模型频频翻车的精细内容,现在都能稳定渲染。分辨率最高支持2K。
![]()
沃顿商学院教授伊桑·莫利克过去几周一直在测试这个新模型。他说自己原本不觉得更好的图像生成器是什么大事,但事实证明存在一个他没预料到的质量门槛。一旦跨过去,就能生成高质量的文字内容、幻灯片、学术海报。
这次升级意味着什么?
从今天起,所有ChatGPT和Codex用户都能使用基础版本,付费订阅用户则可解锁思考模式等高级功能。底层模型gpt-image-2也已通过API对外开放。
![]()
但我觉得最重要的不是这些功能本身,而是AI画图终于从"像素堆砌"进化到了"真正理解"。
它不再只是把你的提示词翻译成图像,而是会思考:你真正想要什么?需要哪些信息?怎么布局才合理?有没有遗漏什么?
这才是真正的智能。
AI计算服务公司Hyperbolic Labs的联合创始人试用后说:"OpenAI终于再次在图像生成领域引领了方向。"
我觉得他说得对,但还不够准确。
这不是引领方向,这是重新定义了游戏规则。当AI学会先思考再行动,当它能够理解上下文、获取实时信息、自我检查结果,图像生成就从"玩具"变成了"工具"。
AIGC的童年时代,结束了。欢迎来到,AIGC的青年时代。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.