![]()
美国当地时间4月21日,OpenAI正式发布新一代图像生成模型ChatGPT Images 2.0,官方将其定位为“从渲染工具到视觉系统”的跨越式升级。
过去我们评价图像模型,看的是画面质量。这次不一样:Images 2.0是一个为视觉工作流而生的模型。它首次将推理能力融入图像生成,整合了网页搜索、多图批量输出和自我校验机制。
据官方介绍,没有为整合而牺牲任何单项能力。过去让AI批量产出一套品牌视觉需要来回反复提示十几次,现在构思、排版、多尺寸适配由同一个模型一并完成。
官方展示印证了这一点:文字渲染精度大幅提升,日语、中文、韩语等非拉丁文字首次实现“语言融入设计”而非硬贴字符;桌面截图理解能力直接内置进模型;单次提示最多可输出八张风格连贯的图像,角色和道具保持跨图一致性。
价格方面,API端按质量和分辨率阶梯计费,所有ChatGPT及Codex用户即日起可免费使用基础版;带思考能力的高级输出向Plus、Pro和Business用户开放。不过Pro版的推理成本依然可观。有网友仅发了一句简单指令,模型就认真思考了一番,Token哗哗地烧。日常轻量任务,标准版可能是更明智的选择。
如果用一句话概括Images 2.0的意义:过去几年图像AI的进化逻辑是“哪块短板补哪块”,Images 2.0不再单点拔高,而是把指令理解、语言渲染、风格还原、格式适配整合进同一个模型做系统性优化。一个能画图的模型是工具,一个能读懂需求、搜索参考、输出全套不同尺寸物料的模型,是视觉工作系统。Images 2.0更接近后者。
01 指令跟随与文字渲染:从“大概那个意思”到可以直接用
![]()
过去的图像模型在“复杂指令”面前普遍表现为:大方向对,细节全丢。要求画面左侧放一杯咖啡,它可能放在右边;要求UI截图里显示特定文字,渲染出来就成了乱码。多语言渲染同样是长期软肋:英文和拉丁字母尚可,一旦涉及日语、中文、韩语、印地语,轻则笔画变形,重则完全乱码。
Images 2.0在这两个方向同步推进。它能准确处理对象的位置关系、保留请求的细节,并稳定渲染过去容易崩掉的元素:小字体文本、图标、UI组件、密集构图。API端支持最高2K分辨率输出。在多语言方面,它不只是把文字“贴”进画面,而是让语言成为设计本身的一部分,让字体选择、排版节奏、视觉留白都与书写习惯相匹配。
![]()
![]()
官方展示的案例覆盖日语少年漫画分镜、韩语广告海报、中文风格漫画页,文字不再是画面里的异物。
对非英语市场的内容创作者来说,这是实质性的变化。过去生成一张中文海报,往往要在PS里手动补字。现在这一步可以省掉。
02 风格还原与宽高比:生成即适配,不用再修图
![]()
风格还原是另一个显著提升。Images 2.0更准确地捕捉到了不同视觉语言的核心特征:胶片摄影里增加真实感的细小瑕疵、电影感画面的打光逻辑、漫画分镜的叙事节奏。
官方展示的35mm胶片旅行抓拍案例:阴天海岸,衣物随风飘动,可见的胶片颗粒,构图略显随意。这些细节的叠加让画面看起来像从一卷真实胶卷里扫描出来的,而不是AI“理解”了胶片风格之后的近似复现。
对游戏原型设计、分镜制作、营销素材生产而言,风格的可复现性大幅提升,用户能更稳定地拿到自己要的那种“感觉”。
03 思考模式:从“生成一张图”到“完成一个项目”
![]()
当在ChatGPT中选择思考模型时,Images 2.0会在生成前搜索网络获取实时参考、分析上传素材、推演图像结构,再开始输出。更关键的是,思考模式下可以一次生成最多八张图,且保持角色、道具、风格的跨图一致性。
宽高比支持也一并解决了。Images 2.0支持从3:1横幅宽图到1:3竖版长图,覆盖Twitter横幅、Instagram Stories、LinkedIn方图、手机壁纸等主流尺寸。
在提示词里说明比例,或从预设里选择,任意一张图都能按新比例重新生成。它的构图逻辑会随比例重新组织,而不是简单地拉伸或裁切。
![]()
![]()
![]()
![]()
这打开了一些此前很繁琐的工作流。官方展示的案例是为抹茶店“Kizuki”制作开业广告:一张草莓抹茶冰饮的阳光场景图,街头时尚风格融合日式极简美学,同时输出Twitter、Instagram Stories、Instagram Feed和LinkedIn四个平台适配尺寸的版本。这在过去至少需要四次独立提示加手动调整,现在一次完成。
Images 2.0已同步集成至Codex,开发者无需单独创建API密钥,可在同一工作区完成设计与开发。API端通过gpt-image-2调用,适用于本地化广告、信息图生成、教育内容制作等企业级场景。
Canva创意策略师Dwayne Koh在测试后表示,模型不只是在执行指令,而是在解读简报、理解受众,并在过程中做出设计判断——他认为真正的转变不在于技术输出,而在于创意推理和设计品味。
图像AI走到今天,单张图的质量已经不是最核心的问题。Images 2.0试图回答的是另一个问题:当视觉生产变成一个系统性任务——需要理解需求、搜索参考、适配格式、保持风格一致——模型能承担多少?
目前它也有清晰的边界:折纸步骤图、魔方展开图这类需要完整物理世界模型的任务依然困难;隐藏面、倾斜面上的细节处理尚不稳定;标签和图解中的箭头指向仍需人工核查。从“能用”到“能依赖”,还有一段距离。
真正的问题或许是:当它真的能接下这些活,你准备好把哪些环节交出去了?(文/腾讯科技特约编译无忌,编辑/郝博阳)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.