ChatGPT Images 2.0 图像模型：文字生成能力大幅提升|原理|images

ChatGPT Images 2.0 图像模型：文字生成能力大幅提升

2026-04-22 23:40:07　来源: 至顶头条

北京举报

分享至

曾经，区分人类创作与AI生成图像并非难事。就在两年前，图像生成模型还无法为一家墨西哥餐厅制作菜单，往往会凭空捏造出"enchujita""churiros""burrto""margartas"之类莫名其妙的菜品名称。

而如今，当我向全新的ChatGPT Images 2.0模型请求生成一份墨西哥餐厅菜单时，它所输出的内容完全可以直接投入使用，顾客几乎不会察觉任何异样。（不过，13.5美元的海鲜酸橘汁腌鱼或许会让人对食材品质产生一丝疑虑。）

作为对比，以下是两年前使用DALL-E 3生成的同类结果。（彼时，ChatGPT尚不具备图像生成功能。）

AI图像生成工具在文字拼写方面历来表现欠佳，原因在于其通常采用扩散模型——该模型通过从噪声中重建图像来工作。

Lesan AI创始人兼CEO Asmelash Teka Hadgu在2024年接受TechCrunch采访时表示："扩散模型是在对给定输入进行重建。可以理解为，图像中的文字只占极小一部分像素，因此图像生成模型所学习的，是覆盖更多像素区域的视觉规律。"

此后，研究人员开始探索其他图像生成机制，例如自回归模型。与扩散模型不同，自回归模型通过预测图像的呈现方式来工作，其运作原理更接近大语言模型。

然而，OpenAI在本周的新闻发布会上拒绝透露ChatGPT Images 2.0底层所采用的模型类型。

尽管如此，该公司仍介绍了新模型具备的"思考能力"——这一能力使其能够搜索网络、根据单一提示词生成多张图像，并对生成结果进行自我检查。正是这些能力，让Images 2.0得以制作多种尺寸的营销素材，以及多格漫画内容。

OpenAI还表示，Images 2.0对非拉丁文字的渲染能力有所增强，涵盖日语、韩语、印地语和孟加拉语等语言。该模型的知识截止日期为2025年12月，这可能会影响其在涉及近期新闻事件的提示词处理上的准确性。

OpenAI在新闻稿中表示："Images 2.0在图像创作的精准度与还原度方面达到了前所未有的水平。它不仅能够构思更为复杂的图像，还能有效地将创意付诸实现——严格遵循指令、保留所需细节，并精准渲染那些常令图像模型出错的细节元素：小字体文本、图标、界面元素、密集构图，以及细微的风格约束，分辨率最高可达2K。"

这些能力意味着图像生成的速度无法像向ChatGPT提问那样即时响应，但即便是生成多格漫画这类复杂内容，也只需数分钟即可完成。

从本周二起，所有ChatGPT和Codex用户均可使用Images 2.0；付费用户则可生成更高质量的输出内容。OpenAI还将开放gpt-image-2 API接口，定价将根据输出质量和分辨率有所不同。

Q&A

Q1：ChatGPT Images 2.0 为什么能更好地生成文字？

A：传统AI图像生成工具普遍采用扩散模型，该模型通过从噪声中重建图像来工作，而图像中的文字仅占极小部分像素，导致模型难以准确学习文字规律。研究人员探索出的自回归模型，其运作原理更接近大语言模型，能够预测图像的呈现方式，从而大幅提升了文字生成的准确性。ChatGPT Images 2.0 具备"思考能力"，可对生成结果进行自我检查，进一步保障了文字及细节的准确渲染。

Q2：ChatGPT Images 2.0 支持哪些语言的文字渲染？

A：OpenAI表示，Images 2.0对非拉丁文字的渲染能力有所增强，目前支持的语言包括日语、韩语、印地语和孟加拉语等。不过，该模型的知识截止日期为2025年12月，因此涉及近期新闻事件的提示词，其生成准确性可能会受到一定影响。

Q3：ChatGPT Images 2.0 什么时候可以用？怎么收费？

A：从本周二起，所有ChatGPT和Codex用户均可访问Images 2.0。付费用户可生成更高质量的输出内容。OpenAI同时开放了gpt-image-2 API接口，具体定价将依据输出质量和分辨率有所不同。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.