![]()
曾经,区分人类创作与AI生成图像并非难事。就在两年前,图像生成模型还无法为一家墨西哥餐厅制作菜单,往往会凭空捏造出"enchujita""churiros""burrto""margartas"之类莫名其妙的菜品名称。
而如今,当我向全新的ChatGPT Images 2.0模型请求生成一份墨西哥餐厅菜单时,它所输出的内容完全可以直接投入使用,顾客几乎不会察觉任何异样。(不过,13.5美元的海鲜酸橘汁腌鱼或许会让人对食材品质产生一丝疑虑。)
作为对比,以下是两年前使用DALL-E 3生成的同类结果。(彼时,ChatGPT尚不具备图像生成功能。)
AI图像生成工具在文字拼写方面历来表现欠佳,原因在于其通常采用扩散模型——该模型通过从噪声中重建图像来工作。
Lesan AI创始人兼CEO Asmelash Teka Hadgu在2024年接受TechCrunch采访时表示:"扩散模型是在对给定输入进行重建。可以理解为,图像中的文字只占极小一部分像素,因此图像生成模型所学习的,是覆盖更多像素区域的视觉规律。"
此后,研究人员开始探索其他图像生成机制,例如自回归模型。与扩散模型不同,自回归模型通过预测图像的呈现方式来工作,其运作原理更接近大语言模型。
然而,OpenAI在本周的新闻发布会上拒绝透露ChatGPT Images 2.0底层所采用的模型类型。
尽管如此,该公司仍介绍了新模型具备的"思考能力"——这一能力使其能够搜索网络、根据单一提示词生成多张图像,并对生成结果进行自我检查。正是这些能力,让Images 2.0得以制作多种尺寸的营销素材,以及多格漫画内容。
OpenAI还表示,Images 2.0对非拉丁文字的渲染能力有所增强,涵盖日语、韩语、印地语和孟加拉语等语言。该模型的知识截止日期为2025年12月,这可能会影响其在涉及近期新闻事件的提示词处理上的准确性。
OpenAI在新闻稿中表示:"Images 2.0在图像创作的精准度与还原度方面达到了前所未有的水平。它不仅能够构思更为复杂的图像,还能有效地将创意付诸实现——严格遵循指令、保留所需细节,并精准渲染那些常令图像模型出错的细节元素:小字体文本、图标、界面元素、密集构图,以及细微的风格约束,分辨率最高可达2K。"
这些能力意味着图像生成的速度无法像向ChatGPT提问那样即时响应,但即便是生成多格漫画这类复杂内容,也只需数分钟即可完成。
从本周二起,所有ChatGPT和Codex用户均可使用Images 2.0;付费用户则可生成更高质量的输出内容。OpenAI还将开放gpt-image-2 API接口,定价将根据输出质量和分辨率有所不同。
Q&A
Q1:ChatGPT Images 2.0 为什么能更好地生成文字?
A:传统AI图像生成工具普遍采用扩散模型,该模型通过从噪声中重建图像来工作,而图像中的文字仅占极小部分像素,导致模型难以准确学习文字规律。研究人员探索出的自回归模型,其运作原理更接近大语言模型,能够预测图像的呈现方式,从而大幅提升了文字生成的准确性。ChatGPT Images 2.0 具备"思考能力",可对生成结果进行自我检查,进一步保障了文字及细节的准确渲染。
Q2:ChatGPT Images 2.0 支持哪些语言的文字渲染?
A:OpenAI表示,Images 2.0对非拉丁文字的渲染能力有所增强,目前支持的语言包括日语、韩语、印地语和孟加拉语等。不过,该模型的知识截止日期为2025年12月,因此涉及近期新闻事件的提示词,其生成准确性可能会受到一定影响。
Q3:ChatGPT Images 2.0 什么时候可以用?怎么收费?
A:从本周二起,所有ChatGPT和Codex用户均可访问Images 2.0。付费用户可生成更高质量的输出内容。OpenAI同时开放了gpt-image-2 API接口,具体定价将依据输出质量和分辨率有所不同。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.