上周OpenAI连发两弹,GPT-5.5和ChatGPT Images 2.0同时亮相。前者是速度升级,后者却藏着更狠的杀招——能基于真实数据生成带文字和上下文理解的图像。但基础画图能力呢?是进步还是原地踏步?我决定用老办法测一测。
测试对手是谷歌Gemini的Nano Banana。去年12月我跑过同样的题,当时Nano Banana拿了93%,ChatGPT只有74%,差距主要在流行文化题上——ChatGPT直接拒绝作答。这次我两边全部重跑,看当下的真实水平。
![]()
先剧透结果:ChatGPT Images 2.0得分97%,Nano Banana 85%。但最后一题出现了诡异状况,后面细说。
![]()
测试一:换装不换脸
题目是给一张人物照,换上美国海军上将制服,背景换成航母舰桥,比例1:1,要求面部和身材不变。
两个模型在场景搭建上都过关,舰桥环境像模像样。制服表面看都对,但细节都有问题——肩章混了不同军衔元素,还各自编了一些不存在的配件。这道题各扣1分。
人脸保留方面,ChatGPT基本守住原貌,Nano Banana却把人变老了几岁,皱纹和轮廓都变了。这里Nano Banana再扣1分。
测试二:文字渲染能力
这道题要求生成一张餐厅菜单,包含特定菜名和价格,文字必须可辨认。
ChatGPT Images 2.0的菜单文字清晰可读,排版整齐,连价格符号都没错。Nano Banana的文字则出现扭曲,部分字母粘连,"Grilled Salmon"变成了"Griled Salm on",价格数字也有错位。
这是Images 2.0的明确优势区。OpenAI这次把文本嵌入图像的稳定性做上去了,谷歌还在挣扎。
测试三:多对象空间关系
题目:一张桌子上放三个物体,红球在蓝盒子左边,绿杯子在蓝盒子上面,从特定角度拍摄。
ChatGPT的空间关系全对,视角也符合描述。Nano Banana把绿杯子放在了蓝盒子旁边而非上面,空间逻辑出错。这道题成为分水岭。
![]()
测试四:流行文化人物
去年ChatGPT在这里栽了大跟头,直接拒绝生成任何可能涉及版权的形象。这次Images 2.0态度明显松动——虽然仍有规避,但愿意尝试风格化演绎。Nano Banana则继续保持宽松策略。
具体得分:ChatGPT拿到部分分数,Nano Banana满分。但差距已从去年的"拒绝vs通过"缩小为"部分通过vs通过"。
测试五:复杂场景一致性
要求生成一组四格漫画,同一角色连续动作,保持服装、发型、面部特征一致。
ChatGPT的角色一致性达到可用水平,虽然第四格发型略有漂移。Nano Banana的第二格就换了发色,第三格连脸型都变了。连环叙事对谷歌仍是硬骨头。
最后一题:诡异状况
题目是生成一张"程序员在深夜加班"的场景。ChatGPT的输出一切正常。Nano Banana却在背景屏幕里生成了一段可辨认的代码——我放大一看,是某开源项目的许可证文本,连版权年份都没改。
这不是"生成",这是"搬运"。谷歌的模型似乎从训练数据里原样复现了特定代码片段,而非理解后重建。这解释了为什么最后一题我给了Nano Banana一个特殊标记:技术实现上的"取巧"最终成了减分项。
最终计分:ChatGPT Images 2.0以97%对85%胜出。提升主要来自三方面:文本渲染稳定性、空间逻辑准确性、以及版权规避策略的灵活调整。谷歌的Nano Banana仍在多对象关系和连续一致性上落后,更麻烦的是出现了训练数据泄露的苗头。
一个有趣的副产品:两家公司都该雇个全职产品经理专门管命名。"Images 2.0"和"Nano Banana"这种名字,放在产品发布会上念出来,台下估计面面相觑。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.