有人用同一句话测了6个大模型:「生成一座港口城市从公元前3000年到公元3000年的程序化3D演变」。结果差距大到像两个时代。
测试方法:零帧起手,不给参考图
测试者把提示词同时丢给6家主流AI,要求完全相同的输出:一个能展示六千年城市变迁的3D程序化模拟。没有参考图,没有风格描述,纯靠模型自己理解。
结果分化严重
头部模型直接生成可交互的3D场景:建筑从土坯房变成钢筋玻璃,港口从木筏码头进化成集装箱巨轮,时间轴可以拖拽观看。光影、比例、历史细节都有层次。
中间梯队产出静态分镜图:几张不同年代的概念图拼在一起,有视觉想法但无法"演变",时间维度被压扁成画册。
垫底的两家完全跑偏:一家输出了一段文字描述,另一家给了张无关的抽象色块图,提示词里的"3D""程序化""演变"三个关键词一个都没接住。
核心差距在哪
不是算力问题,是对复杂指令的结构化理解能力。好的模型能拆解"时间轴+空间变化+程序化生成"三层需求,差的模型只抓取到零散关键词,甚至漏掉核心动词。
测试者把完整对比放在个人页面,六组结果并排展示,视觉落差比任何评测分数都直观。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.