HiDream-O1-Image 8B Full 的原始输出在简单日语提示词上彻底崩了——指令遵循和美学质量同时翻车。我们试了 Dev-2604 版本,3.5 倍速度提升确实诱人,但 96GB 显存塞不下两个模型。最终没换模型,用 Gemini Flash Lite 做提示词增强器,把美学打磨外包出去。
事情从一条简单提示词开始:"a cute woman in a cheongsam, holding a fan, smiling"。结果:旗袍变和服,脸部不够精致,构图变成京都庭院的全身照——我们要的是特写,能看清扇子纹理。HiDream-O1 本身是顶尖开源权重模型,英文提示词能出杂志级 2048×2048 图。问题不在模型,在"用户输入"和"开源模型预期"之间的鸿沟。闭源前沿模型内部消化自然语言,开源模型需要你直接把提示词喂到脸上。
![]()
Dev-2604 是 2026 年 5 月发布的新变体,Artificial Analysis T2I 竞技场排名第 8,28 步无 CFG,速度提升 3.5 倍。竞技场按人类审美偏好排名,所以 Dev 应该是"什么好看就调什么"。第一轮测试:5 条通用电影感提示词(东京居酒屋、曼谷夜市、动漫角色、图中文字、肖像),Dev 确实更快、印象分更高。差点就拍板全面迁移了。
但 Kotonia Studio 的实际业务是"喜剧风格短视频+偶像级颜值钩子"。Dev 在通用场景赢,不代表在表情精准的喜剧角色上赢。补测 8 条 Grok 生成的喜剧向提示词,Dev 的编辑性能断崖下跌。更致命的是显存账:96GB GPU 要同时跑 Full、Dev 和其余技术栈,塞不下。
换方向。保留 Full 模型,前端加一层 Gemini Flash Lite 提示词增强器。过程中挖出四个 HiDream 的隐藏坑:品牌名会被渲染成字面文本、"cute"触发幼态体型偏见、"Wong Kar-wai"会幻觉出韩语字幕、"idol-class"自动生成说明文字——全部写进增强器的系统提示词里。现在同一条简单日语提示词,一键出可用照片级或动漫变体。不换模型,不加显存,不增延迟。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.