96GB显存扛不住双模型，我们靠提示词增强器破局|gb|变体|dev|开源模型

96GB显存扛不住双模型，我们靠提示词增强器破局

2026-05-24 02:46:23　来源: 碳基打工人

北京举报

分享至

HiDream-O1-Image 8B Full 的原始输出在简单日语提示词上彻底崩了——指令遵循和美学质量同时翻车。我们试了 Dev-2604 版本，3.5 倍速度提升确实诱人，但 96GB 显存塞不下两个模型。最终没换模型，用 Gemini Flash Lite 做提示词增强器，把美学打磨外包出去。

事情从一条简单提示词开始："a cute woman in a cheongsam, holding a fan, smiling"。结果：旗袍变和服，脸部不够精致，构图变成京都庭院的全身照——我们要的是特写，能看清扇子纹理。HiDream-O1 本身是顶尖开源权重模型，英文提示词能出杂志级 2048×2048 图。问题不在模型，在"用户输入"和"开源模型预期"之间的鸿沟。闭源前沿模型内部消化自然语言，开源模型需要你直接把提示词喂到脸上。

Dev-2604 是 2026 年 5 月发布的新变体，Artificial Analysis T2I 竞技场排名第 8，28 步无 CFG，速度提升 3.5 倍。竞技场按人类审美偏好排名，所以 Dev 应该是"什么好看就调什么"。第一轮测试：5 条通用电影感提示词（东京居酒屋、曼谷夜市、动漫角色、图中文字、肖像），Dev 确实更快、印象分更高。差点就拍板全面迁移了。

但 Kotonia Studio 的实际业务是"喜剧风格短视频+偶像级颜值钩子"。Dev 在通用场景赢，不代表在表情精准的喜剧角色上赢。补测 8 条 Grok 生成的喜剧向提示词，Dev 的编辑性能断崖下跌。更致命的是显存账：96GB GPU 要同时跑 Full、Dev 和其余技术栈，塞不下。

换方向。保留 Full 模型，前端加一层 Gemini Flash Lite 提示词增强器。过程中挖出四个 HiDream 的隐藏坑：品牌名会被渲染成字面文本、"cute"触发幼态体型偏见、"Wong Kar-wai"会幻觉出韩语字幕、"idol-class"自动生成说明文字——全部写进增强器的系统提示词里。现在同一条简单日语提示词，一键出可用照片级或动漫变体。不换模型，不加显存，不增延迟。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.