![]()
做了三百多个指令定制,每一次接到客户的需求之后,我都会反复确认、交流,因为客户的需求,就好像曾经的甲方爸爸要“五颜六色的黑色”,容易出现各种抽象的、不现实的需求,我需要一步步梳理,跟客户对齐需求的优先顺序,并反复测试指令,最终达到客户比较满意的效果。
今天我就结合实操经验,拆解一下,从小说内容拆解为短剧,我是怎么了解客户需求的。
我的核心思路是:把小说→脚本→分镜→生图→生视频这条链条当成一个系统来设计。
五个环节,每个环节有自己的指令逻辑,但彼此之间存在严格的数据依赖关系。
定制指令之前,必须先把链条捋清楚,再设计每一层的约束。
1、先建人物DNA档案,这是整条链的地基
人物DNA档案——所有一致性问题,根源都在这里。
我对接的这个客户,是比较成熟的短视频创作者,他跟我提到"读取DNA"、"新窗口"、"剧情锚点",说明他已经意识到跨窗口的信息衰减问题。
这就意味着,指令设计上,必须在最前端单独做一个人物档案模块,强制固定输出格式。
每个主要人物需要锁定的字段:外貌(发色发型发饰、眼睛、肤色、面部特征)、身材比例、标志性服装、配色系、气质关键词。
这个档案不是描述性的散文,必须是结构化的标签列表,方便后续每个环节直接复制粘贴调用。
指令里要写死一条规则:后续所有生图提示词,必须在人物出现时完整复制该人物的全部档案字段,禁止用名字代替描述。
这条规则要以"禁止遗忘"的形式硬锁进去,不能依赖AI的上下文记忆。
2、脚本层:写作逻辑要拆成三步走
小说文本改装成短视频的分镜脚本,要的不是翻译,而是情绪结构的重新组装。
指令要规定三步走,拆场景:
第一步提取钩子和高潮节点,标注原文哪些段落是情绪峰值,哪些是可以压缩的过渡段。
第二步按照"旁白+对话+内心独白"三轨并行的格式改写,第一人称贯穿,旁白负责交代时空,对话推进冲突,内心独白制造代入感。
第三步替换人名,同步检查是否有残留的原著专有名词、地名、门派等可识别信息。
同时,考虑到模型窗口的字数限制,要明确标注分段逻辑:
每个窗口结尾必须输出一个"剧情锚点摘要",包含当前人物状态、情绪值、场景位置,供下一个窗口开头读取,保证跨窗口的叙事连贯。
3、分镜层:一行一画面的约束设计
这层指令的核心是把文字时间转换成画面空间。
每一行分镜描述需要包含固定字段:镜头编号、景别(远景/中景/近景/特写)、人物构成(几个人、位置关系)、核心动作、情绪状态、场景关键元素、时长标注。
客户提到5秒视频、台词长的用0.7秒慢放,这个逻辑要转化成分镜指令里的时长分配规则:对话镜头默认5秒,动作镜头可压缩至3秒,情绪特写配合慢放标注"0.7x速度"。
多人场景的一致性是难点。
比如两个人的画面,要在分镜里明确标注主体人物在左还是在右,视线方向,这样生图时构图不会乱。
而三个人的场景,背景允许根据剧情推演变化,但人物的服装配饰约束要写进该条分镜的人物描述里,不能省。
最后生成的提示词模板要结构化,每条生图提示词强制分四段:人物描述段(完整DNA)+ 场景描述段(背景元素+光线+色调)+ 动作描述段(姿势+表情+互动关系)+ 技术参数段(画面比例+风格+质量要求+负向提示词)。
背景根据剧情上下文自动推演这个需求,要在指令里给AI一个推演规则:
先读当前分镜的场景标签,再读上下文的时间(白天/夜晚)和情绪基调(紧张/温馨/对抗),然后推演背景色温和道具元素。
不能让AI自由发挥,要给一个有限的推演框架。
整套系统搭完之后,你会发现真正省时间的不是某一条提示词写得多好,而是信息在各层之间流动时没有损耗,人物DNA不用重复描述,锚点不用靠记忆传递,构图不用靠运气对齐。
AI内容流水线的价值,不是跑得快,而是跑得稳。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.