“AI片场”观察：流程重构，但最核心创造始终在人手里|黄雷|算法|动画

分享至

当生成式AI的浪潮席卷影视行业，从业者的情绪始终在摇摆。近年来几乎所有国内外的电影节展都没能绕开这一话题，观点交锋与技术展示令人眼花缭乱，而今年的上影节，用一场完整的创作实践给出了更具体的解题方法。

AI片场现场

作为上海国际电影节布局影视科技融合的核心单元，“AI片场”采用“传统影视创作者+ AI超创”的1+1融合创制机制，从全球近500的报名人数中，最终匹配四支背景各异的团队从零开始展开全流程实验：“三头怪”组打造以红军战士为主角的写实短片，依托史料考据测试AI对重大历史场景的还原能力；“能工智人”组推出东方志怪动画《愿力司》，以水墨、敦煌元素对抗算法审美惯性；光锥组的现实题材短片《我能》，描摹普通人生活烟火，测试AI在写实人物调度上的边界；bicycle kids组的影像随笔《活下来的碎片》，则以意象化画面探讨AI时代的记忆与身份命题。四组作品覆盖主旋律、动画、现实叙事与先锋实验四大赛道，全程带着真实创作目标与交付要求推进，像真正的片场一样赶进度、解难题、作权衡。

中国传媒大学发布《AI影像融合创制行业观察报告》

中国传媒大学戏剧影视学院作为学术观察团全程跟访，最终形成的《上海国际电影节“AI片场”观察报告》，是对这场实验最系统的复盘。从这份报告里，我们可以看到，AI没有推翻影视创作的底层逻辑，也没有凭空变出全新的生产规则，所谓赋能并非魔法般的效率跃升，而是一场真实的流程重构——有些工作被加速了，有些工作被前置了，有些工作换了一种形态出现，而最核心的创造，始终握在人的手里。

编剧：告别空白页，重写才是真正的开始

在传统认知里，编剧的工作从一张空白文档开始：查资料、搭框架、写人物、磨对白，每一步都靠人力推进。AI介入之后，最先被改变的，正是“从零起步”的冷启动阶段。

资料搜集的效率提升最直观。“三头怪”组创作时，导演余曦有明确的感受：过去接陌生历史题材，编剧要扎进资料室翻三个月史料；现在借助大语言模型，不到一个月就能完成初步资料整理，大到历史事件时间线，小到某款步枪的外观细节，AI都能快速拉出基础清单。

“三头怪”组进行的资料核验与收集

但效率的代价，是核验工作成了新的必修课。报告指出，AI可以加速案头工作，却不能替编剧完成事实核验。AI给出的资料永远“看起来很合理”，但信源是否可靠、细节是否准确，它不会主动标注。编剧依然要逐条核查史料来源，甚至让AI反查自身信息出处，用可信文献交叉验证。余曦会把画面问题拆成一连串追问：地貌是否符合1935年1月贵州的植被情况？水位上涨后河岸高度该如何反推？河滩石块的形态、种类是否符合当地环境？为核实细节，他还专门请教了贵州本地的朋友。AI帮编剧省下了翻书的体力，也把“辨别真假”的责任推到了更靠前的位置，案头工作从“搜集”变成了“筛选与确权”。

洛旺河植被地貌参考图

河滩石块的细节也经过考证

到了文本写作阶段，变化同样微妙。AI确实能快速产出初稿，输入梗概就能生成大纲、人物小传乃至完整场景。很多人因此焦虑“编剧会被替代”，但真实的创作现场恰恰相反：初稿越容易生成，后续的判断与重写就越重要。

“能工智人”组的剧本共创也是很好的例子。AI很快写出了《愿力司》的第一版故事，但围绕“母亲阿织为何祈求神明赐死幼女”的核心动机，两位创作者前后拉扯了数轮：是保留尖锐的原始设定，还是减轻人物的道德负担？玉女的牺牲边界在哪里？次要角色要不要删减？闪回放在什么位置才能推动叙事？这些问题，AI给不出答案。它能生成无数版本的故事，但哪一版的人物动机更可信、哪一种处理更能让观众共情，依然是人的功课。

《愿力司》海报

报告揭示，AI可以帮编剧跨过“无从下笔”的阶段，却不能替代编剧回答“为什么这样写”。过去编剧的价值里，“写出第一稿”占了很大比重；现在第一稿唾手可得，真正的价值反而凸显——知道哪些该留、哪些该删、哪些要推翻人物动机、哪些要重建情感逻辑，反倒成了编剧工作的核心。

导演：从调度片场，到调度模型的边界

如果说编剧的变化还停留在文本层面，导演的工作则从物理现场彻底迁移到了算法空间。

传统导演的战场在片场：调度演员、指挥摄影机、把控光线；AI片场的导演，面对的是提示词、参考图、人物资产和一版又一版的生成结果。战场变了，对导演确立标准、做出取舍、把控节奏的核心职能其实要求更高。

“三头怪”组合在访谈中说到这次实操的感受：“导演本来就是一个非常综合的角色，一部分是创作内的综合，一部分则是创作外的资源聚集。导演之所以能够成为导演，不只因为他掌握某项技术，还因为他能把不同创作力量聚合到同一部作品之中。”

最典型的例子，是一场战斗长镜头的调整。团队最初设想用十几分钟的一镜到底呈现渡河战斗的临场感，这个构思在叙事上完全成立，放到实拍里是考验调度能力的常规操作；但放到AI面前，却撞上了坚硬的技术边界。AI无法同时稳定维持主角状态、群演走位、地形关系、道具连续性和动作逻辑，一枚手榴弹的穿帮——手上拿出来了，腰间的还没消失——放在长镜头里就会彻底破坏真实感。导演没有硬逼模型“必须做出来”，而是重新组织场面调度：放弃单一长镜头，拆分成若干相对较长的镜头段落，再通过剪辑重建连续感和临场感。

战斗镜头

报告揭示，AI时代导演的核心能力，已从调度现场转向调度模型边界。好的导演不仅要知道自己为什么想要长镜头，还要知道什么时候必须放弃长镜头，更知道用什么新的视听结构来替代它。传统导演只需要判断“现场能不能拍出来”；现在还要判断“模型能不能生成出来”，以及“生成不了的时候，用什么办法达到同样的叙事效果”。

比镜头调整更考验人的，是“停止的能力”。传统片场有天然边界：演员会累、天光会暗、场地会到期，“再来一条”的成本肉眼可见。但AI没有这些物理约束，理论上一个镜头可以无限生成下去，永远有下一版，永远有优化空间。四组创作者里，有人觉得只要时间允许就该继续跑，下一版说不定有惊喜；也有人觉得第一版达到预期就该停，避免陷入无意义的内耗。最终拍板的，依然是导演。这恰恰是导演主体性的新体现——过去是判断“这一条过不过”，现在是判断“还要不要继续生成”。AI把可能性铺到了无限大，也就把“什么是好、什么是够”的标准问题，赤裸裸地交还给了人。

至于行业热议的“AI导演”岗位，报告也给出了最贴合实际的理解：它不是对传统导演的替代，更像摄影指导、美术指导一样的专业统筹角色。它的核心工作不是操作工具，而是做“翻译”——把导演的创作意图、美术的风格要求、摄影的镜头设想，转化成模型能听懂的提示词与参数，再把生成结果拉回创作标准里。它是技术与创作之间的桥梁，而不是创作本身的掌舵人。

表演：算法无肉身，情绪判断力成核心

自AI诞生以来，真人演员是否会被取代同样是行业热议的话题。报告通过四组创作实践证实，当下AI虽然能复刻表演表层视觉符号，但受限于无肉身、无三维空间逻辑的底层缺陷，难以呈现富有层次的真实表演，但创作者也摸索出了适配生成工具的全新表演创作思路。

AI生成表演存在先天短板。光锥组的导演汉坤直言：“算法无法满足人的生命体验，比如痒了、痛了、渴了、饿了……AI只能给出统计学中间值，不会错，但没有魅力和独特性。”报告中还指出，算法无法接入人类的身体经验回路，只能产出统计学意义上的标准化表演。模型无法理解隐忍、悲怆等细腻情绪，黄雷评价AI理解感性直觉“基本像幼儿园的孩子，似懂非懂，非常不准确”。因此，创作者要把内在感受拆解为冰冷文字，情绪表达会大幅损耗。同时AI属于“无锚影像”，缺少固定三维坐标，多人镜头极易出现动作、道具穿帮。“

《我能》中妈妈听到孩子生病的反应

实操中暴露三类普遍表演问题。第一，微表情失真，AI自动抹平皱纹、眼底泛红等人性化细节，产出模板化“塑料脸”，单人近景尚可，多人全景五官、神态持续漂移。第二，肢体动作僵硬，国风组李鑫欣提到AI常出现滑步、肢体脱节，玉女收签核心镜头迭代25版才选出可用素材；写实短片人物动作缺少重力感，漂浮虚假。第三，算力与模型能力的双重限制加剧差距。当前商用模型普遍偏科，有的擅长细腻人脸渲染却处理不好多人运动，有的运动逻辑清晰却画质粗糙、表演偏符号化，团队往往要在多个模型间切换拼接，进一步加剧了表演的连贯性损耗。写实真人群戏本身消耗算力极高，瑕疵密集，而Bicycle Kids《活下来的碎片》无连贯角色，只用碎片化意象，完美规避表演难题，报告认为这类视频随笔是现阶段最适配AI的题裁。

“Bicycle Kids”生成了实拍难以达成的画面

面对短板，各组形成了一套人机协作表演创作策略。一是真人素材打底弥补空洞，黄雷团队先实拍完整表情、肢体作为底图，再交由AI生成，用人的原生表演抵消模板化缺陷。二是调整镜头结构，“三头怪”放弃大调度长镜头，拆分为短镜头，减少同框人数，降低AI控制难度；写提示词摒弃笼统情绪词，细化肩线、眼底、指尖等肢体细节，约束模型输出。三是建立策展式筛选模式，黄雷表示AI产出具有随机性，不存在一次完美成片，几十版素材依靠人的直觉筛选，“所有艺术创作人的选择都非理性，全靠感觉判断表演是否贴合人物”。此外，专业监制会跳出创作者视角，从普通观众角度识别情绪错位，避免无效迭代。

《我能》花絮(02:17)

报告最终得出判断：AI降低画面生成门槛，却抬高了表演审美与情绪判断的专业门槛。工具可批量产出动作画面，但人物动机、情绪层次、叙事适配的取舍只能由人完成。人机协作的分工中，AI负责素材量产，创作者承担情绪校准、镜头取舍的核心工作，对表演的判断力，成为当下影视从业者不可替代的核心竞争力。

制作：生图成为核心枢纽，文字表达前所未有的重要

如果说编剧和导演的变化还只是岗位职能的调整，制作环节则发生了结构性的重构。报告揭示，“生图”是AI影视制作流程的核心环节，这句话背后是整套生产逻辑的位移。

传统影视制作的视觉工作是线性铺开的：美术组做概念设计、人物造型；摄影组出分镜、定焦段、布光方案；实拍阶段落地执行；后期再做剪辑、调色、特效。一个环节接一个环节，专业分工清晰，判断分散在不同阶段。但到了AI制作里，这些工作被全部压缩进了“生图”这一个节点。生图环节，其实是建构全片的视觉资产库：人物造型、场景结构、光影氛围、色彩体系，所有视觉标准都要在生图阶段统一确定。美术、摄影、灯光、调色甚至道具的专业判断，全都提前集中到了资产生成这一步。

《愿力司》制作花絮(02:06)

“三头怪”组两个人的团队，在生图阶段几乎承担了七八个部门的工作。两人分工清晰：余曦负责输出场景逻辑、历史依据与戏剧需求的判断，李哲言负责把这些判断转化为模型能理解的参考图和提示词，落地为具体的图像资产。资产转化的过程远非输入提示词那么简单，模型生成结果不准确是常态，而局部修改又常常陷入“每改一次就糊一次”的困境。为了补救画质，团队摸索出了一套实操方法：要么倒推提示词重新生成，要么尝试保留纹理细节的高清提示词，极端情况下甚至会把改坏的图先降为黑白，再让模型重新上色，避免在已经损失细节的图上继续硬改。

三头怪组合作品的夜戏

就拿夜戏光源设计来说，他们没有等到后期再调光影，而是提前把整场戏的光源变化做成了完整方案，每一个阶段的环境光、人工光源、色温情绪，全都拆解成精确的文字描述，写进提示词里。

“三头怪”组对夜戏光源的设计方案

同时，报告指出，文字对模型的控制力远强于参考图，是人机协作的核心枢纽。参考图是缺乏结构化语义的像素信息，AI很容易抓取到不需要的风格元素发生偏移；而文字可以拆分为独立的语义节点，逐项调整互不干扰。懂画面的人能写出分层描述，从主体造型到材质肌理，从光线方向到镜头焦段，精准传递意图；不懂的人只能反复输入“好看的电影感”，最终被模型带入它最熟悉的商业美术舒适区。

提示词演示

之所以要把判断全面前置，是因为AI影像的后期调整空间极小。报告提到，AI生成的视频如果后期做大范围调色，画质很容易崩溃。这就意味着，传统制作里可以留到后期解决的风格问题，现在必须前置到生图阶段一步到位。

伴随生图核心化而来的，是分镜逻辑的彻底迭代，过去导演是“保一条过”，现在是“二十条里筛一条”。“能工智人”组直接取消了传统手绘分镜，代之以“剧本定稿—统一资产—脑中分镜—边生成边剪辑”的动态模式。分镜从“前期一次性预设”，变成了“中期动态校准”。随之改变的还有片比：传统剧情片片比多在5:1到15:1，AI流程里一个关键镜头生成二十几次才能选出一条可用的，这些都将成为常态。

困境与启示：“降本”并不一定意味着“增效”

AI带来的并非全然的便捷，本次片场实验，也伴随着一路的碰壁、妥协与自我怀疑。四组创作者在这场实验里遇到的难题和真实的困境，推着所有人跳出“工具好不好用”的浅层讨论，开始重新思考创作的本质。

最先打破幻想的，是一笔算不清的时间账。光锥组导演黄雷复盘时算了一笔账：如果用实拍完成《我能》，两天拍摄加十几天后期，二十天左右就能交付；用AI制作，省去了演员、场地、设备的硬成本，却掉进了反复生成、筛选、修正的时间黑洞。一个镜头跑十几版是常态，关键镜头要磨几十次，时间消耗完全不可预估。

《我能》中妈妈之家的场景

光锥组《我能》的“妈妈之家”群戏，遭遇过系统性的空间失真：演员站在桌子正面时桌子是横向，转到侧面就变成竖向；同一个角度能看到三张床，换个角度就只剩两张；花瓶、瓶罐等道具在不同镜头里随意移位。这让导演黄雷意识到一个此前鲜少被提及的痛点——商用平台普遍采用固定积分的算力分配模式，但动漫风格与真人写实风格所需的算力完全不在同一量级。黄雷导演以传统特效行业的经验做比较:一帧高质量的写实渲染可能需要“整个机房集群几个大机架的机器工作二十个小时”，“我们拍摄一个日常生活的场景，家里或者厨房，锅碗瓢盆叮了当啷，菜叶子烂垃圾，需要多少细节?”这些在实拍中不成问题的日常细节，在AI生成中却构成了巨大的算力负担。

光锥组 AI 制作过程实录

报告指出，AI创作存在鲜明的“成本悖论”：资金与物理门槛降低的同时，时间与决策成本显著上升。过去片场的成本是看得见的，多拍一天就多一天开销；但AI生成的边际成本看似为零，很容易让人陷入“下一版会更好”的无限迭代里。这也催生了第一个重要感悟：AI的“降本”与“增效”从来不是天然绑定的。对工业化商业项目而言，它目前最核心的价值是概念预演、高风险场景试错、视觉风格快速迭代，而非全流程替代实拍。

图 1-1:光锥组与 AI 交互实录

比成本更隐蔽的困境，是深植于算法内部的审美惯性。“能工智人”组开发《愿力司》视觉风格时，无论怎么调整关键词，模型总会不自觉地滑向全球化的平均审美——高饱和色彩、迪士尼式人物比例、好莱坞奇幻片光影逻辑。团队前前后后迭代了五十多版提示词，一半的工作不是“做加法”，而是“做减法”：用负面提示词剔除模型自带的审美惯性，再一点点植入东方水墨、敦煌线条、矿物颜料质感这些本土视觉语汇。

创作者随时根据剧本内容转译的视频提示词

这场拉锯战让创作者意识到：AI工具自带训练数据塑造的审美偏好与表达惯性。提示词工程本质上不是输入咒语等待奇迹降临，而是一场创作者与算法之间的审美主权争夺战。由此催生的感悟也格外清醒：技术越普及，风格就越珍贵。当所有人都能用同一套模型生成画面时，作品的辨识度最终取决于创作者能不能跳出算法的舒适区，能不能把自己的审美意志注入到生成过程里。

更考验创作者心态的，是从“精确控制”到“概率筛选”的身份转换。传统影视创作是强控制逻辑：分镜、站位、灯光等一切都可以精确规划；但AI创作是概率逻辑：同一个提示词跑两次，结果都可能天差地别。“三头怪”组最初也试图用手绘分镜严格约束AI，结果越控越乱，穿帮和变形反而更多。反而是放下“百分百复刻”的执念，改用模糊描述加整体参考，让模型自由生成再筛选，效率反而高了起来。

这场实验也倒逼出了对创作者能力结构的重新思考。

比如就动画这个门类而言，“能工智人”组的两位成员都没有传统原画经验，却借助AI直接进入了动画生产。但AI拆除了手绘、中间帧、建模绑骨这些传统技术高墙的同时，新的门槛也随之竖起：创作者需要理解算法的语义逻辑，需要完成从感性审美到文字指令的转译，需要在概率性结果里筛选有效素材。

动画短片《愿力司》的AI工程图

报告指出，如果门槛指的是掌握特定工具的许可，AI确实降低了它；但如果门槛指的是完成有效艺术表达的能力，它从未消失，只是发生了位移。

作为中国传媒大学出具的学术观察报告，其中对于AI时代的影视人才的培养也作出了有益的观察与思考——不是要做“样样都会的全能者”，而是要成为“有根的复合判断者”，在主专业能力作为立身之本的根基上，要具备跨界审美通识，不必精通所有工种的操作，但要理解各环节的基本表达逻辑；同时，新一代的创作者还需具备AI流程意识，明白生成技术的边界与方法，能把专业能力接入新的生产流程。诚如李哲言所言：“如果AIGC创作者只是掌握工具和技巧，很快会被模型迭代替代。真正有价值的是，创作者能否理解作品意图，能否知道为什么要这样生成，能否判断生成结果是否服务于人物、叙事和风格。”

“AI片场”四组入选团队走上上海国际电影节红毯

一路走下来，四组团队最终的共同感悟，都回到了对创作价值的重新确认。当资料搜集、初稿写作、画面生成这些曾经有门槛的工作，都能被AI快速完成时，创作者反而更清晰地看到了自己不可替代的部分。

当“怎么做”变得更容易，回答“为什么这么做”的人，反而更重要了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.