这家好莱坞公司提供了全新的影视工业AI解决方案|电影|动画|工作流|大模型

分享至

公开数据显示，2025年全球AI视频生成市场规模已突破300亿美元，年复合增长率维持在40%以上的高位水平，并呈现出短视频厂商和通用大模型厂商分而治之的局面。

而短视频平台（如快手可灵、抖音即梦）凭借其庞大的流量基础，加之模板化创作+社区分发的使用闭环，在全球市场占有率上甚至超过了以Sora、Google Veo为首的技术领跑者。而这一趋势也使得全球的主流AI视频模型都在追求短片中的极致细节，以此来最大程度吸引C端用户的付费。

这种现状也使得市场上主流的视频模型在面对“长片”，尤其是电影这种工业级需求时体现出的种种“力不从心”。

首先是一致性的问题，主流视频模型在处理短视频、，少人物、，简单场景的镜头转换时还能勉强保持一致性。而一旦涉及到长程视频、多人物、复杂场景，就会很难维持角色外貌、服装和场景元素的稳定。其次是模型叙事能力的缺失，视频模型难以理解剧本中的因果链条和叙事手法，更无法匹配与之相符的镜头语言，导致生成的内容常常与导演意图天差地别。另外，主流模型的物理规则认知水平不足。对于短视频这种“浅内容”来说，些许的物理“幻觉”是可以容忍的，模型靠对2D像素统计规律理解的物理规则已经足够。但对于电影工业级别的视频需求，这些还远远不够。

而事实上，短程vs长程，追求细节vs追求叙事，短视频vs电影，AI视频生成模型的发展已经根据需求的差异分化出了完全不同的路径，影视工业级的AI视频大模型正逐渐浮出水面。

新物种来袭

近日，好莱坞的AI原生影视工作室Utopai Studios宣布，与全球创新与投资平台Stock Farm Road共同出资数十亿美元，设立新合资公司Utopai East，旨在建立全球首个AI原生影视制作体系。同时，Utopai Studios还同步推出专为电影与电视制作而设计的AI模型和工作流。与短视频界面的模型不同，该模型具备“理解剧本、解析故事，并协助导演规划镜头和生成场景”的能力。

根据公开资料，Utopai Studios是第一家加入好莱坞公会的AI公司，在业内被看作是“打破了好莱坞对AI抵触”的关键节点。公司前身Cybever创立于2022年，专注于“用AI生成高精度3D虚拟环境”，初期服务游戏与影视行业。2025年，公司更名为Utopai Studios，从“AI技术供应商”转型为“AI原生影视工作室”，聚焦用AI技术制作电影、电视剧等原创内容。

Utopai Studios的创始人兼首席执行官Cecilia Shen出生于2000年，大学就读于加拿大滑铁卢大学，主修数学，大学二年级就进入Google X实验室，参与Moonshot项目。2022年，她与Jie Yang（前Google X同事）联合创立了Cybever。

转型后的Utopai Studios随即获得好莱坞改革派力量（如前派拉蒙CEO）的投资，首年即实现1.1亿美元预售收入（涵盖史诗电影《Cortés》、科幻剧集《Project Space》等项目），打开了AI在长内容领域实际应用的想象空间。

而新公司的另一个主角Stock Farm Road（以下简称SFR），由韩国LG集团继承人，斯坦福校友，近些年活跃在硅谷创投圈的Brian Koo与阿联酋Offsets Group创始人、前董事长兼CEO，推动了阿联酋主权财富基金成立的Dr. Amin Badr-El-Din联合成立。此前，SFR也对外公布了即将在韩国建设 350亿美元级AI数据中心的计划。这个全球最大之一的数据中心与本次设立的新公司构成战略联动，为AI模型训练、渲染与生成提供基础算力支撑。

韩国拥有成熟的影视工业体系、全球流行文化输出能力（K-pop、K-drama、K-movie），以及开放的政府创新政策。新公司名为Utopai East也表明了其把韩国影视产业优势和先进的影视制作智能结合，并把这些内容面向全球发行的战略意图。

在这个合资体系里，Utopai提供AI制作核心能力，Stock Farm Road提供资本、算力、数据与国际化通道。这一体系也成为AI时代下全球产业—技术—资本联动的成功案例（韩系产业资本+ 硅谷创新网络+ 中东主权资金）。

影视工业级视频模型

让我们聚焦到Utopai的AI影视模型，看它是如何完成理解剧本、解析故事，并协助导演规划镜头和生成场景这些动作。

影视工业化的传统流程，是靠人工完成从剧本→故事板→3D previz→实拍→后期的工作。动画上靠手捏，制作上靠physical production，前期场景搭建与预可视化工作量巨大，且修改起来非常麻烦。头部影片从立项到上映常常需要3–5年，这个过程既费钱又费时间。

而Utopai的影视模型，会自己把剧本拆解为故事板、通过3D-EnGen生成可交互的3D场景，再输出可控视频，直接把剧本可视化，实现端到端闭环（Previz-to-Video Pipeline）。通过对剧本内容、叙事结构、电影语言和视觉风格的深度解析，，该模型采用“规划—生成”的自回归AR（auto-regressive）机制，在创作者的全程指导下，系统性地规划并生成多镜头序列，确保作品的叙事连贯性与画面一致性。这套工作流也并非靠单一模型来完成，而是像电影工作组一样“分工协作”完成。其中自回归模型负责“规划”，扩散模型负责“渲染”，最后通过统一状态空间耦合。

自回归模型作为“导演大脑”，主要负责理解剧本，生成拍摄计划，确保后续模型生成的几十分钟的视频能够始终为叙事服务并保持元素的一致性，这也是Utopai影视模型的核心。这一步极大程度上解决了前文提到的主流视频模型在长程视频领域的一致性和叙事能力难题。自回归模型通过前帧预测后帧机制，生成涵盖角色ID向量、摄像机轨迹、光影变化等要素的时空计划，也就是导演大脑中的拍摄蓝图。

接着，扩散模型作为“执行引擎”，负责根据既定叙事蓝图，依靠专业化的生成模块（包含优化的Diffusion技术）下层的条件渲染器，专注于执行高质量的画面生成。和主流短视频模型的“概率生成模型”这种“随机抽卡式”产出不同，扩散模型严格依据规划层输出的结构化指令生成画面，生成条件包括深度、法线、光流、遮罩、参考帧、相机轨迹等丰富的结构化信号。

最终，规划层与渲染层通过统一状态空间交换信息：规划器输出未来帧的几何与语义约束，渲染器据此生成图像，并反馈生成结果供规划器优化后续计划。这一过程不断重复，就保证了整套模型体系可以一帧一帧完成一部叙事通顺，要素一致的长视频。

拥有如此完整的“剧本—视频”能力的模型，注定会被问到的问题就是：是否会取代“导演”。对此，Cecilia Shen对钛媒体表示：“我们一直强调，AI 模型在影视制作中不是‘“作者’”，而是‘“协作者’”。它不是来决定故事的，而是帮助导演更高效、更精确地表达故事。核心仍然是剧本与叙事。不同的剧本意味着不同的视觉语言，模型不会改变创作的本质，只是加快想象变成影像的速度。”

据Utopai Studio表示，大部分实际使用过模型的导演反馈他们并没感觉到被替代，反而被激发了。很多导演在看到系统的实时生成后，会立刻想到更好的场景、更有张力的镜头。然后他们会重写剧本、重新设计节奏。换句话说，AI并没有收窄他们的想象力，而是把创作灵感低成本地提前释放了出来。

“所以我更愿意说，AI不是让创作者消失，而是让他们变得更‘“纯粹’”。”Cecilia Shen提到对我们说，“还是回到初始，模型只是众多技术浪潮中的一个而已。每一位艺术家或创作者都像孩子一样，他们不是抵触技术。比如《玩具总动员》1995 年上映，这是世界上首部数字制作的动画长片，无论在创意还是技术上都是一次影响深远的跃进，也在全球斩获了将近4亿美元的票房收入。今天的情况同样如此，所谓的抵触AI，是否是因为我们用AI的方式错了？”

据悉，Utopai产出的所有影视作品均已用到了该模型体系。其中，《科尔特斯》（Cortés）：由奥斯卡提名编剧 Nicholas Kazan 执笔，顶级概念设计师 Kirk Petruccelli 执导，被誉为“史上最难拍史诗巨作”，常年位列好莱坞呼声高却未能拍摄的电影前10位，Utopai将以AI原生制作两部100分钟电影来呈现。另一部以AI原生制作的8集科幻剧集《太空计划》（Project Space），被誉为“当《壮志凌云》遇见《世界大战》”，由Vanessa Coifman 和 Martin Weisz 担任编剧和导演，目前也已成功预售到欧洲市场了。

数据基座与训练方法

Utopai模型能力的飞跃源于其独特的训练数据和训练方法论，其核心是让AI从大量高质量、带精确标注的3D合成数据中学习，而不依赖于通用视频模型常用的网络二维视频数据。这种方法使模型能够内化物理规律，从根本上理解空间、遮挡和碰撞等三维世界规则，有效避免生成内容出现违背物理规律的“幻觉”问题。

Utopai从设计之初就非常关注合规和透明。模型仅使用经授权、与影视内容高度相关的专业数据集进行训练，确保学习来源于专业且合规的素材，避免使用未经筛选的互联网数据，确保学习源头的高质量和合法性。而据我们了解，此次的合作方SFR就拥有体量相当庞大的合规视频数据集与算力基础设施，这也是此这次合作的重要战略协同。同时，Utopai的工作流在美国、欧洲和亚洲均采用本地化部署，以符合各地区的AI与数据监管要求，确保使用透明、治理合规。“数据永远是模型最大的壁垒。”Cecilia对我们表示，“Utopai目前模型只用于自制项目和影视领域信赖的合作伙伴，不会对外商业化，也暂不开放数据库、版权等。”

另一方面，Utopai的对模型训练过程也非常独特，主要分为两个关键阶段：第一是几何与语义对齐预训练：此阶段目标是建立模型对物理世界和视觉元素的底层理解，进行“文本-视频-几何”对齐以及下一状态/掩码重建等任务。第二是多模态指令微调：此阶段增强模型对复杂、抽象的叙事指令和跨模态约束的遵循能力，使其能精准理解并实现导演的创作意图。这种训练方式使模型能够对复杂的情感和叙事意图进行状态级的精确建模与可视化表达。

例如，当指令要求表现角色从“怀疑”转变为“恍然大悟”时，模型能够协调生成身体姿态、视线方向、镜头语言以及光影变化等一系列要素，呈现一个在表演逻辑上合理、情感层次分明的完整转变过程，而非简单地替换一个表情贴图。

值得一提的是，Utopai真正做到了模型与工作流的统一。在模型被应用的真实制作场景中产生的数据，将会被用来持续优化模型，而更强大的模型则能反过来简化甚至重塑工作流，最终赋能创作者。这一理念更接近苹果的「软硬件一体」生态：数据、模型、工作流与创作者，必须是一个深度集成、相互关联、持续优化的闭环系统。“这个闭环，将是未来的所有AI的核心竞争力。”Cecilia表示。

当前AI视频领域的通用指标（如FVD、CLIP Score）主要衡量视觉逼真度和文本符合度，但无法有效评估“叙事质量”。Utopai作为影视工业级视频模型的领先者，也在着力建立一套基于专业影视标准的内部评估体系，主要做了三个额外评估纬度的补充：一致性指标；剧本指令遵从度；制作效率的跃升指标。

在Utopai Studio验证中，这套工作流可以实现60%到90%提效，具体程度取决于内容类型和复杂程度。

视频模型的未来

谈及AI在影视工业的未来，Cecilia说到：

“接下来数年内，我们预计workflow agent将会在各行业爆发，AI会带来更新的题材和内容，这是一定的。如果可以在一个行业里，将 80%～90%的事情实现自动化，那你就是成功的。

不过衡量成功可能有两个重心，一个是是否真能做一个好的产品，而好的产品，要有好的审美和taste，最终衡量标准并不应该是「智能」。因为如果用户需要不断纠正，那么这不是一个好的体验。第二个，效率层面是否能真的代替掉 80%的行业臃肿重复的工作。

Utopai底层强调的不是‘“无人参与’”和‘“替代’”，技术应扩展人类想象力，让模型和工作流与创作者协作而非替代。每个组件都围绕创作流程而设计，可解读剧本、理解故事走向、协助导演进行镜头规划，并生成与叙事意图一致的场景。

此外，目前的视频模型只是一个渲染器，而未来视频模型会是unified（理解性系统），会越来越有叙事逻辑、理解思考能力。到那时候，可能AI或许真的能自成导演。”（作者｜郭虹妘、陶天宇，编辑｜陶天宇）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.