![]()
电影级内容引擎还是物理拟真,视频模型路线加速分化。
作者丨孟一凡
编辑丨梁丙鉴
无论从宏大的技术脉络,还是近在眼前的商业落地来说,视频模型都是当下最炙手可热的赛道之一。也因此,今天问世的每一款全新视频模型,都经受着来自学界和业界越发严苛的审视。最近,这份关注属于阿里刚刚推出的 Happy Horse-1.0。
作为阿里巴巴 ATH 事业群在视频模型赛道的开山之作,这匹“黑马”甫一发布,就位列权威盲测平台 Arena 和Artificial Analysis 的Top1和Top2。
当然,对于这样一条早已步入深水区的赛道而言,BenchMark 和打榜的意义正变得越发有限。更触动神经的议题是落地,当各家模型都能轻松产出“赛博朋克城市夜景”或“古风女子执伞回眸”这类美轮美奂的画面,视频内容的生产模式随即发生了革新,AI 短剧、漫剧市场的迅速膨胀就是一大例证。
但是在一众内容创作者畅想“vibe video”的美好未来时,现实的另一面是《纸手机》水准的爆款作品仍然属于凤毛麟角。很多时候,我们看到的更像是用连续短视频拼凑出的动态 PPT,割裂的叙事不是靠旁白硬凑,就是干脆交由观众脑补。
技术维度上,你可以将这解释为视频模型在多镜头调度、人物表现力,以及复杂动作音画同步等细节上的不成熟。但对于落地来说,观感粗糙、叙事无力最直接的结果就是,AI 视频作品被理解为一种更下沉的内容,无力触及更广阔的想象空间,美学,或是商业潜力的意义上都是如此。
用画面讲故事,已经成为了视频模型接下来的技术分水岭。而我们好奇的是,从动态画面的生成,到电影工业级的叙事能力,Happy Horse-1.0 走到了哪一步。
4 月 27 日,Happy Horse-1.0 开启灰度测试,我们第一时间拿到了这款模型的体验名额。这次测评,我们决定放弃美学展示的常规路线,取而代之的是几项电影工业级的极限压力测试。我们希望试一试 Happy Horse-1.0,有没有可能成为第一款,真正能用镜头讲好故事的视频模型。
01
故事感决定上限,一致性决定下限
《教父》里刺杀索拉索前的柯里昂、《闪灵》里在门后狞笑的杰克,还有《杀人回忆》最后仿佛看穿镜头的刑警,可能是出于这个景别自带的故事感,很多让人记忆深刻的影史名场面都选择了中近景。我们也决定从这个景别开始,看看 Happy Horse-1.0 的表现。
提示词节选:中景镜头,一个健壮的女人站在日落的海边。当她缓缓转身面向镜头,并露出微笑时,镜头缓慢前移给她的上半身特写,她身后突然有成群的白色海鸟飞过,创造出一种强烈的视觉冲击感。
这个画面的元素本身并不复杂,但令人惊喜的是呈现质感。大光圈、浅景深、强氛围感的中近景镜头完全没有 AI 视频常见的廉价感,反而有一种电影般的视觉冲击。
但我们觉得一个特写还是太简单了,于是决定给 Happy Horse-1.0 再上点强度。
今天 AI 视频叙事能力的一大考验,是多镜头调度以及由此带来的一致性问题,形象畸变、位置漂移必然导致叙事逻辑的断裂。下面这个任务就是针对身份一致性的极限测试。我们描述了一名约 30 岁的东亚女性形象,要求 Happy Horse-1.0 一次性生成其在特定场景下的中景正面、近景斜侧 45° 跟拍和正面特写,并且人物在景别切换、机位变化和光照差异下需要保持完全一致。
人物动作、站位不跑偏是最基本的。这个任务真正的难点在于,我们往一段提示词里塞了十余个可以被验证的视觉形象锚点,包括米白色亚麻西装套裙、浅蓝色真丝衬衫、银色细链珍珠项链、右手无名指玫瑰金戒指、豆沙色哑光口红、裸粉色指甲,以及带有金属品牌 logo 的驼色托特包等。
大家接下来可以留意一下,哪些元素“半路出家”了。
提示词:一段包含三个连续镜头的短片,主角为同一名约30岁的东亚女性,蓄及肩棕色波浪卷发,左眼眼角有一颗明显的小痣,身着米白色亚麻西装套裙,内搭浅蓝色真丝衬衫,佩戴银色细链坠珍珠项链,右手无名指戴一枚玫瑰金戒指,涂豆沙色哑光口红,指甲为裸粉色。
比较容易观察的细节是五官、衣物褶皱和光影。
在这个测试中,人物面部在三个镜头的切换下都没有出现变形或漂移,亚麻西装的褶皱在三镜头中也很符合逻辑。特别是光照这种很容易产生违和感的细节也没有明显问题,画面中真丝衬衫的光泽变化完全符合不同机位下的光照条件,人物的肤色也在正面光与侧光之间自然过渡,没有出现突兀的色偏。
然后是 11 个视觉形象锚点的跨镜头交叉比对:
![]()
除了因视角变化而合理消失的少部分元素外,11 个视觉形象锚点基本都保持了一致性,只有右手上的玫瑰金戒指在镜头一中从一枚变成了三枚,此外豆沙色哑光口红虽然在三个镜头中均有呈现,但是存在轻微色差。
这些问题指向模型在“非面部高频细节”上的维持仍有优化空间。当镜头景别从全景收紧至特写时,模型似乎优先保全面部而“牺牲”了身体周围的道具信息,但整体呈现仍然处于“准商用”的水准,人物叙事的核心连贯性已能得到保障。
多镜头调度下的一致性是视频生成模型从玩具走向工具的关键门槛。无论对于广告、电商展示还是电影制作而言,如果主角的脸型、服装或饰品在镜头切换中出现漂移,叙事连贯性都将瞬间崩塌。这个任务的核心难点不在于生成一个好看的人物,而在于让 AI 维持这个角色的每一个锚点。显然,Happy Horse-1.0 完成得不错。
02
给 AI 讲戏,它真听懂了
对于无实拍的 AI 内容来说,一个很现实的问题在于角色表现力总是不如真人出镜,这也是我们测试 Happy Horse-1.0 的重要维度。但表现力更加难以量化,为了便于测试,我们把它分成人物肢体动作的自然度、微表情刻画和对白真实感三个层面。下面看看 Happy Horse-1.0 的表现。
在纯粹肢体动作方面,我们设计了一个复杂的动作序列进行考察。提示词描述了一个 25 岁左右男性在舞蹈排练厅内的完整表演片段,包含四个精确动作节点和五个明确时间参数。更困难之处在于,每一个动作节点我们都明确规定了对应的音效要求,包括衣物摩擦声、呼气声、落地闷响等。
因此模型不仅需要生成人物动作,还要在时间上精确编排每一个动作的发生时刻与持续时长,让声音与起跳、落地等动作状态实现帧级对齐,这也让这项测试成为了一个考验 Happy Horse-1.0 复杂指令遵循和音画同步能力的机会。
提示词节选:一个单主体完整表演片段,需要严格遵循下方详细分镜指令,并搭配对应的环境音与动作音效,实现精准音画同步。画面风格为写实电影质感,固定机位中全景,室内木质地板舞蹈排练厅,自然窗光从左洒入,地面有轻微反光。主角为一名25岁左右运动型男性,身穿深灰色宽松运动长裤,黑色无袖背心,赤脚。
就动作质量而言,Happy Horse-1.0 交出了接近满分的答卷。视频中男人的动作连贯丝滑,全程未发现卡顿或跳帧,肩、膝、踝等关节也未出现明显的肢体扭曲,结构合理。特别是旋转腾空和重心转移的部分,视觉效果上完全符合人体运动规律,肌肉发力感在肉眼观测上也完全可信。
此外音画同步是这个用例最大的亮点。由于我们选择了一个爆发力明显的动作,大部分声音所匹配的都是瞬时状态,比如衣物摩擦,起跳蹬地、破风声以及人物落地的闷响。但 Happy Horse-1.0 的生成结果中,这些声音都和人物动作保持了精准对齐。
在电影工业中,音效是一项贯穿前期筹备、拍摄和后期编辑的重投入工作。但是对于 Happy Horse-1.0 来说,这些都被前置到了生成环节,一次性解决。
下面这个官方给出的案例则能看出 Happy Horse 在微表情刻画和人物对白上的提升。
【场景】奢华的私人飞机机舱内,窗外是壮丽的金红色的云海落日,阳光将机舱渲染成琥珀色。 【主体】左侧满头银发的 [ 年长男性 ] 身穿高定西装,手持威士忌酒杯,目光如鹰般锐利;右侧的 [ 年轻男性 ] 身体微微前倾,眉头微皱,神情既紧张又充满野心。【运动】年长男性轻轻晃动着手中的酒杯,液体挂壁,他身体逼近对方;年轻男性深吸一口气,眼神坚定地回视。 【音频】[ 年长男性, 低沉沙哑, 充满威严 ] 说道:“In this world, you either hunt or you become the prey. Which one are you?” [ 年轻男性, 嗓音紧绷但坚定 ] 回答:“I am the one who pulls the trigger.” 背景伴随着飞机引擎深沉的轰鸣声和冰块撞击玻璃杯的清脆声。
在这个存在多角色对话的镜头里,Happy Horse-1.0 一个很明显的yoou'dian是对话衔接流畅,语调也很贴合具体情境。特别是画面左侧的年长男性角色,你会发现人物的语气没有了刻意模仿人类的伪人感,而是真的能从停顿中听出强调、思考和这个语境下应有的审视。
这背后还有一种更细节的表达,那就是递进的情绪。从紧皱眉头,靠在椅子上摇晃酒杯,到探身向前,盯着对方提出自己的问题,这些微表情的变化没有被提前写进提示词,但 Happy Horse-1.0 生成的这位年长男性,可以说整张脸都在演戏。微表情是做好了会被视为理所应当,但不做就立刻让观众出戏的细节,Happy Hores-1.0 成功在短短 15 秒内,相当细腻地传递了角色的情感变化。
编辑困难也是 AI 内容落地的一大卡点。频繁“抽卡”的过程中,用户此前难以对 AI 角色的形象、动作或台词进行针对性修改,导致了大量废片的产生。这不仅拖慢了 AI 视频内容生产的节奏,而且大幅提高了 Token 成本。
对此 Happy Horse-1.0 推出了 V2V 自然语言视频编辑功能,支持用户通过一句话描述修改意图,在不依赖专业剪辑软件的情况下直接修改视频。
这个功能最好用的场景可能是无缝替换视频主体这种局部元素的修改。比如之前女生逛画廊的测试,我们告诉 Happy Horse-1.0 “帮我把这个女生,换成东亚男性,30 岁,艺术家着装”,然后直接得到了下面的结果。
背景、光影乃至人物神态和动作丝毫不改,真的就只有人物形象发生了改变。
更细节的修改也可以实现,男人跳舞这个用例中,我们要求模型“帮我把这个男生换成穿着奥特曼服装的”。这里埋了一个细微的坑,就是“奥特曼服装”不等于“奥特曼形象”,但是 Happy Horse-1.0 似乎完全理解皮套演员这个概念。修改后的视频中能清晰地看到戏服在人体关节等部位产生了非常合理的褶皱,光泽看起来也真的像特摄作品中用到的胶衣材质。
Happy Horse-1.0 的人物表现力,加上摩擦极低的视频编辑功能,让 AI 演员的落地能力,彻底迈上了新的台阶。
没真正上手体验过的人,很难理解这种言出必行的爽感。用自然语言编辑视频太像是作为导演在给演员讲戏,甚至是直接调度整个剧组。结合 Happy Horse-1.0 的实现效果,就像是有一整支专业的影视团队在随时待命。模型性能的攀升固然重要,但是在工业级落地越发关键的今天,丝滑的人机交互在某种意义上已经能够等价于生产力。
03
物理拟真短板明显
测试之后,最深刻的感受是拍短剧甚至电影几乎已经要成为 Happy Horse-1.0 的舒适区,但这款模型的短板同样明显,那就是物理规律拟真。
最后我们让 Happy Horse-1.0 生成了一个水杯掉在地上,水体飞溅、玻璃碎裂的视频。相较于前面几项测试,这是物理压力最大的任务。提示词要求模型在 5 秒内连续模拟刚体碰撞与动量传递、流体自由表面流动、液膜断裂及雾化、脆性断裂、次级碰撞以及光学现象六种物理规律,容错率极低。
提示词节选:一个超高帧率的慢动作特写镜头,采用微距视角:明亮的厨房内,深色橡木餐桌边缘,放着一只晶莹剔透的圆柱形玻璃杯,杯中盛有约八成满的纯净清水,水面平静。杯底距桌沿仅数厘米。画面左侧,一颗网球沿桌面滚来,撞上玻璃杯底部右侧。杯子受力的瞬间,与桌面产生相对滑动,清水表面泛起同心涟漪。杯子随即向桌沿滑去,杯底逐渐悬空,开始倾斜坠落。
显然效果并不好,网球撞击之前杯子已经向受力的反方向倾倒,水体的形态变化也十分诡异,先是直接穿模,然后四散的水花墙标准到像是尺规作图的结果。最无法接受的是杯子的裂纹,提示词形容它是“放射状”,Happy Horse-1.0 的生成结果像是把这个概念直接摁进视频里那样生硬。
把整个视频拆开,唯一可圈可点的是杯子自身的下坠过程相对真实,既没有漂浮感,视频里也能看出杯子角度轻微的旋转。一种可能的解释是,Happy Horse-1.0 更擅长生成符合物理直觉的画面,而不是基于物理定律的精确仿真,因此才在流体模拟、粉尘生成等高度需要底层物理引擎严格解算的细节上,表现出远未达到工业级可用的水准。
04
叙事能力,视频模型新的入场券
整体来看,Happy Horse-1.0 在工业级的工程压力测试中仍然展现出了出色的复杂指令遵循和综合生成能力。跨镜头人物一致性达到准商用水平,复杂时序动作编排向专业制作管线靠拢,这些能力对于广告、数字人乃至于电影工业而言,都是实打实的生产力。
最重要的是叙事能力,模型性能对音画同步、微表情等细节的优化,和 Happy Horse-1.0 表现出的电影质感合流,正在让 AI 视频从动态 PPT 变得富有故事感。可能是排练室里舞者的腾跃,也可能是画廊里艺术家的一次回望,此前只能在院线电影里找到的质感,现在变成了视频模型的输出。
阿里为其开出的定价也极富竞争力。官网720P 和1080P 的视频生成刊例价分别为 0.9 元/秒及 1.6 元/秒,阿里云百炼API也是这个价格。官网专业会员包月价格叠加限时折扣后价格更低,为 0.44 元/秒和 0.78 元/秒。
按一个 5 秒的720P镜头计算,不考虑阶段性优惠的情况下,Seedance 2.0 的 B 端 API 定价为 1元/秒,可灵 3.0 在积分制的常规计费模式下,每秒钟价格随生成难度,在 0.6-1.2 元之间浮动,两家的总成本分别是5 元和 3-6 元的。Happy Horse-1.0 的价格,是 4.5 元。
这还只是一个 5 秒钟的镜头,对于一部动辄 90 分钟的电影而言,性价比上的任何一点差异都会被成倍放大,Happy Horse-1.0 则提供了一种更多样的选择。
当然影视工业不是一个只讲成本的场景,叙事能力,才是真正打开一款视频模型落地和商业化空间的钥匙。Happy Horse-1.0 作为后起之秀能够成为一个潜在选项,更隐形的入场券在于模型真正具备了电影级的画面质感和工业级的视频编辑支持,这是用画面讲故事的先决条件。
与其说 Happy Horse-1.0 是阿里 ATH 事业群的试水之作,不如说它已经成为了一款可无缝嵌入影视工业制作流程的生产力工具。
AI 视频在过去一年里快速走过了野蛮生长的早期阶段,今天的商业模式正变得越发清晰,而商业和技术上的竞争焦点也在趋向一致,那就是更可控且富有质感的生成。前者是技术落地的成本考量,后者则关系着一款模型真正的应用空间。
从抽卡式的短视频黑箱,到可编辑的新一代视频创作工具,在可以预见的未来,这是大多数视频模型都需要经历的一次转向,而 Happy Horse-1.0 显然已经走得很远。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.