网易首页 > 网易号 > 正文 申请入驻

拳打可灵,脚踢 Veo 3,谁是物理世界的「懂王」?

0
分享至


价格最低只有 Veo 3 的 1/9。

作者丨郭海惟

编辑丨陈彩娴

一个优秀的多模态视频生成大模型永远是一套复杂的系统级工程,它包括但不限于:跨模态理解与对齐能力,时序一致性的控制能力,精细化的编辑和修正能力,以及高效计算和成本控制的能力等。这让它看起来总像是一个巨头的游戏:字节、快手,谷歌、OpenAI,他们手握着深如湖海的现金,宽似江河的流量动员能力。

不过在这条巨龙扎堆的赛道上,有三两个身影站出来做点新东西。MiniMax大概就是其中跑得最前,声音最响亮的团队之一。二十多天前,谷歌最新推出的Veo3,被许多产业观察者称作视频生成划时代的产品;而二十天后,在又一个万籁俱静的618里,MiniMax发布了新一代Hailuo 02,给视频生成大模型领域增添了一些实打实的“多快好省”。

Artificial Analysis视频模型评测榜显示,Hailuo 02视频模型甫一推出,其ELO得分大幅度超过谷歌 Veo 3 和快手的 Kling 2.0,成为了全球排名第二的视频生成模型。

01

让复杂运动成为现实

一些用户对Hailuo 02的评价是“更具电影感”,其中很重要的原因是Hailuo 02拥有了更好的复杂场景与运动呈现的能力,也被认为是目前全球唯一能够实现此类极限物理运动视频效果的模型。

复杂的运动镜头,可以带来很好的情节张力,让观众迅速被镜头抓住而进入场景,往往出现在电影制作中最核心的高潮情节中。但相关场景的生成,对于模型的时空一致性要求非常高。稍有不慎,模型很容易发生丢失细节、违反物理规律,甚至穿模的情况。

比如在“马跃起,落地奔跑”这么一段简单的prompt测试中,模型需要让马和人保持一致性的身体姿态,才可以给观众传达出真实感。这种一致性不是简单的姿势同步,而是要呈现符合物理规律的力的传递中的层次感。

Hailuo 02很好地处理了每一个细节的物理关系,不仅是人与马的姿态协同,包括马尾、马鬃毛和人的头发飞扬都很有真实感。

Hailuo 02

相比之下,对标的测试模型便出现“马浅跳,但人高飞”的情况,起跳过程也完全发生在了障碍物以外。

可灵2.1大师版

类似的场景还有“hellokitty打网球”,大量的模型在这个prompt测试词上翻了大车。

海螺基本能实现球拍与球之间的互动:

Hailuo 02

但有些对标测试模型则出现了“精灵球”的情况,有点像哈利波特的场景,球很有自己的想法:

vidu

同样的球与拍之间出现了神秘磁场:

luma

大变活“球”:

即梦:视频3.0 pro

而对世界物理规律具体而微的理解,只是复杂动作的难点之一。在一些快速移动的运动中,往往会面临背景的快速变化。相比于人的动作,背景视野的大范围移动意味着模型优秀的空间感知能力。

其中最典型的莫过于滑雪运动:镜头固定在快速变化的人体动作的同时,雪景可能随着人的拍摄角度和速度移动而不断迁移,场地本身则会随着雪橇板的移动而掀起雪浪、留下移动轨迹。

Hailuo 02基本重建了滑雪场的环境视觉效果,滑雪板会留下仿真的雪痕,雪浪飞舞的方向与大小也随着动作和轨迹的变化而变化。

Hailuo 02

相比之下,同类模型的雪道缺乏动态,在快速移动收尾时,雪橇板会在高速运动中,出现从双脚“脱落”的穿模现象。

可灵2.1大师版

如果你看完了以上两段雪场视频,或许会发现,在第二段视频中,镜头其实是没有保持一致性的。其整个5秒视频,总计是由一段3秒和一段2秒的视频组合起来的,画面从近景切换到全景,从而达到某种类似蒙太奇的视觉效果。

这其实是由于“跨帧连贯性”长期困扰视频生成模型的痛点,视频的连续画面每增加一秒,对于时序一致性的处理难度便会几何级地提升,更遑论保持长镜头、高强度的运动画面中的画面稳定。

这也是为何,绝大部分的大模型视频长度都被设计在10秒以内,同时在10秒的选项之外,还会给出能力更稳健、成本更友好的5秒选项。

但一些快速的运动轨迹,意味着模型必须在短时间内产生大量的动作与物体交互,这些高强度交互,相当于在有限时间内快速提高了保持视频时序一致性的难度。因此即便一些交互看起来并不复杂,但一旦频次超过阈值,模型也可能会摆烂。

例如在经典的抛多个小球的杂技场景里,Hailuo 02演示了很稳定的镜头表现。画面中六个小球的大小和颜色虽然都很相似,但观众依然可以分辨出每一个小球的运行轨迹,其中绝大部分的小球也在运动中保持了稳定的形态。

提示词:画面中人物快速抛接球体,彩带飘动落下,人物不停抛接球体——

Hailuo 02

但在测试的对标模型demo中,除了在一开始没有识别到初始图中的“杂耍”场景意图外,大量的球体和彩带交互,也出现了明显的“吞球”现象,不断有球体消失和生成,场面显得非常混乱。

可灵2.1大师版

如上,优秀的复杂运动镜头呈现,背后是一整套模型的体验优化——它除了有强大的物理渲染能力外,还需要模型能够熟悉世界的物理规律呈现方式,有很好的跨帧连贯性。

但相比于以上的技术优化,模型对画面和语言意图的理解,或许是让画面得以更加符合观众直觉的更核心的能力。

如果再回到骑马和抛接球两个场景,我们会发现,理解第一帧画面的意图是整个图生视频中最关键的一环:模型需要知道,马术前面有障碍物,其实是暗示让马越过障碍;而黑色领结+白色T恤的抛接球者,很可能是暗示杂技表演的场景。

除了画面理解外,大模型对动作的理解也需要更加符合人类的直觉。以一个很简单的测试prompt词,“运动幅度,中等”。中等是个模糊的概念,不同模型对“中等”的理解不尽相同,Hailuo 02 基本能做到脖子等大关节的移动,基本符合人对画面与prompt的直觉。

而在对标测试模型中,一些模型则出现了只有脸部活动的情况,显然与人类直觉并不匹配。

vidu

或者只摇动镜头,虽然画面实现了“中等”的“运动”,但人其实几乎不动。

luma

测试demo中一个比较极端的案例是,提示词:动画风格,画面中人物骑车穿越小镇狭窄街道,镜头稳定地侧拍她向前移动,背景快速拉动——

Hailuo 02很好地还原提示词与第一帧画面中的“导演意图”,给出了人物与生活环境的关系特写,甚至能通过一秒钟的人脸大侧写呈现出了日本动漫中常见的人物积极情绪。

Hailuo 02

在其他对标测试模型中,模型似乎错误地把前进对象理解成了“背景”,导致出现了诡异的自行车倒退的情况,而人物状态则完全隐匿在视频中。

可灵2.1大师版

02

效率总是AI与世界双向奔赴的前提

MiniMax创始人闫俊杰曾多次在接受采访中表示,多模态是AGI扩散的最佳途径,因为绝大部分人的输入和输出其实都是多模态的。与此同时,越来越多的从业者也开始将多模态作为大模型理解世界物理规则的方式。从这个角度而言,Hailuo 02的升级不止是视频能力的迭代,也是MiniMax基础模型智能对世界理解力的提升。

据了解,MiniMax 这次的 Hailuo 02 和 01 其实是两代截然不同的产品,其中最核心的变量是 Hailuo 02 几乎完全重建了模型的底层架构,推出了 Noise-aware Compute Redistribution(NCR)。

NCR将超长视频token根据噪声水平进行有规划的压缩,构成不同难度的“去噪目标”,并配合精心设计的噪声调度体系,用统一的模型进行联合学习。MiniMax这套新架构一方面大幅提高训练推理效率,另一方面也有效帮助模型扩展。

据官方披露,在同等的参数量级下,新架构使海螺的训练和推理效率提升了2.5倍

这意味着在同等成本的考量下,MiniMax 可以采用更大的参数来推高模型的表现力。最终,MiniMax 将 Hailuo 02 的总模型参数规模推高了三倍、数据量提升了四倍。而更大的模型参数又为推理提供了优化的空间。于是我们看到了一个细节能力更好、意图识别更强的视频模型。

此外在评分表现中,Hailuo02也拥有SOTA的“指令遵循”的能力表现:其在复杂指令 prompt 响应率能做到 85%,超越所有同行。这也解释了为什么在刚才几个 demo 案例对比中,无论是什么类型视频生成,Hailuo 02 能更好地还原和实现 prompt 的意图。

而能够实现SOTA的底层支持,便是像 NCR 等一系列效率工具所提供的智能冗余,让模型有能力去很好完善推理能力,从而更好去理解世界和生成世界。于是,我们才有了今天唯一能生成电影机复杂运动场景的“Hailuo 02”。

如果说,效率让模型能力上限更多元、更综合地提升,让 AI 模型更加贴近世界;那么效率所带来的更低价格,永远是让世界贴近 AI 模型的最有效、最屡试不爽的手段之一。

高效的模型能力,意味着相同的预算、同级别的视频能力,Hailuo 02可以支持更长更多的视频生成

根据 MiniMax 的官方测算,Hailuo 02 的成本在第一梯队的视频生成模型中保持了明显的优势。尤其是在 1080P 高清视频的输出中,Hailuo 02 比 Seedance 领先了整整一个身位,而相比同期发布的Google Veo3,海螺的价格约为后者的1/9

这其实与不同公司的技术审美分野有关:

有些公司追求的是智能上限,用极限的资源做极限的事情,而 MiniMax 从 DAY ONE 开始就是一家“奔赴世界”的公司,它的目标是“Intelligence with Everyone”,从一开始就注定了它的技术审美是面向所有人的,模型迭代自然也要为普通人和普通创作者服务。

与之对应的,海螺作为视频模型,它的技术初心也是“Accessible to Everyone”,即希望让用户都能用到上限最高、成本最低的模型。

接下来,海螺还将继续“卷”下去。根据官方表态,Hailuo 02 接下来将继续在以下几个方面更快速更新:

  • 生成速度提升

  • 更好的偏好对齐,抽卡率 / 稳定性提高

  • T2V / I2V 之外的高阶功能的实现

视频生成大模型没有完美的产品,但 Hailuo 02 已经是一个足够酷炫、也足够亲民的产品,而 AI 也正在不断接近它完成“复杂运动”、理解“复杂世界”的使命。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳一科技企业给员工的母校捐赠1亿元,受捐方有西交大、哈工大等10所高校,多所高校回应称属实,企业CEO称发展几乎百分百归功于员工

深圳一科技企业给员工的母校捐赠1亿元,受捐方有西交大、哈工大等10所高校,多所高校回应称属实,企业CEO称发展几乎百分百归功于员工

极目新闻
2026-01-28 19:39:26
中央重磅定调!央行罕见表态将促进物价回升,全面涨价潮要来了?

中央重磅定调!央行罕见表态将促进物价回升,全面涨价潮要来了?

墨兰史书
2026-01-28 19:50:03
外籍网红双面嘴脸曝光!靠夸中国签证爆火,转头外网骂国人还抹黑

外籍网红双面嘴脸曝光!靠夸中国签证爆火,转头外网骂国人还抹黑

离离言几许
2026-01-28 00:12:12
巴黎这一夜,人情冷暖、江湖地位,在65岁洪晃身上体现的淋漓尽致

巴黎这一夜,人情冷暖、江湖地位,在65岁洪晃身上体现的淋漓尽致

白面书誏
2026-01-28 15:09:50
特朗普重兵包围伊朗,普京通告全球:敢动就出手!中方也有所动作

特朗普重兵包围伊朗,普京通告全球:敢动就出手!中方也有所动作

军机Talk
2026-01-28 14:39:17
橙子再次被发现!医生发现:高血压患者常吃橙子,或出现3种变化

橙子再次被发现!医生发现:高血压患者常吃橙子,或出现3种变化

蜉蝣说
2026-01-28 11:07:41
赫尔松俄军主动后撤,美国会对川普强吞格陵兰发出弹劾通牒

赫尔松俄军主动后撤,美国会对川普强吞格陵兰发出弹劾通牒

史政先锋
2026-01-27 19:58:21
为什么飞机宁愿使用上百万颗铆钉,也不用焊接?

为什么飞机宁愿使用上百万颗铆钉,也不用焊接?

半解智士
2026-01-26 21:02:34
史上最心酸换防:8名国军无人区死守4年,见解放军一句话全连泪崩

史上最心酸换防:8名国军无人区死守4年,见解放军一句话全连泪崩

鉴史录
2026-01-28 06:54:16
小卡21分7篮板快船击败爵士3连胜,哈登16分10助攻马尔卡宁19分

小卡21分7篮板快船击败爵士3连胜,哈登16分10助攻马尔卡宁19分

湖人崛起
2026-01-28 13:30:34
四川女生半夜吃卫龙辣条中了一根金条,卫龙客服:确有此活动,金条价值3000元

四川女生半夜吃卫龙辣条中了一根金条,卫龙客服:确有此活动,金条价值3000元

极目新闻
2026-01-28 17:04:14
黄有龙没想到,才与自己官宣离婚2年,前妻赵薇就因李湘深陷泥潭

黄有龙没想到,才与自己官宣离婚2年,前妻赵薇就因李湘深陷泥潭

梦史
2026-01-28 18:51:41
刘知远:建立了最短命的正统王朝,也缔造了惊艳四座的历史传奇

刘知远:建立了最短命的正统王朝,也缔造了惊艳四座的历史传奇

掠影后有感
2026-01-28 10:35:07
手握北京户口却陷教育内卷?京户的真正价值藏在这些地方

手握北京户口却陷教育内卷?京户的真正价值藏在这些地方

朗威谈星座
2026-01-28 18:10:45
单价6.5万元的新房小区,出现1431条裂缝,预看房后的业主们不满:边裂边补,边补边裂!开发商回应

单价6.5万元的新房小区,出现1431条裂缝,预看房后的业主们不满:边裂边补,边补边裂!开发商回应

每日经济新闻
2026-01-28 21:07:05
中国闹了个乌龙,沙漠种麦本为保粮仓,谁料金黄麦浪竟成治沙神器

中国闹了个乌龙,沙漠种麦本为保粮仓,谁料金黄麦浪竟成治沙神器

来科点谱
2026-01-27 08:59:39
“想让孩子住亲戚家”引热议:你毫无边界的样子,真丑!

“想让孩子住亲戚家”引热议:你毫无边界的样子,真丑!

精读君
2026-01-27 10:10:03
伊朗发布击沉航母视频,一定要把林肯号劈成两半,特朗普碰上硬茬

伊朗发布击沉航母视频,一定要把林肯号劈成两半,特朗普碰上硬茬

墨兰史书
2026-01-28 04:00:03
婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

五元讲堂
2026-01-26 11:26:26
变态铁! 库里生涯4次三分球10中1只算开胃菜

变态铁! 库里生涯4次三分球10中1只算开胃菜

大眼瞄世界
2026-01-28 22:06:26
2026-01-28 23:12:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7058文章数 20727关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

水贝知名金店出现兑付困难 未兑付的金额已超过百亿元

头条要闻

水贝知名金店出现兑付困难 未兑付的金额已超过百亿元

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

本地
时尚
房产
艺术
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

想年前用3周“刷新”好状态?做第一点就够

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版