网易首页 > 网易号 > 正文 申请入驻

拳打可灵,脚踢 Veo 3,谁是物理世界的「懂王」?

0
分享至


价格最低只有 Veo 3 的 1/9。

作者丨郭海惟

编辑丨陈彩娴

一个优秀的多模态视频生成大模型永远是一套复杂的系统级工程,它包括但不限于:跨模态理解与对齐能力,时序一致性的控制能力,精细化的编辑和修正能力,以及高效计算和成本控制的能力等。这让它看起来总像是一个巨头的游戏:字节、快手,谷歌、OpenAI,他们手握着深如湖海的现金,宽似江河的流量动员能力。

不过在这条巨龙扎堆的赛道上,有三两个身影站出来做点新东西。MiniMax大概就是其中跑得最前,声音最响亮的团队之一。二十多天前,谷歌最新推出的Veo3,被许多产业观察者称作视频生成划时代的产品;而二十天后,在又一个万籁俱静的618里,MiniMax发布了新一代Hailuo 02,给视频生成大模型领域增添了一些实打实的“多快好省”。

Artificial Analysis视频模型评测榜显示,Hailuo 02视频模型甫一推出,其ELO得分大幅度超过谷歌 Veo 3 和快手的 Kling 2.0,成为了全球排名第二的视频生成模型。

01

让复杂运动成为现实

一些用户对Hailuo 02的评价是“更具电影感”,其中很重要的原因是Hailuo 02拥有了更好的复杂场景与运动呈现的能力,也被认为是目前全球唯一能够实现此类极限物理运动视频效果的模型。

复杂的运动镜头,可以带来很好的情节张力,让观众迅速被镜头抓住而进入场景,往往出现在电影制作中最核心的高潮情节中。但相关场景的生成,对于模型的时空一致性要求非常高。稍有不慎,模型很容易发生丢失细节、违反物理规律,甚至穿模的情况。

比如在“马跃起,落地奔跑”这么一段简单的prompt测试中,模型需要让马和人保持一致性的身体姿态,才可以给观众传达出真实感。这种一致性不是简单的姿势同步,而是要呈现符合物理规律的力的传递中的层次感。

Hailuo 02很好地处理了每一个细节的物理关系,不仅是人与马的姿态协同,包括马尾、马鬃毛和人的头发飞扬都很有真实感。

Hailuo 02

相比之下,对标的测试模型便出现“马浅跳,但人高飞”的情况,起跳过程也完全发生在了障碍物以外。

可灵2.1大师版

类似的场景还有“hellokitty打网球”,大量的模型在这个prompt测试词上翻了大车。

海螺基本能实现球拍与球之间的互动:

Hailuo 02

但有些对标测试模型则出现了“精灵球”的情况,有点像哈利波特的场景,球很有自己的想法:

vidu

同样的球与拍之间出现了神秘磁场:

luma

大变活“球”:

即梦:视频3.0 pro

而对世界物理规律具体而微的理解,只是复杂动作的难点之一。在一些快速移动的运动中,往往会面临背景的快速变化。相比于人的动作,背景视野的大范围移动意味着模型优秀的空间感知能力。

其中最典型的莫过于滑雪运动:镜头固定在快速变化的人体动作的同时,雪景可能随着人的拍摄角度和速度移动而不断迁移,场地本身则会随着雪橇板的移动而掀起雪浪、留下移动轨迹。

Hailuo 02基本重建了滑雪场的环境视觉效果,滑雪板会留下仿真的雪痕,雪浪飞舞的方向与大小也随着动作和轨迹的变化而变化。

Hailuo 02

相比之下,同类模型的雪道缺乏动态,在快速移动收尾时,雪橇板会在高速运动中,出现从双脚“脱落”的穿模现象。

可灵2.1大师版

如果你看完了以上两段雪场视频,或许会发现,在第二段视频中,镜头其实是没有保持一致性的。其整个5秒视频,总计是由一段3秒和一段2秒的视频组合起来的,画面从近景切换到全景,从而达到某种类似蒙太奇的视觉效果。

这其实是由于“跨帧连贯性”长期困扰视频生成模型的痛点,视频的连续画面每增加一秒,对于时序一致性的处理难度便会几何级地提升,更遑论保持长镜头、高强度的运动画面中的画面稳定。

这也是为何,绝大部分的大模型视频长度都被设计在10秒以内,同时在10秒的选项之外,还会给出能力更稳健、成本更友好的5秒选项。

但一些快速的运动轨迹,意味着模型必须在短时间内产生大量的动作与物体交互,这些高强度交互,相当于在有限时间内快速提高了保持视频时序一致性的难度。因此即便一些交互看起来并不复杂,但一旦频次超过阈值,模型也可能会摆烂。

例如在经典的抛多个小球的杂技场景里,Hailuo 02演示了很稳定的镜头表现。画面中六个小球的大小和颜色虽然都很相似,但观众依然可以分辨出每一个小球的运行轨迹,其中绝大部分的小球也在运动中保持了稳定的形态。

提示词:画面中人物快速抛接球体,彩带飘动落下,人物不停抛接球体——

Hailuo 02

但在测试的对标模型demo中,除了在一开始没有识别到初始图中的“杂耍”场景意图外,大量的球体和彩带交互,也出现了明显的“吞球”现象,不断有球体消失和生成,场面显得非常混乱。

可灵2.1大师版

如上,优秀的复杂运动镜头呈现,背后是一整套模型的体验优化——它除了有强大的物理渲染能力外,还需要模型能够熟悉世界的物理规律呈现方式,有很好的跨帧连贯性。

但相比于以上的技术优化,模型对画面和语言意图的理解,或许是让画面得以更加符合观众直觉的更核心的能力。

如果再回到骑马和抛接球两个场景,我们会发现,理解第一帧画面的意图是整个图生视频中最关键的一环:模型需要知道,马术前面有障碍物,其实是暗示让马越过障碍;而黑色领结+白色T恤的抛接球者,很可能是暗示杂技表演的场景。

除了画面理解外,大模型对动作的理解也需要更加符合人类的直觉。以一个很简单的测试prompt词,“运动幅度,中等”。中等是个模糊的概念,不同模型对“中等”的理解不尽相同,Hailuo 02 基本能做到脖子等大关节的移动,基本符合人对画面与prompt的直觉。

而在对标测试模型中,一些模型则出现了只有脸部活动的情况,显然与人类直觉并不匹配。

vidu

或者只摇动镜头,虽然画面实现了“中等”的“运动”,但人其实几乎不动。

luma

测试demo中一个比较极端的案例是,提示词:动画风格,画面中人物骑车穿越小镇狭窄街道,镜头稳定地侧拍她向前移动,背景快速拉动——

Hailuo 02很好地还原提示词与第一帧画面中的“导演意图”,给出了人物与生活环境的关系特写,甚至能通过一秒钟的人脸大侧写呈现出了日本动漫中常见的人物积极情绪。

Hailuo 02

在其他对标测试模型中,模型似乎错误地把前进对象理解成了“背景”,导致出现了诡异的自行车倒退的情况,而人物状态则完全隐匿在视频中。

可灵2.1大师版

02

效率总是AI与世界双向奔赴的前提

MiniMax创始人闫俊杰曾多次在接受采访中表示,多模态是AGI扩散的最佳途径,因为绝大部分人的输入和输出其实都是多模态的。与此同时,越来越多的从业者也开始将多模态作为大模型理解世界物理规则的方式。从这个角度而言,Hailuo 02的升级不止是视频能力的迭代,也是MiniMax基础模型智能对世界理解力的提升。

据了解,MiniMax 这次的 Hailuo 02 和 01 其实是两代截然不同的产品,其中最核心的变量是 Hailuo 02 几乎完全重建了模型的底层架构,推出了 Noise-aware Compute Redistribution(NCR)。

NCR将超长视频token根据噪声水平进行有规划的压缩,构成不同难度的“去噪目标”,并配合精心设计的噪声调度体系,用统一的模型进行联合学习。MiniMax这套新架构一方面大幅提高训练推理效率,另一方面也有效帮助模型扩展。

据官方披露,在同等的参数量级下,新架构使海螺的训练和推理效率提升了2.5倍

这意味着在同等成本的考量下,MiniMax 可以采用更大的参数来推高模型的表现力。最终,MiniMax 将 Hailuo 02 的总模型参数规模推高了三倍、数据量提升了四倍。而更大的模型参数又为推理提供了优化的空间。于是我们看到了一个细节能力更好、意图识别更强的视频模型。

此外在评分表现中,Hailuo02也拥有SOTA的“指令遵循”的能力表现:其在复杂指令 prompt 响应率能做到 85%,超越所有同行。这也解释了为什么在刚才几个 demo 案例对比中,无论是什么类型视频生成,Hailuo 02 能更好地还原和实现 prompt 的意图。

而能够实现SOTA的底层支持,便是像 NCR 等一系列效率工具所提供的智能冗余,让模型有能力去很好完善推理能力,从而更好去理解世界和生成世界。于是,我们才有了今天唯一能生成电影机复杂运动场景的“Hailuo 02”。

如果说,效率让模型能力上限更多元、更综合地提升,让 AI 模型更加贴近世界;那么效率所带来的更低价格,永远是让世界贴近 AI 模型的最有效、最屡试不爽的手段之一。

高效的模型能力,意味着相同的预算、同级别的视频能力,Hailuo 02可以支持更长更多的视频生成

根据 MiniMax 的官方测算,Hailuo 02 的成本在第一梯队的视频生成模型中保持了明显的优势。尤其是在 1080P 高清视频的输出中,Hailuo 02 比 Seedance 领先了整整一个身位,而相比同期发布的Google Veo3,海螺的价格约为后者的1/9

这其实与不同公司的技术审美分野有关:

有些公司追求的是智能上限,用极限的资源做极限的事情,而 MiniMax 从 DAY ONE 开始就是一家“奔赴世界”的公司,它的目标是“Intelligence with Everyone”,从一开始就注定了它的技术审美是面向所有人的,模型迭代自然也要为普通人和普通创作者服务。

与之对应的,海螺作为视频模型,它的技术初心也是“Accessible to Everyone”,即希望让用户都能用到上限最高、成本最低的模型。

接下来,海螺还将继续“卷”下去。根据官方表态,Hailuo 02 接下来将继续在以下几个方面更快速更新:

  • 生成速度提升

  • 更好的偏好对齐,抽卡率 / 稳定性提高

  • T2V / I2V 之外的高阶功能的实现

视频生成大模型没有完美的产品,但 Hailuo 02 已经是一个足够酷炫、也足够亲民的产品,而 AI 也正在不断接近它完成“复杂运动”、理解“复杂世界”的使命。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德国军事专家表示:现在不是美国不敢对中国动手

德国军事专家表示:现在不是美国不敢对中国动手

回京历史梦
2026-05-25 18:35:53
演都不演了,出征前一天香港女航天员遭遇恶心一幕,令人愤怒不已

演都不演了,出征前一天香港女航天员遭遇恶心一幕,令人愤怒不已

秋姐居
2026-05-25 19:47:13
泳渡赛女选手隐私部位被直播,“人太多”不是理由 |新京报快评

泳渡赛女选手隐私部位被直播,“人太多”不是理由 |新京报快评

新京报
2026-05-25 14:39:34
女子领证21天后输液休克,涉嫌非法行医的内勤人员处罚结果尚未作出,丈夫:她昏迷了几个月现已苏醒,有时哭有时笑

女子领证21天后输液休克,涉嫌非法行医的内勤人员处罚结果尚未作出,丈夫:她昏迷了几个月现已苏醒,有时哭有时笑

极目新闻
2026-05-25 19:14:59
韩国大学教授课上发表离谱言论:韩国女性十人中有八人靠性交易赚零花钱…

韩国大学教授课上发表离谱言论:韩国女性十人中有八人靠性交易赚零花钱…

奋斗在韩国
2026-05-25 13:14:27
霍尔木兹大消息!特朗普感谢中东各国,鲁比奥:美伊协议草案已获多国支持!

霍尔木兹大消息!特朗普感谢中东各国,鲁比奥:美伊协议草案已获多国支持!

每日经济新闻
2026-05-25 19:35:55
邢台一别墅小区被举报有大量违建,物业和房产中介表示“可以违建”,官方回应

邢台一别墅小区被举报有大量违建,物业和房产中介表示“可以违建”,官方回应

大象新闻
2026-05-25 09:22:07
在刚刚!CBA官宣第9位主帅下课!接替者是名帅,曾任中国男篮教练

在刚刚!CBA官宣第9位主帅下课!接替者是名帅,曾任中国男篮教练

老吴说体育
2026-05-25 19:07:36
iPhone 20原型机曝光:无边框+四微曲屏,外观史诗级革新,屏占比达到苹果最高水平

iPhone 20原型机曝光:无边框+四微曲屏,外观史诗级革新,屏占比达到苹果最高水平

鲁中晨报
2026-05-25 17:30:37
雷军称计划月底停用推荐码:使用我的推荐码的车主实在太多,我有点扛不住了;此前多次在微博附上自己的推荐码供车主锁单

雷军称计划月底停用推荐码:使用我的推荐码的车主实在太多,我有点扛不住了;此前多次在微博附上自己的推荐码供车主锁单

鲁中晨报
2026-05-25 21:22:20
干部档案严审全面落地!“三龄两历一身份”成硬标尺

干部档案严审全面落地!“三龄两历一身份”成硬标尺

坠入二次元的海洋
2026-05-25 17:35:24
多名院士呼吁停止食用,比肥肉还伤血管,转告父母,趁早撤下餐桌

多名院士呼吁停止食用,比肥肉还伤血管,转告父母,趁早撤下餐桌

健康之光
2026-05-25 18:32:03
台独大佬突然倒戈!向北京喊话:可以考虑统一,但有个条件!

台独大佬突然倒戈!向北京喊话:可以考虑统一,但有个条件!

菁菁子衿
2026-05-25 13:30:46
半导体大佬集体减持后,杭州豪宅被抢疯了!

半导体大佬集体减持后,杭州豪宅被抢疯了!

樱桃大房子
2026-05-25 21:52:46
不被欣赏!不被喜爱!不被尊重!有人反向开炮了!

不被欣赏!不被喜爱!不被尊重!有人反向开炮了!

柚子说球
2026-05-25 20:12:06
减重14%、肝脂降80%!国产减重新药上市即脱销,或终结司美神话?

减重14%、肝脂降80%!国产减重新药上市即脱销,或终结司美神话?

果壳
2026-05-25 17:58:20
2026年梅雨时间出炉!入梅出梅时间请收好,健脾祛湿,安稳过梅季

2026年梅雨时间出炉!入梅出梅时间请收好,健脾祛湿,安稳过梅季

三农雷哥
2026-05-25 17:20:03
央媒发文,高调官宣张艺谋新身份,全家移民美国改国籍真相大白!

央媒发文,高调官宣张艺谋新身份,全家移民美国改国籍真相大白!

叨唠
2026-05-25 03:20:02
周冬雨“拔萝卜”的瓜!

周冬雨“拔萝卜”的瓜!

八卦疯叔
2026-05-23 11:01:00
伊朗宣布:击落

伊朗宣布:击落

环球时报国际
2026-05-25 23:33:26
2026-05-26 04:59:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7302文章数 20754关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

时尚
本地
数码
旅游
亲子

Bella的戛纳之旅,次次“神级”表现

本地新闻

用云锦的方式,打开江苏南京

数码要闻

荣耀600系列发布:国补后2294.15元起 续航影像全升级

旅游要闻

美丽中国行|“无废细胞”激活绿色基因——三亚探索旅游城市可持续发展新路

亲子要闻

2026年最疯的儿童节礼物!见过这玩具的,都没捂住钱包

无障碍浏览 进入关怀版