AI视频生成赛道最近卷得离谱。Seedance 2.0把15秒短视频做到电影级画质,全行业都在拼谁的画面更逼真。
但有个"灵魂大法师"偏不走这条路。
这称号听着中二,却是米哈游前董事长蔡浩宇的领英头衔。卸任后他溜去新加坡,开了家叫Anuttacon的AGI公司。如今LPM 1.0发布,AI视频直接从"离线剪辑"跨进了"实时生命体"——demo里那个虚拟角色,一口气聊了45分钟没崩。
这相当于什么?别人还在当摄影师,他已经开始养数字演员了。
行业有个老毛病叫"表演三难困境":画面要像、响应要快、时间长了不能崩——三者只能取其二。即梦、可灵、Sora们做短视频无敌,一旦拉长到实时交互,角色脸歪了、身份换了、动作抽搐了,全是家常便饭。
病根在"自回归漂移"。时间越长,误差像滚雪球,最后彻底翻车。
LPM的解法是把170亿参数的扩散模型,用"分布匹配蒸馏"压成"主干-精炼器"结构。主干管整体轨迹,精炼器抠表情细节。内存占用锁死,身份一致性却能无限续杯。
更狠的是全双工音视频对话。两路音频同时跑:一路AI自己说的话驱动口型,一路用户的话驱动实时反应。你停顿,它点头;你挑眉,它跟上。终于不是复读机了。
画面确实不如Seedance 2.0精致,但"能演"和"好看"本来就是两回事。
字节靠TikTok的海量短视频喂出Seedance,蔡浩宇手里有什么?米哈游41%的股权背后,是十几年游戏工业攒下的"人类表演学"家底。
LPM要的不止一张照片,还要全局外观、多视角、8类预定义表情。78种精细情感、5000个动作描述符,全是结构化数据。350万次倾听行为标注,教AI学会人类对话里的呼吸、犹豫和停顿。
这是"工业审美"对"流量数据"的路线分野。Seedance 2.0画面栩栩如生,LPM 1.0的角色却有电影级的"去AI味"质感。
但蔡浩宇没打算开源,也不卖API。LPM本质上是一套视觉引擎,不是单纯模型。在虚拟角色这个细分赛道,稳定+实时+长效的交互能力,约等于虚拟世界的门票。
门票贵得吓人。实时生成720P视频,单GPU 0.35秒处理1秒画面,大规模并发就是烧钱黑洞。试水作《星之低语》33.99元买断制,显然盖不住算力成本。
B端场景倒是现成的。虚拟主播、AI导师、客服,哪个不需要7×24小时稳定在线?省掉动捕棚和真人工资,账本立刻好看很多。UGC平台更诱人——用户给张照片说句话,AI包办全部表演,创作门槛归零。
LPM没打算在画质上硬刚Seedance。行业追像素的时候,它追一致性。
这大概是游戏人对"体验"的执念:角色崩坏一次,沉浸感就永远消失。而LPM的实时呼吸感和微表情,正在把恐怖谷效应往反方向推。
Anuttacon官网的demo结尾,那个虚拟角色说完最后一句话,眼睛眨了一下——不是程序预设的循环动画,是听完你发言后的自然反应。这个细节,比45分钟的时长数字更说明问题。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.