![]()
一张静态照片,一段音频,45分钟不间断的实时对话——没有后期渲染,没有逐帧生成,画面里的人会眨眼、会犹豫、会在你说话时微微点头。这就是LPM 1.0给出的数字:单图输入,流式输出,最长稳定运行45分钟。
研究团队把这个模型定位为"纯研究项目",却直接切中了当下AI交互最痒的点:ChatGPT们能说话了,但用户对着黑屏或文字气泡聊天,体验还停留在打电话的年代。LPM 1.0想做的,是让AI"显形"——不是预录好的动画,而是实时读取你的语音、生成对应的表情和口型,甚至在你说话的时候做出倾听反应。
这种技术路径的野心,是把对话从"听觉契约"变成"视觉契约"。
三模态同时进场:文本、音频、图像的实时三角
LPM 1.0的输入端同时处理三件事:你想让角色说什么(文本)、怎么说(音频)、长什么样(参考图像)。输出端则是一个持续流动的视频流,而非传统生成模型那种"写完全文再给你看"的批处理模式。
项目管理者曾爱玲(Ailing Zeng)在介绍材料里提到,模型能识别三种对话状态。听你说话时,它会生成点头、视线转移等反应性表情;轮到自己说,音频驱动口型和肢体语言;沉默间隙,则按文本指令生成自然的待机动作。这种状态机的切分,本质上是在模拟人类对话中的"轮次感"——我们知道什么时候该接话,什么时候该给对方留白。
技术报告里有个细节值得注意:LPM 1.0采用了"多粒度身份条件"(multi-granularity identity conditioning)。除了主图像,模型还会接收不同角度、不同表情的参考图。这意味着它不需要凭空发明牙齿结构、情绪对应的皱纹走向、或者侧脸轮廓——这些细节直接从参考库调取。对生成式模型来说,"不发明"往往比"发明"更难,因为幻觉(hallucination)是扩散模型的天性。
这种设计选择暴露了一个产品直觉:用户能接受AI生成的脸,但接受不了同一张脸在视频里突然换了一副牙齿。身份一致性比画质更重要。
实时流的代价:45分钟是上限,也是宣言
研究团队声称视频"最长可达45分钟且保持稳定"。这个数字在生成式视频领域相当激进——多数同类模型以秒或分钟为单位计量,且需要事后渲染。LPM 1.0的流式架构意味着它边生成边输出,对算力和内存管理的要求完全不同。
但稳定性是有代价的。技术报告坦承,生成视频仍存在可见瑕疵,量化分析也显示与真实视频有明显差距。研究团队没有放出权重、代码或公开演示,所有展示的人脸均为AI生成而非真人。这种谨慎姿态与近期其他开源视频模型形成对比,也暗示了技术背后的风险计算。
曾爱玲提到,团队"只有在充分的安全措施和责任使用框架到位后,才会考虑开放访问"。这句话的潜台词是:他们知道这东西能做什么,也清楚坏人能用它做什么。
离线模式的存在,说明研究团队已经看到了商业化的缝隙。
除了实时对话,LPM 1.0支持从现有音频生成离线视频,适用于播客或电影对白场景。这个分支功能的技术门槛更低——不需要处理实时交互的延迟压力,但保留了口型同步和表情生成的核心能力。对内容创作者来说,这意味着可以用一张角色设定图,批量生成多语言版本的动画对白。
视频输入控制(即让角色模仿真人表情)不在当前版本内,但框架预留了扩展空间。这种模块化设计思路,很像早期语音合成工具的路径:先解决"从文本到声音",再叠加"从声音到情绪",最后才是"从视频到视频"的完整映射。
风格无关性:一张照片通吃真人、动漫、游戏角色
LPM 1.0的一个技术卖点是跨风格迁移:同一张参考图,可以驱动写实人脸、动漫角色或3D游戏人物,无需额外训练。这种"风格无关"能力的背后是身份特征的解耦——模型提取的是面部结构的几何关系,而非像素级的纹理风格。
对游戏和虚拟偶像行业来说,这相当于把角色动画的制作流程从"逐帧K帧"压缩到"上传一张立绘"。传统管线里,一个可对话的NPC需要建模、绑定、动作捕捉、口型动画四个环节;LPM 1.0的演示暗示,未来可能只剩"设计角色外观"这一步。
但风格迁移也有边界。技术报告没有展示极端风格化的案例(比如抽象派绘画或高度变形的卡通形象),"无需额外训练"的承诺是否覆盖全谱系风格,仍需验证。
接入ChatGPT或豆包的演示,暴露了产品化的野心。
研究团队展示了LPM 1.0直接接入语音-音频AI模型的能力,点名提到ChatGPT和豆包(Doubao)。这种即插即用的设计,意味着它不是要重建一个对话系统,而是给现有的AI助手"加装视觉皮层"。对OpenAI或字节跳动来说,收购或自研类似技术的优先级,可能会因此重新排序。
值得玩味的是时间线。LPM 1.0的发布恰逢多模态大模型的密集竞争期:GPT-4o的实时语音交互、可灵的图生视频、快手的视频生成工具,都在争夺"AI能看多懂、做多快"的定义权。LPM 1.0选择单点突破——不做通用视频生成,专攻"会说话的脸",反而在细分场景建立了技术纵深。
研究项目的外壳,产业基础设施的内核
研究团队反复强调"纯研究项目"的定位,但技术报告的措辞和演示视频的制作水准,都指向学术机构与产业界的标准接口。不发布代码、不开放演示、所有人物均为AI生成——这三重防火墙,既是伦理审慎,也是技术保密。
风险清单写得很直白:实时深度伪造(deepfake)基础设施、欺诈、操纵、冒名顶替。这些不是假设性威胁,而是LPM 1.0的能力说明书。当生成延迟压缩到实时级别,检测伪造的时间窗口就被同步压缩了。现有的深度伪造检测工具大多针对离线视频设计,流式生成的对抗是一个尚未被充分研究的战场。
曾爱玲提到的"责任使用框架",目前还是空白。研究团队没有给出具体的技术标准或治理机制,只是设定了开放访问的前提条件。这种"先技术后伦理"的叙事,在AI领域已经引发过多次争议——能力一旦存在,封禁往往比扩散更难。
教育、游戏、客服、虚拟陪伴——四个被点名的场景,恰好对应四种不同的监管敏感度。
教育需要内容准确性和年龄适宜性,游戏涉及虚拟资产和玩家心理,客服牵扯企业责任和数据隐私,虚拟陪伴则触碰情感依赖和身份欺骗的灰色地带。LPM 1.0的技术报告没有区分这些场景的风险权重,但产品化路径的选择,将决定它首先进入哪个市场。
一个细节是:演示视频中的角色始终保持"倾听-说话-待机"的循环,没有展示更复杂的交互(比如打断、争论、情绪爆发)。这种克制可能是技术限制,也可能是演示策略——把最可控的部分拿出来,把边界情况留给闭门讨论。
研究团队承认视频质量与真实素材仍有差距,但没有给出具体的量化指标(如FID分数或用户主观评分)。这种模糊处理在学术发布中常见,但对评估商业化可行性的人来说,意味着关键信息缺失。
45分钟的稳定运行时间,是LPM 1.0目前最硬的数字。它足够覆盖一场标准长度的播客、一节在线课程、或者一次客服通话。但"稳定"的定义是什么?画面抖动、口型漂移、表情僵化的阈值在哪里?这些问题决定了它从"演示可用"到"生产可用"的距离。
当AI助手终于有了一张能实时反应的脸,你会更愿意相信它,还是更警惕它?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.