1张照片+45分钟实时视频：LPM 1.0把AI对话从语音卷到了表情|动画|流式|lpm

1张照片+45分钟实时视频：LPM 1.0把AI对话从语音卷到了表情

2026-04-14 08:14:49　来源: 闪存猎手

北京举报

分享至

一张静态照片，一段音频，45分钟不间断的实时对话——没有后期渲染，没有逐帧生成，画面里的人会眨眼、会犹豫、会在你说话时微微点头。这就是LPM 1.0给出的数字：单图输入，流式输出，最长稳定运行45分钟。

研究团队把这个模型定位为"纯研究项目"，却直接切中了当下AI交互最痒的点：ChatGPT们能说话了，但用户对着黑屏或文字气泡聊天，体验还停留在打电话的年代。LPM 1.0想做的，是让AI"显形"——不是预录好的动画，而是实时读取你的语音、生成对应的表情和口型，甚至在你说话的时候做出倾听反应。

这种技术路径的野心，是把对话从"听觉契约"变成"视觉契约"。

三模态同时进场：文本、音频、图像的实时三角

LPM 1.0的输入端同时处理三件事：你想让角色说什么（文本）、怎么说（音频）、长什么样（参考图像）。输出端则是一个持续流动的视频流，而非传统生成模型那种"写完全文再给你看"的批处理模式。

项目管理者曾爱玲（Ailing Zeng）在介绍材料里提到，模型能识别三种对话状态。听你说话时，它会生成点头、视线转移等反应性表情；轮到自己说，音频驱动口型和肢体语言；沉默间隙，则按文本指令生成自然的待机动作。这种状态机的切分，本质上是在模拟人类对话中的"轮次感"——我们知道什么时候该接话，什么时候该给对方留白。

技术报告里有个细节值得注意：LPM 1.0采用了"多粒度身份条件"（multi-granularity identity conditioning）。除了主图像，模型还会接收不同角度、不同表情的参考图。这意味着它不需要凭空发明牙齿结构、情绪对应的皱纹走向、或者侧脸轮廓——这些细节直接从参考库调取。对生成式模型来说，"不发明"往往比"发明"更难，因为幻觉（hallucination）是扩散模型的天性。

这种设计选择暴露了一个产品直觉：用户能接受AI生成的脸，但接受不了同一张脸在视频里突然换了一副牙齿。身份一致性比画质更重要。

实时流的代价：45分钟是上限，也是宣言

研究团队声称视频"最长可达45分钟且保持稳定"。这个数字在生成式视频领域相当激进——多数同类模型以秒或分钟为单位计量，且需要事后渲染。LPM 1.0的流式架构意味着它边生成边输出，对算力和内存管理的要求完全不同。

但稳定性是有代价的。技术报告坦承，生成视频仍存在可见瑕疵，量化分析也显示与真实视频有明显差距。研究团队没有放出权重、代码或公开演示，所有展示的人脸均为AI生成而非真人。这种谨慎姿态与近期其他开源视频模型形成对比，也暗示了技术背后的风险计算。

曾爱玲提到，团队"只有在充分的安全措施和责任使用框架到位后，才会考虑开放访问"。这句话的潜台词是：他们知道这东西能做什么，也清楚坏人能用它做什么。

离线模式的存在，说明研究团队已经看到了商业化的缝隙。

除了实时对话，LPM 1.0支持从现有音频生成离线视频，适用于播客或电影对白场景。这个分支功能的技术门槛更低——不需要处理实时交互的延迟压力，但保留了口型同步和表情生成的核心能力。对内容创作者来说，这意味着可以用一张角色设定图，批量生成多语言版本的动画对白。

视频输入控制（即让角色模仿真人表情）不在当前版本内，但框架预留了扩展空间。这种模块化设计思路，很像早期语音合成工具的路径：先解决"从文本到声音"，再叠加"从声音到情绪"，最后才是"从视频到视频"的完整映射。

风格无关性：一张照片通吃真人、动漫、游戏角色

LPM 1.0的一个技术卖点是跨风格迁移：同一张参考图，可以驱动写实人脸、动漫角色或3D游戏人物，无需额外训练。这种"风格无关"能力的背后是身份特征的解耦——模型提取的是面部结构的几何关系，而非像素级的纹理风格。

对游戏和虚拟偶像行业来说，这相当于把角色动画的制作流程从"逐帧K帧"压缩到"上传一张立绘"。传统管线里，一个可对话的NPC需要建模、绑定、动作捕捉、口型动画四个环节；LPM 1.0的演示暗示，未来可能只剩"设计角色外观"这一步。

但风格迁移也有边界。技术报告没有展示极端风格化的案例（比如抽象派绘画或高度变形的卡通形象），"无需额外训练"的承诺是否覆盖全谱系风格，仍需验证。

接入ChatGPT或豆包的演示，暴露了产品化的野心。

研究团队展示了LPM 1.0直接接入语音-音频AI模型的能力，点名提到ChatGPT和豆包（Doubao）。这种即插即用的设计，意味着它不是要重建一个对话系统，而是给现有的AI助手"加装视觉皮层"。对OpenAI或字节跳动来说，收购或自研类似技术的优先级，可能会因此重新排序。

值得玩味的是时间线。LPM 1.0的发布恰逢多模态大模型的密集竞争期：GPT-4o的实时语音交互、可灵的图生视频、快手的视频生成工具，都在争夺"AI能看多懂、做多快"的定义权。LPM 1.0选择单点突破——不做通用视频生成，专攻"会说话的脸"，反而在细分场景建立了技术纵深。

研究项目的外壳，产业基础设施的内核

研究团队反复强调"纯研究项目"的定位，但技术报告的措辞和演示视频的制作水准，都指向学术机构与产业界的标准接口。不发布代码、不开放演示、所有人物均为AI生成——这三重防火墙，既是伦理审慎，也是技术保密。

风险清单写得很直白：实时深度伪造（deepfake）基础设施、欺诈、操纵、冒名顶替。这些不是假设性威胁，而是LPM 1.0的能力说明书。当生成延迟压缩到实时级别，检测伪造的时间窗口就被同步压缩了。现有的深度伪造检测工具大多针对离线视频设计，流式生成的对抗是一个尚未被充分研究的战场。

曾爱玲提到的"责任使用框架"，目前还是空白。研究团队没有给出具体的技术标准或治理机制，只是设定了开放访问的前提条件。这种"先技术后伦理"的叙事，在AI领域已经引发过多次争议——能力一旦存在，封禁往往比扩散更难。

教育、游戏、客服、虚拟陪伴——四个被点名的场景，恰好对应四种不同的监管敏感度。

教育需要内容准确性和年龄适宜性，游戏涉及虚拟资产和玩家心理，客服牵扯企业责任和数据隐私，虚拟陪伴则触碰情感依赖和身份欺骗的灰色地带。LPM 1.0的技术报告没有区分这些场景的风险权重，但产品化路径的选择，将决定它首先进入哪个市场。

一个细节是：演示视频中的角色始终保持"倾听-说话-待机"的循环，没有展示更复杂的交互（比如打断、争论、情绪爆发）。这种克制可能是技术限制，也可能是演示策略——把最可控的部分拿出来，把边界情况留给闭门讨论。

研究团队承认视频质量与真实素材仍有差距，但没有给出具体的量化指标（如FID分数或用户主观评分）。这种模糊处理在学术发布中常见，但对评估商业化可行性的人来说，意味着关键信息缺失。

45分钟的稳定运行时间，是LPM 1.0目前最硬的数字。它足够覆盖一场标准长度的播客、一节在线课程、或者一次客服通话。但"稳定"的定义是什么？画面抖动、口型漂移、表情僵化的阈值在哪里？这些问题决定了它从"演示可用"到"生产可用"的距离。

当AI助手终于有了一张能实时反应的脸，你会更愿意相信它，还是更警惕它？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.