字节提出了X-Streamer,一个端到端的多模态人类世界建模框架,能够从单张人像构建出可无限流式生成的数字人。它在文本、语音和视频等模态中生成智能的、实时的、多轮响应,实现了音素级口型同步,并在长时间的交互中保持对话记忆和视觉一致性,为统一建模交互式数字人铺平了道路。 X-Streamer 可在两张 A100 GPU 上实时运行,支持数小时的稳定视频聊天体验。(链接在文章底部)
X-Streamer 的核心是“思考者–行动者”双 Transformer 架构:思考者模块负责感知和推理流式输入,行动者模块则将隐状态转化为同步的多模态流。思考者基于预训练的大型语言–语音模型,行动者采用分块自回归扩散模型并结合跨注意力机制,生成时间对齐的文本、语音与视频响应。通过分块间与分块内注意力机制、时间对齐的位置嵌入、分块扩散强制和全局身份引用,框架实现了实时性、长程一致性和多模态对齐。
01 技术原理
X-Streamer 概述:给定一张人像 (Is),X-Streamer 通过双轨自回归框架实现实时视听交互。一个冻结的思考者 Transformer(由预训练的语言–语音模型实例化)负责理解用户的流式文本和语音输入,而行动者则基于思考者的隐状态生成同步交织的文本、语音和视频流。
![]()
视频由分块自回归扩散生成,并通过扩散强制(diffusion forcing)进行稳定;多模态对齐则通过跨注意力机制实现。部署在两张 A100 GPU 上时,X-Streamer 能以25 fps的速率进行流式交互,支持连贯的、长时间的多模态交互。
自回归视频扩散:视频 Transformer 以分块的方式逐段生成视频,在每个分块内应用双向空间自注意力,并通过跨注意力机制关联思考者的文本–音频隐状态,同时在分块之间施加因果时间注意力。
整个过程中始终保持对参考图像的全局注意力。为稳定长时间生成,采用分块扩散强制(chunk-wise diffusion forcing),即在不同分块中分配独立的噪声水平。
长对话上下文与智能交互:X-Streamer 可处理多达8K token的对话上下文,在多轮交互中支持高级推理与长期记忆。
X-Streamer 可以无缝地推广到不同的场景,而无需重新训练。
视觉感知扩展:视觉感知可以方便地集成到现有的思考者–行动者架构中。
X-Streamer 虽然成功将语言–语音模型扩展到视频模态,但因仅在真人说话人像视频上训练,其泛化能力仍受限。由于框架与骨干模型解耦,它可随未来语言–语音模型的进步获得更丰富的声音、情感与表现力;同时,结合少步蒸馏与先进上下文管理,有望实现高分辨率、实时生成及超长视听上下文,这些方向将成为后续的重要研究重点。
https://arxiv.org/pdf/2509.21574欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.