以具身智能迈向数字生命：实时虚拟具身框架DLP3D全面开源|算法|动作|dlp|协调器|大模型

以具身智能迈向数字生命：实时虚拟具身框架DLP3D全面开源

2025-12-19 08:24:50　来源: 将门创投

北京举报

分享至

近年来，大型语言模型（LLM）的飞速发展显著提升了人工智能的文本对话能力，然而，如何将这种“语言智能”有效地具身化到一个拥有视觉、听觉、动作等物理形态的数字躯体中，并实现实时、富有表现力的交互，是当前具身智能领域的核心挑战。

新加坡南洋理工大学与商汤科技联合推出的数字生命计划2(Digital Life Project 2, DLP3D)，正是为解决这一挑战而设计。作为一个端到端的实时具身智能框架，DLP3D将LLM的心智与一个拥有表情、声音、全身动作、情绪与记忆的数字躯体相融合，实现了在浏览器内通过语音进行实时且富有情感和适应性的多模态交互。

项目主页： https://github.com/dlp3d-ai/dlp3d.ai 在线体验： https://dlp3d.ai/ 相关视频： https://www.bilibili.com/video/BV1nEkkBbECA

一、技术亮点

DLP3D的技术亮点在于对实时性和表现力的系统级优化，主要集中于以下三个方面：

1）混合多LLM协调器(Hybrid multi-LLM orchestration)。设计了一个作为角色“数字大脑”的协调器，包含用于生成对话的主LLM，且并行运行着轻量级副LLM，用于实时分析主LLM的输出，并负责：

情绪机制展示

情绪&关系维护：根据对话内容更新角色的情绪和与用户的关系状态；
动作关键词生成：触发具有语义丰富度和表现力的全身动作；
中断及行为控制：副LLM在检测到对话状态需要进行适应性调整时，可干预主LLM的输出，以确保角色在不同情境下的即时响应和行为一致性。

2）流式动画管线。传统的数字人流程往往是分段且串行的，DLP3D实现了交互链路的流式化，允许角色在一边思考的同时，并行生成语音、面部表情和全身动作。关键优化包括：

并行化处理：将角色的语音分割成子句，并与时间戳对齐，并行进行动作检索，实现平滑且语义准确的动作同步；
跨模态数据封装：通过定义一种跨模态数据序列化机制，实现了对核心数据帧的可变长编码，显著提升了动作、表情和音频数据流的传输效率；
自适应播放：采用流式传输数据与本地资源的混合渲染模式以实现低延迟播放，并集成了自适应缓冲和断流恢复等鲁棒性机制以应对网络波动。

语音对话展示

3）具身对话基础设施。DLP3D提供了一个模块化、灵活的后端基座，包含了统一的 ASR/LLM/TTS接口、记忆与关系机制等。这种设计使得开发者可以轻松替换框架内的任何核心模块，从而将其作为一个完整的实时AI具身基础设施，而非一个封闭的应用。

布料模拟展示二、整体架构

DLP3D由三大核心模块组成，协同工作以实现端到端实时具身对话：

1）Web应用：人人都能操控数字生命，零门槛使用，无需3D或AI背景。只需打开网页即可选择角色，并定制人格、记忆、音色等属性，开启麦克风就能与角色实时对话。在聊天过程中，声音、表情、动作以流式数据实时传输；为增强互动的沉浸感，支持视线追踪、布料模拟等机制；此外，为获得“低延迟、高响应”的角色动画，实现了自适应动作平滑、断流恢复、网络健康检测等算法，确保角色反应自然、稳定、顺滑。

2）协调器（Orchestrator）：AI多模态的总指挥，汇聚了自动语音识别（ASR）、大语言模型（LLM）、关系&记忆机制、情感分析、语音转动作（Speech2Motion）、语音驱动面部表情（Audio2Face）等关键算法模块，将整个链路从“理解用户→生成语音→面部表情→全身动作”全部串联为一次自然的实时互动。无论使用OpenAI、DeepSeek、商汤日日新、或是自研模型，Orchestrator都能无缝切换。

3）云端及后端服务：系统的基座，包括：统一的LLM/TTS/ASR接口、用户鉴权、角色素材与数据库管理等，使得开发者能轻松部署自己的自主角色系统。

DLP3D的架构总览三、你能用DLP3D做什么？

1）AI陪伴：虚拟伴侣、助理、导师、陪练……有表情、有动作，情绪更自然。

2）游戏/虚拟世界NPC：从“脚本”走向“智能”，NPC不再重复有限的台词，而是能够理解玩家意图，会根据记忆改变态度，并通过肢体动作表达情绪。

3）开发者的实验乐园：DLP3D是开源的，你可以自由替换LLM、ASR /TTS、动作生成模型，并自定义Web前端及角色系统。DLP3D是一套完整的实时AI具身基础设施，而不是一款应用。

ASR/TTS 设置

四、展望与开源邀请

DLP3D为虚拟具身AI提供了一个实用的系统，同时也为实时图形与多模态智能的融合提供了一个重要的蓝图，它将AI角色从纯粹的文本生成器，推进到可以进行情感互动、具有记忆、能展现身体语言的数字生命体，预示着从“语言智能”迈向“具身智能”的新纪元。

项目已开源，并将在 SIGGRAPH Asia 2025 Real-Time Live! 现场进行演示和互动。

独木不成林，我们诚挚邀请开发者与社区伙伴加入，一起将DLP3D打造成更易用、更强大的虚拟具身智能基础设施。

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信（michelle333_）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.