开源数字人大盘点,有没有你在用的
这些项目里,有没有你已经在用了的?
数字人技术在 2024–2025 年迎来爆发,从“能动嘴”到“能演戏”,从“能对话”到“能直播”,开源生态也在快速成熟。
下面这份清单覆盖了当前 GitHub 上最具代表性的开源数字人项目,涵盖驱动模型、视频生成、音频合成、虚拟主播系统、端侧方案等多个方向。
![]()
01. Hallo3(复旦开源)
Hallo3 是复旦团队推出的新一代开源数字人生成框架,主打高保真、自然流畅的面部驱动效果。项目基于先进的生成式视觉模型,能够精准捕捉音频与表情之间的对应关系,实现逼真的口型、眼神与面部细节同步。相比传统方法,Hallo3 在表情细腻度、动作连贯性和视频质量上都有明显提升,非常适合科研人员、开发者以及内容创作者进行二次开发或模型训练。其代码结构清晰、可扩展性强,是当前国内学术界最具代表性的数字人开源项目之一。
地址: https://github.com/fudan-generative-vision/hallo3
STAR数:1.4k+
定位: 高质量数字人视频生成框架
亮点:
• 复旦团队出品,学术背景强
• 支持高保真面部驱动
• 适合科研、二次开发、模型训练
适用场景: 数字人研究、视频生成算法验证
2. LatentSync(字节跳动开源)
LatentSync 是字节跳动开源的高精度音频驱动数字人框架,专注解决“嘴型不准、节奏不稳”这一行业痛点。它通过潜空间同步技术,将音频特征与视频生成过程深度绑定,使得口型与语音的对应关系更加自然、准确。项目在短视频、虚拟主播、教育讲解等场景中表现出色,尤其适合对口型同步要求极高的应用。LatentSync 的模型推理速度快、效果稳定,开源后受到大量开发者关注,是当前数字人口型驱动领域的标杆级项目。
地址: https://github.com/bytedance/LatentSync
STAR数:5.4k+
定位: 高同步性数字人口型驱动
亮点:
• 字节跳动开源,技术成熟度高
• 主打“音频驱动 → 高精度口型同步”
• 适合短视频、虚拟主播、教育内容
适用场景: 需要“嘴型精准同步”的数字人场景
3. EchoMimic V2(阿里开源)
EchoMimic V2 是阿里蚂蚁团队推出的数字人表情与动作模仿框架,相比前代版本在自然度、细节还原和驱动稳定性上全面升级。它支持音频驱动、视频模仿等多种模式,能够生成更贴近真人的表情变化和头部动作。项目在“拟真人”数字人方向表现突出,适合用于主持、讲解、客服等需要高可信度的场景。其模型结构经过深度优化,推理效率更高,适合本地部署或云端服务,是阿里在数字人领域最具代表性的开源成果之一。
地址: https://github.com/antgroup/echomimic_v2
STAR数:4.5k+
定位: 高质量表情与动作模仿
亮点:
• EchoMimic 升级版,效果更自然
• 支持多模态驱动(音频/视频)
• 适合做“拟真人”数字人
适用场景: 数字人主持、讲解、客服
![]()
4. Sonic(腾讯 & 浙大开源)
地址: https://github.com/jixiaozhong/Sonic
STAR数:3.2k+
定位: 实时数字人驱动
亮点:
• 腾讯 + 浙大联合
• 强调实时性,延迟极低
• 适合直播、互动场景
适用场景: 虚拟主播、实时互动数字人
5. HunyuanVideo(腾讯开源)
HunyuanVideo 是腾讯混元大模型体系中的视频生成模型,支持文生视频、图生视频、动作生成等多种能力。虽然它不是专门的数字人框架,但在数字人背景生成、动作补全、场景扩展等方面有极高价值。模型能够生成高分辨率、长时序的视频内容,画面稳定性和细节表现都处于行业领先水平。对于希望打造“数字人 + 视频生成”一体化内容的开发者来说,HunyuanVideo 是一个非常强大的底层工具,适合创作短片、广告、虚拟场景等内容。
大视频生成模型的系统框架
地址: https://github.com/Tencent/HunyuanVideo
STAR数:11.7k+
定位: 文生视频 / 视频生成大模型
亮点:
• 腾讯混元体系的一部分
• 支持高质量视频生成
• 可用于数字人背景、动作生成
适用场景: 数字人视频增强、背景生成、动作生成
![]()
6. AIGCPanel
AIGCPanel 是一个简单易用的一站式AI数字人系统,支持视频合成、声音合成、声音克隆,简化本地模型管理、一键导入和使用AI模型。
地址: https://github.com/modstart-lib/aigcpanel
STAR数:4.5k+
定位: 一站式数字人系统
亮点:
• 集成视频合成、声音合成、声音克隆
• 本地模型管理非常方便
• 一键导入模型,适合非技术用户
适用场景: 企业/个人快速搭建数字人系统
![]()
7. AI-Vtuber(虚拟主播系统)
Luna AI 是一款结合了最先进技术的虚拟AI主播。它的核心是一系列高效的人工智能模型和平台,包括 ChatterBot、GPT、Claude、langchain、chatglm、text-generation-webui、讯飞星火、智谱AI、谷歌Bard、通义星尘、阿里云百炼(通义千问、百川、月之暗面、零一万物、MiniMax)、千帆大模型(文心一言)、Gemini、Kimi Chat、koboldcpp、FastGPT、Ollama、One-API、AnythingLLM、LLM_TPU、Dify、火山引擎(豆包)。这些模型既可以在本地运行,也可以通过云端服务提供支持。当然,为了让对话照进现实,还结合了多模态模型,包括 Gemini、glm-4v 的图像识别能力,获取电脑画面进行分析讲解。
地址: https://github.com/Ikaros-521/AI-Vtuber
STAR数:4.3k+
定位: 全功能虚拟 AI 主播
亮点:
• 支持 GPT、Claude、通义、文心、Gemini 等几十种模型
• 支持本地模型(Ollama、text-generation-webui)
• 支持多模态识别(如 Gemini、GLM-4V)
• 能读取电脑画面做讲解(非常强)
适用场景:
• 24 小时 AI 直播
• 游戏主播
• 教育讲解
• 虚拟客服
8. JoyGen
JoyGen 是一个多模态数字人生成框架,支持音频驱动、视频驱动等多种方式,主打自然、稳定的数字人生成效果。项目结构清晰,易于二次开发,适合科研团队和开发者进行自定义训练或扩展。JoyGen 在表情细节、头部动作和嘴型同步方面表现均衡,是一个“上手快、效果稳”的数字人方案。对于内容创作者来说,它能快速生成高质量数字人视频;对于开发者来说,它是一个优秀的研究与工程结合的开源项目。
地址: https://github.com/JOY-MM/JoyGen
STAR数:419
定位: 多模态数字人生成框架
亮点:
• 支持音频驱动、视频驱动
• 效果自然,适合内容创作
• 结构清晰,适合二次开发
适用场景: 内容创作、短视频数字人
9. Duix-Avatar
地址: https://github.com/duixcom/Duix-Avatar
STAR数:12.2k+
定位: 高质量数字人生成
亮点:
• Duix 系列主力项目
• 支持高保真面部驱动
• 效果接近商业级
适用场景: 商业数字人、品牌 IP、虚拟主持
![]()
10. Duix Mobile
Duix-Mobile 是 Duix 系列的移动端版本,主打“轻量化 + 端侧可运行”。它能够在手机等移动设备上生成数字人视频,非常适合 App 内嵌数字人助手、小程序数字人、移动端内容创作等场景。项目对模型进行了深度压缩与优化,在保证效果的同时显著降低算力需求。对于希望在移动端落地数字人功能的开发者来说,Duix-Mobile 是目前最成熟的开源方案之一。
地址: https://github.com/duixcom/Duix-Mobile
STAR数:7.8k+
定位: 端侧数字人(手机可跑)
亮点:
• 主打“轻量 + 端侧可用”
• 适合移动端应用、App 内嵌数字人
• 性能优化优秀
适用场景:
• 手机 App 数字人
• 小程序数字人
• 端侧 AI 助手
需求
推荐项目
高质量数字人视频
Hallo3、Duix-Avatar、EchoMimic V2
口型同步最强
LatentSync
实时互动/直播
Sonic、AI-Vtuber
文生视频/动作生成
HunyuanVideo
一站式数字人系统
AIGCPanel
移动端数字人
Duix-Mobile
多模态虚拟主播
AI-Vtuber
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.