网易首页 > 网易号 > 正文 申请入驻

腾讯开源语音数字人模型,一张照片+一段音频,生成高保真视频

0
分享至

智东西AI前瞻5月28日消息,今日,腾讯混元重磅发布并开源了其最新的语音数字人模型——HunyuanVideo-Avatar。该模型由腾讯混元视频大模型(HunyuanVideo)及腾讯音乐天琴实验室MuseV技术联合研发,在AI视频生成领域实现了“一张照片、一段音频即可生成高质量唱歌或说话视频”的突破。

据官方介绍,HunyuanVideo-Avatar模型的核心亮点在于其高效的生成能力和出色的口型同步效果。它不仅能根据输入的音频精准驱动人物面部表情和唇形,还能保持视频中人物身份和形象的稳定性。


一、音乐情感与唇形同步,实现高保真数字人

HunyuanVideo-Avatar模型支持头肩、半身与全身多种景别,以及多风格、多物种与双人场景,为视频创作者提供了前所未有的创作自由。

用户只需上传人物图像与音频,模型即可自动理解图片与音频内容,例如人物所处的环境、音频所蕴含的情感等,并生成包含自然表情、唇形同步及全身动作的视频,让静态的人物图像“活”起来。

例如,上传一张女孩盘坐在森林的,身前是一团篝火的照片与一段歌曲,模型会理解到“一个女孩在森林空地上唱歌,她身前是一堆熊熊燃烧的篝火,火苗欢快跳跃,橘红色的火光映照在她身上,为画面增添了温暖的氛围”。


为了实现这一突破,HunyuanVideo-Avatar模型采用了多项创新技术,使其能够生成更自然、生动的数字人视频:

  • 角色图像注入模块:这一模块解决了在生成视频时,如何既保持人物形象的高度一致性,又能让人物动作流畅自然的问题。它通过一种新颖的方式将人物图像的特征注入到模型中,避免了传统方法中可能出现的“僵硬”或不连贯的动作,从而显著提升了视频的整体质量。
  • 音频情感模块(AEM):该模块能够识别音频中包含的情感信息,并将其精确地体现在数字人物的面部表情上。这意味着,如果音频表达的是“高兴”,数字人就能展现出相应的快乐表情,极大增强了视频的真实感和感染力。
  • 面部感知音频适配器(FAA):针对多人物对话场景,该模块能够“识别”并“锁定”音频所对应的具体人物面部区域。通过这种“面部掩码”技术,模型可以独立驱动不同人物的唇形和表情,确保多人对话时,每个角色都能根据自己的音频进行精准、自然的表达,避免了不同人物之间动作互相影响的问题。

HunyuanVideo-Avatar模型提供了便捷的操作流程,用户无需专业技能即可进行数字人视频的创作。

用户可在腾讯混元官网上体验该模型的单主体功能,当前主要支持对单个数字人进行视频生成,整个操作流程非常简单。

上传一张清晰的人物照片和一段不超过14秒的音频,稍作等待,一段数字人视频就生成了。

值得注意的是,对于本地部署,这类AI视频生成模型通常对显卡有一定要求,推荐使用具备较高显存的GPU。此外,本地部署没有视频时长限制,但生成时长与显卡性能呈线性关系,即更长的视频生成需要更强的显卡支持。

目前,在线网页版支持生成最长14秒的数字人视频。

二、多项指标表现出色,达到行业领先水平

综合研究团队在论文中公布的实验结果,腾讯混元HunyuanVideo-Avatar模型在多项关键指标上展现了卓越性能。

在主体一致性、音画同步方面,HunyuanVideo-Avatar效果超越开闭源方案,处在业内顶尖水平;在画面动态、肢体自然度方面,效果超越开源方案,和其他闭源方案处在同一水平。

▲来自技术报告(https://arxiv.org/pdf/2505.20156)

具体来看,在音画同步(Sync-C)和身份保持(IP)方面,HunyuanVideo-Avatar在CelebV-HQ和HDTF数据集上的音画同步指标分别为4.92和5.30,优于Sonic、EchoMimic、EchoMimic-V2和Hallo-3等现有方法。

在全身测试集上,该模型在音画同步方面达到5.56,也超过了Hallo3、Fantasy和字节跳动旗下的OmniHuman-1。

用户研究结果进一步表明,在身份保持(IP)和唇语同步(LS)方面,HunyuanVideo-Avatar均获得最高评分(IP 4.84,LS 4.65),超越了Hallo3、Fantasy和字节跳动旗下的OmniHuman-1。

在画面动态(MD)和肢体自然度(FBN)方面,根据消融研究(Ablation Study)的结果,HunyuanVideo-Avatar在画面动态上达到了4.127,在VQ(视频质量)上达到4.16,优于其他两种注入模块方式。

在用户研究中,HunyuanVideo-Avatar在肢体自然度方面得分3.88,虽然略低于字节跳动OmniHuman-1的4.18,但仍优于Hallo3和Fantasy。

这表明该模型在保持人物动态自然度方面,已达到与领先闭源方案相近的水平,并超越了其他开源方案。

相较于传统工具仅支持头部驱动,HunyuanVideo-Avatar模型还支持半身或全身场景,显著提升了视频的真实感和表现力。

此外,该模型还支持多风格、多物种与多人场景,能够生成包括赛博朋克、2D动漫、中国水墨画,以及机器人、动物等多种风格的视频,拓展了数字人技术的应用范围。

三、赋能垂直应用,丰富内容生态

HunyuanVideo-Avatar模型适用于短视频创作、电商、广告等多种应用场景。

它可以生成人物在不同场景下的说话、对话、表演等片段,快速制作产品介绍视频或多人互动广告,有效降低制作成本,提高生产效率。

目前,HunyuanVideo-Avatar技术已在腾讯音乐的听歌陪伴、长音频播客以及唱歌MV等多个场景中得到应用:

  • 在QQ音乐中,用户在收听“AI力宏”歌曲时,播放器上会实时同步显示生动可爱的AI力宏形象。
  • 在酷狗音乐的长音频绘本功能中,AI生成的虚拟人形象将“开口说话”,为用户讲述童话故事。
  • 在全民K歌中,用户可以通过上传自己的照片,一键生成专属的唱歌MV。
结语:数字人技术浪潮,未来已来

HunyuanVideo-Avatar模型的发布与开源,为数字人技术领域注入了新的活力。它通过简化数字人视频内容的生成流程,展现了拓展数字内容创作边界的潜力。

随着此类技术的不断发展和应用,数字人有望在未来的社会生产和日常生活中扮演日益重要的角色,为多个领域带来新的可能性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

苏联“人猿杂交”实验:5名女孩与11只猩猩参与,结局如何?

谈史论天地
2026-02-28 13:35:18
27国晚宴谈崩,冯德莱恩掀桌失败,西班牙拒绝反华,对华定位很高

27国晚宴谈崩,冯德莱恩掀桌失败,西班牙拒绝反华,对华定位很高

铭记历史呀
2026-06-20 20:33:56
新加坡网友发帖:“我接受不了自己以游客身份进入中国”。

新加坡网友发帖:“我接受不了自己以游客身份进入中国”。

荆楚寰宇文枢
2026-04-11 17:21:54
网友亲测西地那非新剂型:含片几秒融化,效果惊人

网友亲测西地那非新剂型:含片几秒融化,效果惊人

赴一场山海啊
2026-06-18 00:58:54
尼克斯夺冠游行搞坏招牌,这家公司连夜换Logo:被砸掉的字母成最佳广告

尼克斯夺冠游行搞坏招牌,这家公司连夜换Logo:被砸掉的字母成最佳广告

日常碎碎念啊
2026-06-21 00:46:27
十人巴拉圭1-0送土耳其出局!65秒闪击 世界杯捂嘴染红首人诞生

十人巴拉圭1-0送土耳其出局!65秒闪击 世界杯捂嘴染红首人诞生

我爱英超
2026-06-20 13:08:43
车企集体“去宁化”:宁德时代王座松动,四大底层逻辑拆解危机

车企集体“去宁化”:宁德时代王座松动,四大底层逻辑拆解危机

音乐时光的娱乐
2026-06-21 07:37:47
世界杯首支“豪强”被淘汰!小组赛愣是一球没进,排名直降10位

世界杯首支“豪强”被淘汰!小组赛愣是一球没进,排名直降10位

柳先说
2026-06-20 22:47:32
突发!中澳大战首发名单出炉!杨瀚森缺席,郭士强调整内线五虎

突发!中澳大战首发名单出炉!杨瀚森缺席,郭士强调整内线五虎

舟望停云
2026-06-21 13:04:02
热刺5200万镑新援带伤亮相:世界杯拼到眼部淤青,视力受损

热刺5200万镑新援带伤亮相:世界杯拼到眼部淤青,视力受损

星耀国际足坛
2026-06-20 20:15:22
磷化铟/碳化硅/氮化镓材料端供需紧张,12家核心标的全解析

磷化铟/碳化硅/氮化镓材料端供需紧张,12家核心标的全解析

爱看剧的阿峰
2026-06-21 11:43:22
L3/L4级新规:不接受纯视觉方案,失效150毫秒必降级,特斯拉咋办

L3/L4级新规:不接受纯视觉方案,失效150毫秒必降级,特斯拉咋办

知嘹汽车
2026-06-20 18:37:05
2026年反腐重点,没有烟草、消防、医药、工程建设了,有三个变化

2026年反腐重点,没有烟草、消防、医药、工程建设了,有三个变化

职场资深秘书
2026-06-21 13:49:51
这是黎婉华和陈婉珍、梁安琪的真实模样,谁颜值更胜一筹?

这是黎婉华和陈婉珍、梁安琪的真实模样,谁颜值更胜一筹?

春天来了啊
2026-06-20 10:32:57
乌克兰发布受损莫斯科炼油厂的卫星图像-没盖

乌克兰发布受损莫斯科炼油厂的卫星图像-没盖

桂系007
2026-06-20 23:59:57
97年我娶了离过婚的女教师,洞房夜她把灯关了:我有件事要告诉你

97年我娶了离过婚的女教师,洞房夜她把灯关了:我有件事要告诉你

千秋文化
2026-06-18 20:19:03
多地机关处长统一改为科长,是集体降级?官方给出明确答案

多地机关处长统一改为科长,是集体降级?官方给出明确答案

起喜电影
2026-06-21 12:34:45
世界杯日本4-0突尼斯冲小组第一,豪门被淘汰

世界杯日本4-0突尼斯冲小组第一,豪门被淘汰

宗介说体育
2026-06-21 14:10:43
16岁少年见一对大雁殉情而死,落笔成文,写下无人超越的千古名篇

16岁少年见一对大雁殉情而死,落笔成文,写下无人超越的千古名篇

云居历史
2026-06-19 15:29:32
《莫离》:要不是周咸坤,秦筝到死都不知,郭妗为何如此心狠手辣

《莫离》:要不是周咸坤,秦筝到死都不知,郭妗为何如此心狠手辣

张鼋卤说体育
2026-06-21 12:55:01
2026-06-21 15:55:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12084文章数 117111关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

无愧"亚洲之光" 日本队4比0大胜终结亚洲球队六连败

头条要闻

无愧"亚洲之光" 日本队4比0大胜终结亚洲球队六连败

体育要闻

沙特主帅:亚马尔是梅西在巴萨的接班人

娱乐要闻

李乃文带妻子法国购物,2人5个孩子!

财经要闻

蔚来的“暗战”时刻

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

数码
时尚
家居
手机
公开课

数码要闻

联想2026款ThinkPad P16s笔记本上架,15799元起

邮报盘点哈兰德奢侈品收藏:33万镑爱马仕包、28万豪华腕表

家居要闻

绿意盎然 自然之境

手机要闻

该做出选择了!iPhone18 Pro 起售价或将涨到1399美元,还等吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版