网易首页 > 网易号 > 正文 申请入驻

长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型

0
分享至




机器之心发布

机器之心编辑部

随着内容创作智能化需求的爆发,长时长、高质量数字人视频生成始终是行业痛点。近日,字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动人物视频生成模型 ——InfinityHuman,打破传统音频驱动技术在长视频场景中的局限性,开启 AI 数字人实用化新征程。

从静态图像到动态视频:

音频驱动的 "数字复活术"

只需提供一张人物图像与对应音频素材,InfinityHuman 就能自动生成连贯自然的高分辨率长视频:无论是 30 秒的产品快推、还是 3 分钟的演讲致辞,均能实现专业级呈现。技术团队演示中,仅凭一段音频即可让电影中的人物复活 " 为动态数字人,视频效果生动自然,肢体动作与语音节奏高度同步。

该图由 AI 生成

核心突破:攻克长视频两大技术难关

InfinityHuman 的关键优势在于创造性解决了长期动画中的两大核心难题:

  • 身份漂移难题:通过 "姿态引导优化" 技术,以稳定的骨骼姿态序列为锚点,结合初始图像的视觉特征,确保数字人在长时间视频中保持面部特征、光影风格的一致性,避免传统技术中常见的 "越生成越不像" 问题。
  • 细节失真难题:精准捕捉并还原手部交互、面部微表情、情感起伏等细节,让数字人的手势动作自然流畅,情绪表达细腻真实,突破同类技术中 "手部僵硬"" 表情呆板 " 的瓶颈。

商用场景全面落地,推动数字人技术实用化

从项目主页展示的案例来看,InfinityHuman 已实现多场景商用级应用:

  • 电商带货中,虚拟主播可手持商品进行沉浸式讲解;
  • 企业培训中,虚拟讲师能完成长时间课程录制;
  • 自媒体创作中,数字人主播可实现每日内容量产。

尤其值得关注的是,该模型对中文语音的支持效果尤为出色,在分钟级长视频中仍能保持身份稳定与手部动作自然,充分满足中文内容创作需求。

技术细节与更多展示

如需了解更多技术细节和效果演示,可访问:



  • 论文项目主页:https://infinityhuman.github.io/
  • 技术报告:https://arxiv.org/pdf/2508.20210

方法概述

如图所示,InfinityHuman 是一个统一框架,旨在通过单张参考图像、音频和可选文本提示生成长时间、全身的高分辨率说话视频,确保视觉一致性、精准唇同步和自然手部动作。该框架采用 “由粗到细” 策略:先通过低分辨率音视频生成模块得到含粗略动作的低分辨率视频,再由姿态引导细化模块结合低分辨率视频和参考图像生成高分辨率视频,同时引入手部校正策略提升手部动作的真实感与结构完整性。

低分辨率音视频生成模块基于 Flow Matching 和 DIT,融合参考图像、文本、音频等多模态信息,通过多模态条件注意力机制增强音频与视觉的对齐;姿态引导细化模块利用参考图像作为身份先验,结合低分辨率视频及其姿态序列,通过前缀潜变量参考策略和姿态引导确保长时生成中的时序连贯性与外观一致性;手部特定奖励反馈学习则针对手部易出现的畸变问题,利用预训练奖励模型进行偏好微调,提升手部结构的合理性与真实感。



实验结果

实验结果表明,InfinityHuman 在音频驱动全身说话视频生成任务中表现优异。在 EMTD 和 HDTF 数据集上的评估显示,该方法在视觉真实感(FID)和时序连贯性(FVD)指标上均优于 FantasyTalking、Hallo3 等主流基线方法,生成视频的整体质量显著提升。身份一致性方面,通过姿态引导细化模块有效维持了与参考图像的相似度,解决了长时生成中的外观漂移问题。针对手部生成这一难点,手部特定奖励反馈学习显著提升了手部关键点的准确性,减少了手指畸变、关节异常等常见问题,尤其在复杂手势场景中表现稳定。

消融实验进一步验证了核心模块的有效性:移除姿态引导细化模块会导致视觉质量下降、身份一致性减弱,视觉细节模糊且时序连贯性降低;取消手部奖励机制则使手部关键点精度下降,手部失真现象明显增多。

综合定量指标和定性分析,InfinityHuman 在高分辨率、长时长视频生成任务中实现了真实感、一致性与动作自然度的全面提升。



字节跳动 VIVID Avatar 团队:深耕音视频数字人技术,推动AI生成走向实用化

作为字节跳动旗下专注于音视频数字人生成的研发力量,商业化 GenAI 的 VIVID(Voice Integrated Video Immersive Digital)Avatar 团队始终站在技术前沿,致力于突破音频与视觉融合的技术边界。团队以 “让数字人更鲜活、更实用” 为目标,在语音合成与视频生成两大方向持续深耕,形成了从基础研究到商业化落地的完整技术链路。

语音合成方向,团队推出 MegaTTS3、Make-An-Audio 2 等模型,视频生成领域,从长视频模型 HumanDiT、NeurIPS 2024 收录的 MimicTalk 个性化 3D 建模,到 ICLR 2024 Spotlight 成果 Real3D-Portrait 单样本 3D 合成,再到 DiTalker 等音频驱动方案,构建了覆盖长视频、3D 肖像、实时驱动的完整技术矩阵。目前,团队已通过 GitHub 开源平台(https://github.com/VIVID-Avatar/)分享多项核心技术,并将最新研发的长时序音频驱动视频生成模型 InfinityHuman 部署至商业化即创平台,让前沿技术从实验室快速走向产业应用,为内容创作、教育培训、电商直播等领域提供低成本、高质量的数字人解决方案。

文中视频链接:https://mp.weixin.qq.com/s/reH9XXQokvCosbqaEOJHFQ

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
资本大鳄王冉51岁迎娶小17岁童瑶,承诺一生守护

资本大鳄王冉51岁迎娶小17岁童瑶,承诺一生守护

乐趣纪史
2026-01-21 20:29:21
戴安娜曝光秘闻:查尔斯新婚之夜让人疯狂,夫妻生活太折磨她

戴安娜曝光秘闻:查尔斯新婚之夜让人疯狂,夫妻生活太折磨她

小莜读史
2025-12-29 14:28:04
北京国安二队?重庆铜梁龙太精了,连续官宣国安弃将,保级稳了!

北京国安二队?重庆铜梁龙太精了,连续官宣国安弃将,保级稳了!

罗掌柜体育
2026-02-08 06:00:15
春节还剩10天,社会上却出现5个“反常现象”,今年过年大变样?

春节还剩10天,社会上却出现5个“反常现象”,今年过年大变样?

文雅笔墨
2026-02-07 20:44:24
丁克37年,丈夫出轨8次坚决不离婚,如今62岁的叶童,活的潇洒

丁克37年,丈夫出轨8次坚决不离婚,如今62岁的叶童,活的潇洒

手工制作阿歼
2026-02-08 10:25:42
慌了手脚,赖清德抛出所谓“四个不变”,岛内舆论喊话:睁眼看清世界

慌了手脚,赖清德抛出所谓“四个不变”,岛内舆论喊话:睁眼看清世界

环球网资讯
2026-02-07 06:44:11
杀疯了!曼城放大招留瓜帅,双巨签直戳曼联利物浦死穴,

杀疯了!曼城放大招留瓜帅,双巨签直戳曼联利物浦死穴,

奶盖熊本熊
2026-02-08 02:11:02
《生命树》直到张扬惨死、白椿离开,才知多杰为啥让巡山队卖羊皮

《生命树》直到张扬惨死、白椿离开,才知多杰为啥让巡山队卖羊皮

感影的世界
2026-02-07 21:56:51
海南省委:坚决拥护党中央决定

海南省委:坚决拥护党中央决定

观察者网
2026-02-07 10:35:07
去了南京才明白:我们维持的 “体面”,在南京人眼里根本不存在

去了南京才明白:我们维持的 “体面”,在南京人眼里根本不存在

娱乐帝皇丸
2026-02-08 09:45:00
突发!利雅得胜利准备清洗 C 罗!两大英超巨星成接班目标

突发!利雅得胜利准备清洗 C 罗!两大英超巨星成接班目标

奶盖熊本熊
2026-02-08 03:09:15
香港资深男主持身家10亿豪宅曝光,为17岁女儿挺身对抗恶势力

香港资深男主持身家10亿豪宅曝光,为17岁女儿挺身对抗恶势力

最美的巧合
2026-02-08 01:28:10
从明年开始,65岁以上老人的免费体检彻底变样。

从明年开始,65岁以上老人的免费体检彻底变样。

南权先生
2026-02-07 15:49:40
中央明确!退休新规实施,公务员及事业编制,还能够延迟退休吗?

中央明确!退休新规实施,公务员及事业编制,还能够延迟退休吗?

另子维爱读史
2026-02-07 20:06:47
李亚鹏找到医院新址,直播眼里泛泪,房东心态崩了,只求过个好年

李亚鹏找到医院新址,直播眼里泛泪,房东心态崩了,只求过个好年

子芫伴你成长
2026-01-25 08:10:03
冬奥会运动员年收入排名出炉:谷爱凌2300万美元居首,参赛奖金仅约10万美元

冬奥会运动员年收入排名出炉:谷爱凌2300万美元居首,参赛奖金仅约10万美元

红星新闻
2026-02-07 14:57:07
湖南姑娘的“一改二”卫生间火了:3㎡一分为二,切出坐便和蹲便

湖南姑娘的“一改二”卫生间火了:3㎡一分为二,切出坐便和蹲便

装修秀
2026-02-06 10:45:03
米兰冬奥开幕羽绒服爆火!意大利队巴西队太酷,中国队不再大红色

米兰冬奥开幕羽绒服爆火!意大利队巴西队太酷,中国队不再大红色

鱼语昱雨轩
2026-02-07 15:58:09
爆冷!NBA20 大巨星历史排名出炉 现役 4 人跻身前 15

爆冷!NBA20 大巨星历史排名出炉 现役 4 人跻身前 15

澜归序
2026-01-21 05:54:58
随着莱斯特城1-2,考文垂爆大冷门0-0,英冠最新积分榜出炉

随着莱斯特城1-2,考文垂爆大冷门0-0,英冠最新积分榜出炉

侧身凌空斩
2026-02-08 02:02:53
2026-02-08 11:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12265文章数 142564关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

媒体:特朗普发奥巴马视频 美国"欣赏"该视频的人不少

头条要闻

媒体:特朗普发奥巴马视频 美国"欣赏"该视频的人不少

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

家居
艺术
教育
旅游
手机

家居要闻

现代轻奢 温馨治愈系

艺术要闻

10秒内认全狂草的人只有1%,你敢挑战吗?

教育要闻

聚焦“四个关键” 扎实推进中小学校党组织领导的校长负责制落地生效

旅游要闻

上海:庙会打破次元壁 又潮又燃中国年

手机要闻

苹果iOS 26被吐槽的不只是动画,还有这些不统一的交互细节

无障碍浏览 进入关怀版