网易首页 > 网易号 > 正文 申请入驻

让神探夏洛克唱《因果》Rap,让金丝熊开口说话,实测腾讯混元最新AI数字人模型

0
分享至

作者 | Kino

编辑 | 张洁

想用AI整活的玩家又有“新玩具”了。

这两天,腾讯混元最新开源了一款语音驱动的数字人模型:HunyuanVideo-Avatar。

只要上传一张图片和一段音频,就能让图中的人物说话、唱歌,生成一段音画同步、表情自然的高保真视频。

当然,国内外与HunyuanVideo-Avatar有相似能力的产品已有不少,此前“AI新榜”也进行过一些测试。

不过,考虑到腾讯官方表示“HunyuanVideo-Avatar在主体一致性和音画同步上,已经达到业内领先水平,超越现有开源和闭源解决方案;在动态表现和肢体自然度方面,也和多个闭源方案打成平手”,并放出效果不错的demo:

于是我们还是决定上手试试。

过去,AI数字人技术主要集中在让嘴动起来,但嘴型同步难、表情死板、头和身体比较僵硬。由于可控性有限,使用场景自然也受限。

但HunyuanVideo-Avatar称能够支持半身乃至全身驱动,让数字人视频不再局限于面部特写,从而大大提升真实感和表现力。

上手情况如何,我们来看一些案例。

ps. 目前HunyuanVideo-Avatar的单主体能力已经开源,并在腾讯混元官网(https://hunyuan.tencent.com/)开放体验。

实测混元语音数字人模型:

开源有诚意,但效果不够惊艳

HunyuanVideo-Avatar支持多风格、多物种与多人场景,包括赛博朋克、2D动漫、中国水墨画,以及机器人、动物等。

你可以上传音频文件,也可以直接输入文本,由系统提供的14种音色进行朗读,支持语速调节。不过目前系统只能处理和生成14秒以内的音频,超时会自动裁剪。

生成过程相对较慢,从提交到出结果大约需要30分钟-1个小时,对心急想要即时反馈的玩家不那么友好。

我们实测下来,用一句话总结就是:图片和音频质量直接影响成片效果,建议尽量选择五官清晰的正脸照,语音也尽量吐字清晰,这样生成出来的效果大概率不会差。

先说一个省流版整体感受:HunyuanVideo-Avatar的主体一致性和表情自然度确实都还不错音画整体同步,但嘴型时有偏差,嘴部、牙齿等细节有瑕疵动作幅度偏小,除了头部运动和上本身的呼吸起伏外,很少有其他肢体动作,运动过程一些细节有时会出现畸变。

我们先上传了一张AI生成的马斯克婴儿照,搭配“开心小童”音色,朗读“祝大家端午节快乐!”。

再来来试试让宠物、卡通角色和虚拟形象说话和唱歌。

我用AI生成了一张金丝熊在埃菲尔铁塔下的自拍照,配上朗读文本:“人,鼠鼠我呀,已经到法国啦。”

嘴型匹配度还是挺高的,但在说话过程中,金丝熊标志性的两颗门牙出现了模糊和变形。

让“前顶流”Loopy唱现任顶流拉布布的“拉布布之歌”,效果意外地还不错,唱歌过程中,Loopy呆萌的神情和脸型得到了比较好的保持,摇头晃脑的动作也自然流畅。

乐高小人报道上海乐高乐园开园:

让神探夏洛克唱中文Rap《因果》:“老天保佑金山银山前路有,老天教唆别管江湖龙虎斗。”

表情自然,口型也基本准确和同步,但除了夏洛克上本身的呼吸起伏外,没有其他肢体动作,少了点表现力。

女孩抱吉他盘腿坐在草地上弹唱《夏天的风》:

《老友记》中Joey的表情包,搭配《The Office》的名场面,这个“演技”不说是AI生成的还以为是原片呢:

美剧《亢奋》 Cassie的绝美流泪剧照,配上一段歌曲音频,秒变音乐剧。生成的视频自然延续了原图的悲伤情绪,表情和眼神都很自然生动,嘴型也基本同步:

目前,HunyuanVideo-Avatar已经在多个腾讯系产品上线应用。在QQ音乐中,用户播放“AI力宏”(腾讯音乐与王力宏工作室联手打造的“全AI”歌手)歌曲时,可以看到虚拟人物实时同步演唱动作;酷狗音乐的绘本功能中也融入了AI虚拟人讲故事的能力;全民K歌则支持用户上传个人照片,自动生成专属唱歌MV。

据介绍,在底层技术架构方面,HunyuanVideo-Avatar基于腾讯混元视频大模型与MuseV技术融合开发,具备多模态理解能力,可自动识别图像中的人物环境信息及音频情感内容,生成高度匹配的视频片段。


还有哪些玩家在卷同一赛道?

实际上,和HunyuanVideo-Avatar能力相似的同类产品,已经在国内外相继上线了不少。

海外有HeyGen、D-ID、Synthesia、Hedra、MetaMoCha;国内也有阿里的EMO和Animate Anyone、字节的OmniHuman-1、快手的LivePortrait等等。

其中,字节OmniHuman-1采用的是音频+图片的驱动方式,而LivePortrait则是通过参考视频+图片的驱动方式来生成对口型视频。

这类AI驱动的数字人技术,除了在直播带货、电商营销与广告、影视动画、游戏等行业的落地应用外,也是社交媒体内容创作的热门趋势

阿里早前推出的Animate Anyone和Emote Portrait Alive(简称Emo)两款人物动作和表情生成框架,被整合进“全民舞台”App中,制造了一波一键让人物、宠物跳舞、唱歌的AI视频创作热潮。

MoCha是Meta今年4月发布的一款AI数字人生成模型,支持通过文本+语音输入,生成电影级别的数字人说话、唱歌视频,能控制脸部表情、嘴型动作、身体姿态,并支持多角色对话与互动,画面表现从近景到中远景都有。

跟之前只盯着脸的模型不同,MoCha能从各种角度渲染全身动作,包括嘴型同步、手势,还有多角色间的互动,系统会根据对话内容生成上半身的动作和手势,以配合台词

来源:https://congwei1230.github.io/MoCha/

不过需要说明的是,MoCha当前仍处于技术展示阶段,尚未开放公测。Meta只在官网放了一些超强demo和技术细节,效果虽惊艳,但离实际使用还有距离,所以并非是现成可用的更优解。

相比之下,像HunyuanVideo-Avatar这类开源可直接使用的工具,虽然可能在生成质量上与MoCha等闭源模型还有差距,但对于很多企业和对创作者来说或许更具现实意义。

ps. 假期就要来了,祝大家端午安康~!

「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。

欢迎分享、点赞、推荐

一起研究AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美日26年GDP预测出炉:美31万亿,日跌破4.5万亿,中国令人意外

中美日26年GDP预测出炉:美31万亿,日跌破4.5万亿,中国令人意外

古史青云啊
2026-01-08 12:33:21
她是毕福剑关门弟子,师傅落魄时不离不弃,如今四处旅游好不快活

她是毕福剑关门弟子,师傅落魄时不离不弃,如今四处旅游好不快活

林雁飞
2026-01-08 13:38:48
太拼了!杨瀚森与火箭内线肉搏缠斗,右臂出现两道大血印

太拼了!杨瀚森与火箭内线肉搏缠斗,右臂出现两道大血印

懂球帝
2026-01-08 14:04:19
中方发布2号公告,断高市光刻胶后路,日媒:当众问中国一个问题

中方发布2号公告,断高市光刻胶后路,日媒:当众问中国一个问题

知法而形
2026-01-07 16:52:08
西工大连夜宣布好消息!全世界都没想到,中国居然“弯道超车”

西工大连夜宣布好消息!全世界都没想到,中国居然“弯道超车”

墨印斋
2026-01-06 15:25:54
经纪人曝光37岁女星!与男子车上发生关系,脚踢司机椅背险酿车祸

经纪人曝光37岁女星!与男子车上发生关系,脚踢司机椅背险酿车祸

小欣欣聊体育
2026-01-06 18:26:10
留给大清的时间,真的不多了

留给大清的时间,真的不多了

我是历史其实挺有趣
2026-01-03 08:50:37
国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

回旋镖
2026-01-01 21:00:24
特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

我心纵横天地间
2026-01-07 16:57:21
美司令曾警告:若大陆武力收台,美军将摧毁中方火箭军和核武库!

美司令曾警告:若大陆武力收台,美军将摧毁中方火箭军和核武库!

壹知眠羊
2025-12-21 07:15:19
四川多地发布人事动态,涉县长、副县长任命

四川多地发布人事动态,涉县长、副县长任命

金台资讯
2026-01-08 15:30:10
我70岁才明白:孩子不尊重你,无需翻脸,用“乌鸦定律”就行

我70岁才明白:孩子不尊重你,无需翻脸,用“乌鸦定律”就行

兰姐说故事
2026-01-03 17:40:03
俄怒炸美国工厂,300吨石油当街横流,2026年普京开局就是王炸

俄怒炸美国工厂,300吨石油当街横流,2026年普京开局就是王炸

沧海旅行家
2026-01-07 17:12:49
河南邓州被举报的两在职教师均系冒用他人学籍,相关调查仍在继续

河南邓州被举报的两在职教师均系冒用他人学籍,相关调查仍在继续

现代快报
2026-01-07 14:45:04
中美局势可能发生大反转,最先超过美国的竟不是经济

中美局势可能发生大反转,最先超过美国的竟不是经济

华人星光
2026-01-07 13:32:47
2026年1月1日刚过,不少人去医院开药就发现规矩变了

2026年1月1日刚过,不少人去医院开药就发现规矩变了

百态人间
2026-01-06 05:00:03
渤海完全属于中国!因当年毛主席的一句话,如今没有一艘外船敢进

渤海完全属于中国!因当年毛主席的一句话,如今没有一艘外船敢进

抽象派大师
2025-12-11 17:05:41
比“缺芯”还严重?90%市场被美日垄断,中国连山寨版都造不出?

比“缺芯”还严重?90%市场被美日垄断,中国连山寨版都造不出?

比利
2025-12-25 20:31:38
纽约新市长就职第一夫人全网热搜,被誉为Z世代戴安娜王妃!

纽约新市长就职第一夫人全网热搜,被誉为Z世代戴安娜王妃!

ChicMyGeek
2026-01-07 19:10:06
元旦表演后,商家曝光多地学生退踩脏的演出服,校方回应

元旦表演后,商家曝光多地学生退踩脏的演出服,校方回应

极目新闻
2026-01-07 12:00:17
2026-01-08 17:04:49
头号AI玩家 incentive-icons
头号AI玩家
做内容从业者关心的AI研究
369文章数 18关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

9岁女孩课堂写试卷昏倒去世 家属不忍尸检称"她怕疼"

头条要闻

9岁女孩课堂写试卷昏倒去世 家属不忍尸检称"她怕疼"

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

游戏
家居
健康
公开课
军事航空

这款画风清奇的新游,竟成了外媒最期待的海盗游戏?

家居要闻

理性主义 冷调自由居所

这些新疗法,让化疗不再那么痛苦

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版