网易首页 > 网易号 > 正文 申请入驻

美团开源数字人王炸!十几秒长视频人脸竟不变形,8步极速榨出高清大片

0
分享至

给你一张照片和一段录音,就能让照片里的人开口说话,嘴型还对得严丝合缝,听起来是不是挺魔幻的?

这种数字人视频生成技术最近两年火得一塌糊涂,但真正开源好用还能直接上商用级别的,说实话真的不多。

今天给大家介绍一个非常能打的开源,来自美团AI团队的LongCat Video Avatar 1.5。


开源地址:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5

咱们先直接看下案例展示,直接让一位小哥哥唱杰克逊的名曲《We Are the World》。

一张图片,一段歌词,就能唱宋冬野的《安和桥北》

多人对话模式也非常惊艳。

让小动物说话也没问题,嘴型对的都挺完美的。

就连huggingface的产品经理Victor都介绍美团的这个新开源,并认为可能是目前数字人领域的SOTA模型。


下面咱就唠唠LongCat 1.5的主要核心功能。最基础的玩法就是单人口型同步生成。

你提供一段音频,再配上文字描述或者参考图片,模型就能生成一段嘴型精准、动作连贯的说话视频。

以前很多开源方案生成的视频看两秒还行,看久了就会发现人物在微微抽搐或者嘴唇跟声音总是差半拍,LongCat 1.5把这个问题解决得相当漂亮。

秘密武器就是把音频编码器从原来比较弱的Wav2Vec2换成了OpenAI开源的Whisper。

这一换直接让唇形同步的自然度上了一个台阶,口型不再是机械地开合,而是真的在跟着音素走。

说到这里自然就引出了第二个亮点,长时间视频的稳定性。很多数字人模型生成个三五秒还凑合,时间一长各种毛病就来了,人脸变形啦动作重复啦背景乱闪啦。

LongCat 1.5专门针对这个问题做了优化,通过分段生成加参考帧约束的机制,即使生成十几秒甚至更长的视频,人物的身份特征和画面连贯性依然能保持得很好。

然后是我个人觉得最惊艳的功能,多人对话场景生成。

给两个角色的音频和图片,模型能自动生成两个人同框说话的视频,谁说谁动,嘴型各对各的,简直是做对话类内容的利器。

之前见过的大多数方案只能搞定单人场景,两个人的交互处理起来复杂度直接翻倍,美团团队能把这块做进开源框架真的很大方。

另外一个很讨喜的特性是对多种风格的泛化能力。不只是真人,二次元动漫角色甚至猫猫狗狗这样的动物形象,都能驱动着开口说话。你想让自家宠物照片念一段祝福语,技术上完全可行,而且效果还不赖。

这背后其实是模型在训练时覆盖了非常多元的数据分布,才有了这么强的泛化表现。


还要重点夸一夸LongCat 1.5的推理效率,通过基于DMD2的步数蒸馏技术,模型把推理步数压缩到了8步,再配合8比特量化加载,在保证画质基本不降的前提下,显存占用和生成速度都优化了一大截。

以前跑一个数字人视频动辄几十上百步推理,现在八步就能出图,成本直接砍掉一大半,这对实际部署来说太关键了。

其实做数字人只是这个模型的基础玩法,咱们还能用这个做续写视频。

例如,就是你先给一段音频生成开头几秒的视频,然后模型可以基于已有内容继续往后生成,这样就能拼出很长的完整视频。

再就是结合超分辨率选项直接输出720p的高清结果,省去后处理的麻烦。

音频方面支持双音轨模式,合并和拼接两种方式都行,做双人对话的时候可以分别给两个角色录好音然后自动合成挺方便的。

如果你是做短视频的创作者想批量生产口播内容,开发者想在自己的产品里集成数字人能力,或者纯粹对这项技术好奇想自己动手玩一玩,这个值得试试。

想系统掌握AI核心技能、获取行业认可资质?

CAIE注册人工智能工程师认证

助你拓宽职业赛道,成为AI领域持证实力派

企业、高校及渠道合作



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
因不满蒋介石作为,入黄埔2个月惨遭开除,后成蒋介石一生之敌

因不满蒋介石作为,入黄埔2个月惨遭开除,后成蒋介石一生之敌

大运河时空
2026-05-27 18:40:03
离大谱!山东潍坊,一男子出海回家,发现家门打不开被妻子反锁

离大谱!山东潍坊,一男子出海回家,发现家门打不开被妻子反锁

阿振观点
2026-05-27 21:03:44
日本16年前就已经想到了:中国统一台湾后,日本该怎么办?

日本16年前就已经想到了:中国统一台湾后,日本该怎么办?

混沌录
2026-05-26 21:20:49
Mac mini M5重磅曝光 AI算力暴涨3.5倍堪比小型服务器

Mac mini M5重磅曝光 AI算力暴涨3.5倍堪比小型服务器

辉哥说动漫
2026-05-27 00:19:33
全球接到消息,李在明迈出危险一步,中方已介入,希望韩慎重处理

全球接到消息,李在明迈出危险一步,中方已介入,希望韩慎重处理

小莜读史
2026-05-27 19:48:17
重磅!米其林首推湖南省级餐厅榜单,长沙、衡阳、益阳三城入选

重磅!米其林首推湖南省级餐厅榜单,长沙、衡阳、益阳三城入选

潇湘晨报
2026-05-27 17:19:18
武汉32周孕妇失联13天最新消息,娘家父母等待消息,丈夫被拘不实

武汉32周孕妇失联13天最新消息,娘家父母等待消息,丈夫被拘不实

九方鱼论
2026-05-27 21:08:04
缅北女魔头维嘉琳!最残酷的手段是割“小乳猪”,受害者多为男性

缅北女魔头维嘉琳!最残酷的手段是割“小乳猪”,受害者多为男性

马尔科故事会
2024-09-04 09:39:57
瓦尔迪归来!莱斯特传奇39岁目标重返英超

瓦尔迪归来!莱斯特传奇39岁目标重返英超

绿茵情报局
2026-05-27 05:17:50
小米米家首款手持风扇正式发布:169元起,5米送风+40小时续航

小米米家首款手持风扇正式发布:169元起,5米送风+40小时续航

泡泡网
2026-05-27 11:25:19
“你管这面相叫聪慧明理?”宝妈写小作文偏袒小儿子,被网友群嘲

“你管这面相叫聪慧明理?”宝妈写小作文偏袒小儿子,被网友群嘲

妍妍教育日记
2026-05-09 14:41:48
我和老伴去新疆昭苏住了1个月,我实话实说:跟想象中完全不一样

我和老伴去新疆昭苏住了1个月,我实话实说:跟想象中完全不一样

刘哥谈体育
2026-05-27 15:04:38
WTI原油期货价格跌幅扩大至6%

WTI原油期货价格跌幅扩大至6%

界面新闻
2026-05-27 20:39:55
降薪回家!重回火箭?老兵的最后机会,休斯顿值得吗?

降薪回家!重回火箭?老兵的最后机会,休斯顿值得吗?

篮球盛世
2026-05-27 17:27:14
航司通报“男子在飞机起飞后欲拉开应急舱门”:已移交机场公安机关处理

航司通报“男子在飞机起飞后欲拉开应急舱门”:已移交机场公安机关处理

界面新闻
2026-05-27 17:09:45
国际乒联主席提条件:樊振东可以参加2028奥运会,但有个前提

国际乒联主席提条件:樊振东可以参加2028奥运会,但有个前提

三十年莱斯特城球迷
2025-12-16 23:09:38
职场穿搭要的就是这种感觉

职场穿搭要的就是这种感觉

美女穿搭分享
2026-05-26 21:48:21
弘一法师:永远不要去责怪你生命里的任何人,好的人给你快乐,坏的人给你经历,别人怎么对你,是过往,你怎么对别人,是修行

弘一法师:永远不要去责怪你生命里的任何人,好的人给你快乐,坏的人给你经历,别人怎么对你,是过往,你怎么对别人,是修行

每日一首古诗词
2026-05-26 12:07:58
俄罗斯最大的弊病就是舍不得放下远东!一旦放下,甚至能满血复活

俄罗斯最大的弊病就是舍不得放下远东!一旦放下,甚至能满血复活

抽象派大师
2026-05-25 16:41:16
今天机器人为什么大跌?为什么说商业航天会面临同样的命运?

今天机器人为什么大跌?为什么说商业航天会面临同样的命运?

呼呼历史论
2026-05-27 17:25:38
2026-05-28 02:39:00
呼呼历史论
呼呼历史论
分享有趣的历史
583文章数 17101关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

家居
本地
教育
艺术
房产

家居要闻

古老而持久 石影扶手椅

本地新闻

用剪纸的方式,打开江苏扬州

教育要闻

“把女儿养成财阀千金”,开明家教走红,只看穿着就超越90%家庭

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力,科技公司都抢着用?

房产要闻

合生创展前总裁被查!直指房企违规放贷、利益输送等问题

无障碍浏览 进入关怀版