网易首页 > 网易号 > 正文 申请入驻

阿里15B模型让照片开口说话:参数砍到1/10,效果却更真了

0
分享至

2024年,视频生成赛道挤进几十家公司,参数卷到百亿级是常态。阿里通义实验室扔出一颗炸弹:15B参数,照片+文字直接生成带口型的说话视频,唇音同步误差压到毫秒级。

这个数字有点反常识。同期Runway的Gen-3、Pika的1.5版本,参数规模都在它的6倍以上。更小的模型做更难的事,团队怎么想的?

从"能说话"到"像真人说话",中间隔着一个声学鸿沟

之前的方案大多是拼接式:先让图片动起来,再后期配音对口型。像给木偶戏配台词,嘴在动,但肌肉和气息是分离的。

阿里这支团队换了个思路——把语音合成(TTS,Text-to-Speech)和视频生成焊成一个模型。输入一段文字,模型同时决定:说什么音、嘴怎么动、脸什么表情、头怎么摆。

关键突破在"隐式对齐"。传统方法用显式的面部关键点(嘴角的坐标)去卡节奏,容易僵硬。新方案让声学特征和视频特征在潜空间里自己找对应关系,像训练同声传译,而不是查字典。

结果是:生成512×512视频,单张A100上推理速度做到实时倍率的0.3倍。换句话说,10秒音频对应生成10秒视频,实际耗时约30秒。

这个速度放在端侧芯片上,已经能跑。

15B参数的底气:不是所有参数都在干活

模型小不代表能力弱。团队把参数拆成三块:文本理解(3B)、声学建模(4B)、视频解码(8B)。前两块直接复用了通义千问的预训练权重,相当于自带一个读过海量文本和音频的"大脑"。

真正从零训练的是视频解码部分。这里用了一个 trick:先训低分辨率(128×128)打基础,再逐步上采样到512×512。像学画画先练速写再抠细节,省算力,收敛也更稳。

训练数据是另一个门槛。团队没透露具体规模,只说是"百万小时级"的多语言音视频对。重点在清洗——过滤掉背景音乐嘈杂、画面抖动、多说话人重叠的片段。干净数据比海量数据更重要,这是语音合成领域的老经验。

评测指标上,Wav2Lip经典的唇音同步分数(LSE-D)做到6.5以下,这个数字低于大多数开源方案,接近商用闭源产品的水平。用户盲测中,"自然度"评分超过某头部竞品12个百分点。

场景落地:谁需要一张会说话的身份证照片

技术团队列了三个优先场景。第一是数字人客服,解决"真人录视频成本太高、纯AI形象太假"的中间地带。15B模型能在普通GPU服务器上部署,中小企业用得起。

第二是无障碍辅助。视障用户需要"听"视频内容,但现有TTS是机器声。把新闻主播的照片转成说话视频,口型辅助读唇,信息获取效率能提一档。

第三是内容本地化。跨境电商把中文产品介绍视频,直接生成英语、阿拉伯语版本,嘴型跟着变,不用再请外籍演员重拍。

这三个方向有个共同点:不需要电影级画质,但要求"可信"。15B模型的定位很清晰——不做Sora那种"从无到有造世界",专解决"让现有素材活起来"的刚需。

开源策略:代码已放,但关键数据没给

模型权重和推理代码在魔搭社区(ModelScope)上线,Apache 2.0协议。但训练代码和完整数据集未公开——这是国内大厂的常规操作,怕被拿去炼竞品。

社区反馈分化。开发者点赞推理效率,有人用M2 Ultra MacBook Pro跑出12秒/帧的速度,虽慢但能本地跑。吐槽集中在控制粒度:目前只能调整体语速,没法指定"这句重读、那句停顿"的细粒度指令。

团队回应说下一版会加"风格标签",比如"新闻播报""朋友闲聊""正式演讲"三种模式。但真正的难题是情感连贯性——真人说话有气息起伏、微表情变化,现在的输出还是偏"稳",少了点人味。

一个有趣的细节:模型对中文方言的支持意外得好。测试者用粤语、四川话输入,口型匹配度没明显掉。团队解释是训练数据里多语言占比高,加上拼音和注音符号的统一编码,让模型学会了"音素级"的泛化。

这引出一个开放问题:当生成一张会说话的假视频成本降到几毛钱,平台的内容审核系统,准备好识别"照片本人没说过的话"了吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯普利特下课?开拓者老板只愿给主帅100万年薪:市场价四分之一

斯普利特下课?开拓者老板只愿给主帅100万年薪:市场价四分之一

罗说NBA
2026-04-15 09:33:55
新账旧账一起算!一旦台海战争爆发,解放军决不放过台军第333旅

新账旧账一起算!一旦台海战争爆发,解放军决不放过台军第333旅

寻墨阁
2026-03-28 13:58:19
快手搜索人员调整:王毅离职,程稷李宣平接任

快手搜索人员调整:王毅离职,程稷李宣平接任

申妈的朋友圈
2026-04-13 11:09:18
海峡被封,特朗普给了中国两条路,中方二话不说,马上给俄发邀请

海峡被封,特朗普给了中国两条路,中方二话不说,马上给俄发邀请

阿銍武器装备科普
2026-04-15 04:22:55
骨科医生警告:最伤膝盖的不是爬楼,是老人天天做的 5 件事

骨科医生警告:最伤膝盖的不是爬楼,是老人天天做的 5 件事

高中医健康说
2026-04-15 14:20:03
打了45天,伊朗终于发现最大敌人不是美国,不是以色列,而是他们

打了45天,伊朗终于发现最大敌人不是美国,不是以色列,而是他们

面包夹知识
2026-04-15 15:32:31
巴萨球迷意难平!不止因为总比分2-3马竞,更多在于以下这五点!

巴萨球迷意难平!不止因为总比分2-3马竞,更多在于以下这五点!

田先生篮球
2026-04-15 07:02:01
同事借我车去青海,我提前把ETC卡拔了,2小时后他从收费站来电了

同事借我车去青海,我提前把ETC卡拔了,2小时后他从收费站来电了

张道陵秘话
2026-04-11 16:37:21
细思极恐!美国30年前不打中国,不是仁慈,是算错了一笔致命大账

细思极恐!美国30年前不打中国,不是仁慈,是算错了一笔致命大账

贱议你读史
2026-04-08 00:31:32
蒋孝章究竟有多美丽?1967年参加寿宴时的照片揭示她独特的气质

蒋孝章究竟有多美丽?1967年参加寿宴时的照片揭示她独特的气质

阿器谈史
2026-03-20 10:19:05
一秒入夏!大连今天最高气温冲至27.4℃,明日将迎降温降雨

一秒入夏!大连今天最高气温冲至27.4℃,明日将迎降温降雨

半岛晨报
2026-04-15 17:26:49
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
知名国企集团,六个月没发工资了

知名国企集团,六个月没发工资了

新浪财经
2026-04-13 04:16:19
安达曼海发生船只倾覆事故约250人失踪

安达曼海发生船只倾覆事故约250人失踪

财联社
2026-04-14 23:20:07
老年男性私处的毛发变白,代表性功能下降了?听听医生怎么说

老年男性私处的毛发变白,代表性功能下降了?听听医生怎么说

荷兰豆爱健康
2026-04-15 19:28:57
1921年,两个特务拽住毛主席问:你认识毛泽东吗?找到他赏你大洋

1921年,两个特务拽住毛主席问:你认识毛泽东吗?找到他赏你大洋

铜臭的历史味
2026-04-14 10:49:26
八千里路云和月:直到丁玉娇被侵犯,万福才知,张云旗离死不远了

八千里路云和月:直到丁玉娇被侵犯,万福才知,张云旗离死不远了

楼兰娱姐
2026-04-15 12:41:54
疯了!1年3只十倍股!

疯了!1年3只十倍股!

格隆汇
2026-04-15 18:47:10
伊朗至今都都不敢相信,一场战争为伊朗打来了50年的国运

伊朗至今都都不敢相信,一场战争为伊朗打来了50年的国运

健身狂人
2026-04-15 18:11:34
无货可出!三星显示器本月国行所有订单作废

无货可出!三星显示器本月国行所有订单作废

3DM游戏
2026-04-14 20:01:07
2026-04-15 21:20:49
灰度测试中
灰度测试中
生活正在重构,目前还在灰度测试阶段,暂不全量发布。
1385文章数 15关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

郑丽文返台穿中山装喊话赖清德:愿拿十二万分诚意对谈

头条要闻

郑丽文返台穿中山装喊话赖清德:愿拿十二万分诚意对谈

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

家居
游戏
健康
房产
艺术

家居要闻

简而不减 暖居之道

LPL第二赛段:没啥好说的,TT连下两城击败UP

干细胞抗衰4大误区,90%的人都中招

房产要闻

重磅调规!341亩商改住+中小学用地!宝龙城这把稳了?

艺术要闻

这山水,荡涤胸中尘埃

无障碍浏览 进入关怀版