网易首页 > 网易号 > 正文 申请入驻

阿里通义实验室开源影视级配音多模态大模型Fun-CineForge

0
分享至

IT之家 3 月 16 日消息,今日,阿里通义实验室宣布发布并开源首个支持影视级多场景配音的多模态大模型 Fun-CineForge。此外,还配套开放了高质量数据集的构建方法。官方称,通过“数据 + 模型”的一体化设计,Fun-CineForge 正尝试解决影视级 AI 配音长期面临的关键问题。

IT之家附官方介绍如下:


在真实影视制作场景中,一段高质量的配音,需要同时通过四大严苛考验:

  • 口型同步:合成的语音需要和画面中人物唇部运动高度同步;
  • 情绪表达:依赖角色面部形象和指令描述,实现情感和语气的拟人化呈现和自由控制;
  • 音色一致:在多角色配音的复杂场景下要保持每个角色音色的相似度和一致性;
  • 时间对齐:即便画面中说话人被遮挡或不存在,语音也必须在正确的时间区间内合成;

然而,现有 AI 配音方法普遍面临两大瓶颈:

01、高质量多模态数据集稀缺。

高质量的配音数据集依赖多种模态的信息,现有的配音数据集数据量过小、标注类型有限,难以满足大模型的有效训练;高度依赖人工标注成本较高,难以大规模生产;缺乏对话和多人场景的长视频数据使大模型难以应对复杂配音场景。

02、模型能力不足。

传统配音模型在方法上,仅依赖视频画面中清晰可见的唇部区域来学习音画同步。但真实影视配音制作中,存在大量复杂场景,如多人对话、频繁镜头切换、人脸遮挡、面部模糊,现有技术难以在说话人面部缺失的场景实现音画同步。


为了解决上述问题,通义实验室提出了 Fun-CineForge 。本次开源内容核心包含两部分,旨在打通影视配音的“数据 - 模型”闭环:

1️⃣ 模型侧:面向复杂影视场景的多模态配音大模型

2️⃣ 数据侧:大规模多模态配音数据集构建流程(CineDub)


在数据基础之上,Fun-CineForge 基于 CosyVoice3 强大的语音合成底层能力,构建了一个面向复杂影视场景的配音大模型,完成视频 + 文本 → 语音的任务。

输入包括:

  • 无声视频片段
  • 配音文本
  • 角色属性和情感线索
  • 时间信息
  • 参考语音

模型即可以参考语音的音色来合成与时间和视频信息高度对齐的语音。


Fun-CineForge 首先构建了一套自动化的数据集生产流程,可以将原始影视素材转化为结构化多模态数据。

该流程包括人声分离、文本转录、长视频分段、音视频联合说话人分离等,其中,基于通用大模型思维链的双向矫正机制,大幅降低了转录文本和说话人分离结果的错误率。

  • 中文字错率从 4.53% 降至 0.94%;
  • 英文词错率从 9.35% 降至 2.12%;
  • 说话人分离错误率从 8.38% 降至 1.20%。

数据覆盖独白、旁白、对话、多说话人等多种典型场景。每条数据都包含转录台词、帧级人脸唇部数据、角色属性情感线索、毫秒级时间戳及干净人声轨道。

这些相互补充、相辅相成的多模态信息为训练大模型的专业配音能力提供了坚实基础。



数据集统计

注释:从 350 多部的中英文影视剧中生产的 CineDub 数据集在场景类别,年龄分布,性格分布,音色热词的统计情况。


Fun-CineForge 最重要的技术创新,是在配音模型中首次引入“时间模态”。传统 TTS 模型通常只关注文本内容、声音特征或视觉信息,但影视配音中还有一个关键维度:时间。

例如:

  • 什么时候开始说话
  • 什么时候结束说话
  • 哪个角色在该时间区域内说话

这些信息能够直接帮助模型深入理解“在什么时间段内,哪个角色在说什么。”,在视觉模态“看不到”说话人的时候,时间模态作为一种强监督目标,使语音出现在该出现的时间区域内。

这一点使模型具备了在复杂场景下的配音能力。


为了实现上述能力,Fun-CineForge 模型同时利用四类信息,它们相互补充、相辅相成。

  • 视觉模态:学习唇部运动,理解面部表情;
  • 文本模态:提供台词内容,描述角色属性和情感语气;
  • 音频模态:作为模型预测目标;
  • 时间模态:控制语音出现的时间,在对话场景指示说话人身份。



实验结果显示,在多个关键指标上,Fun-CineForge 配音模型都优于现有开源配音模型,包括:

  • 语音自然度
  • 字错率
  • 情感表达能力
  • 音色相似度
  • 唇形同步
  • 时间对齐能力
  • 指令遵循能力

其中,Fun-CineForge 配音模型以独白和旁白两种单人配音场景效果最佳,首次支持双人对话与多人对话的场景,并能够实现准确的时间对齐、音画同步与音色一致。

我们在自建的 CineDub 数据集上对 Fun-CineForge 进行了全面评估,覆盖独白、旁白、对话、多人场景等多种典型影视配音场景。结果显示,单人场景效果最优,独白和旁白的中文字错率仅 1.49% 和 1.90%,音画同步精准。


在独白场景下,我们将 Fun-CineForge 与 DeepDubber-V1 和 InstructDubber 进行了对比。结果显示,Fun-CineForge 在词错率、唇部同步、时间对齐、音色相似度等各项指标上均明显优于基线模型


注:CER / WER 为中文字 / 英文词错率(↓ 越低越准);SPK-SIM 为音色相似度(↑ 越高越像);SPK-TL 为时间对齐误差(↓ 越低越精准);LSE-C/D 为唇部同步度(C ↑ 越高 / D ↓ 越低越好)。


目前,Fun-CineForge 已经开源开发者可立即体验各种复杂场景下的中英文影视配音能力(包括情绪化表达、镜头切换、面部遮挡等情景)。

Fun-CineForge 项目主页:https://funcineforge.github.io/

(网站提供独白、旁白、对话、多说话人、音色克隆、指令控制等丰富示例,还能体验音色克隆和指令控制等进阶功能。样例涵盖了在实际影视场景中存在的,情绪化表达、镜头频繁切换、说话人频繁切换、说话人面部遮挡或镜头对准其他角色、画面阴暗、画面多人共存等各种复杂情景。)

技术论文 Fun-CineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes

数据集样例:网站开源了剔除原视频的 CineDub 数据集样例,包括 CineDub-CN 和 CineDub-EN 中英文双语种,以供参考。

代码与模型:三个平台同步开源,欢迎体验~

  • GitHub:https://github.com/FunAudioLLM/FunCineForge
  • HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
  • ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

现阶段 AI 语音技术已经在客服、助手等场景广泛应用,但在专业的动漫或影视内容制作和后期加工中,仍然存在更高要求。对于越长的视频,需要给定的时间戳区间和参考角色音频越多,音画同步性能和音色克隆准确性会下降,多人对话场景鲁棒性降低。

Fun-CineForge 为音频大模型技术在专业配音制作领域提供了新的技术方案,当前支持 30 秒以内的视频片段推理。

未来,随着多模态大模型能力不断提升,我们也希望 AI 能在影视、动画、游戏等内容生产领域发挥更大的作用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄天鹅就鸡蛋角黄素抽检结果发布声明

黄天鹅就鸡蛋角黄素抽检结果发布声明

澎湃新闻
2026-03-25 15:39:05
9020mAh!新机官宣:3月26日,正式发布上市!

9020mAh!新机官宣:3月26日,正式发布上市!

科技堡垒
2026-03-26 11:29:06
历史唯一!9场比赛,仅差51次助攻啊,约基奇又又要创造历史

历史唯一!9场比赛,仅差51次助攻啊,约基奇又又要创造历史

球童无忌
2026-03-25 16:56:03
一夜之间,这两个城市房价上涨了!

一夜之间,这两个城市房价上涨了!

靓仔情感
2026-03-26 13:57:14
举火烧天!杨瀚森接球顺下单臂隔扣班克斯,目前9中9独揽20分

举火烧天!杨瀚森接球顺下单臂隔扣班克斯,目前9中9独揽20分

懂球帝
2026-03-26 10:15:02
毛主席有多明智?成立新疆生产建设兵团,七十年后谁都得服

毛主席有多明智?成立新疆生产建设兵团,七十年后谁都得服

诺言卿史录
2026-03-26 09:06:41
伊朗开始收“买路钱”了:想过霍尔木兹海峡?拿200万美元来

伊朗开始收“买路钱”了:想过霍尔木兹海峡?拿200万美元来

Ck的蜜糖
2026-03-26 16:57:49
湖南省委书记到凤凰,乘坐世界首条磁浮旅游专线

湖南省委书记到凤凰,乘坐世界首条磁浮旅游专线

观察者网
2026-03-25 21:33:09
广东球迷高喊:流氓教练杜锋下课!杜锋回应:感谢现场观众 非常热情

广东球迷高喊:流氓教练杜锋下课!杜锋回应:感谢现场观众 非常热情

晚雾空青
2026-03-26 16:09:03
悲催!丈夫月收入从2万到四五千,从程序员到送快递,女子想离婚

悲催!丈夫月收入从2万到四五千,从程序员到送快递,女子想离婚

火山詩话
2026-03-15 10:23:17
研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

观察鉴娱
2026-03-26 09:25:28
邓超孙俪正式解绑:16年婚姻,各自安好

邓超孙俪正式解绑:16年婚姻,各自安好

二胡的岁月如歌
2026-03-26 14:50:14
正式翻脸:沙特与阿联酋开放军事基地,放任美军暴打伊朗

正式翻脸:沙特与阿联酋开放军事基地,放任美军暴打伊朗

雅儿姐在遛弯
2026-03-26 08:24:39
大瓜!张雪峰女儿只能分得16.5%遗产

大瓜!张雪峰女儿只能分得16.5%遗产

兰亭墨未干
2026-03-26 14:52:45
490亿元的大项目即将开建!!

490亿元的大项目即将开建!!

新浪财经
2026-03-26 11:14:48
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

刘蕳爱下厨
2026-03-25 15:08:52
美以联合空袭伊拉克

美以联合空袭伊拉克

第一财经资讯
2026-03-26 12:56:50
快讯!美国要打大仗了!

快讯!美国要打大仗了!

达文西看世界
2026-03-26 09:29:08
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
2026-03-26 17:28:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336056文章数 607090关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
房产
本地
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版