网易首页 > 网易号 > 正文 申请入驻

阿里开源音频生成模型!为AI视频生成匹配音频、分分钟生成游戏音效

0
分享至


智东西
作者 金碧辉
编辑 程茜

智东西7月1日消息,阿里通义实验室全球首个应用思维链(CoT)技术的音频生成模型ThinkSound今天开源,该模型首次将CoT引入音频生成领域,通过多阶段推理框架解决传统视频转音频(V2A)技术的音画错位问题,并开源配套数据集AudioCoT。

ThinkSound模型可直接应用于影视后期制作,为AI生成的视频自动匹配精准的环境噪音与爆炸声效;服务于游戏开发领域,实时生成雨势变化等动态场景的自适应音效;同时可以无障碍视频生产,为视障用户同步生成画面描述与环境音效。

▲ThinkSound模型生成的视频内容

目前,ThinkSound一共有ThinkSound-1.3B、ThinkSound-724M、ThinkSound-533M,开发者可按需调用适配。开发者可通过GitHub、Hugging Face、魔搭社区免费调用Apache 2.0协议的开源代码。

性能验证显示,在VGGSound测试集上,ThinkSound的Fréchet音频距离降至34.56,较此前主流模型MMAudio显著提升20.1%;时序对齐误差率仅9.8%,同比降低37.2%;声音事件判别指标KLPaSST与KLPaNNs分别达到1.52和1.32,均为当前同类模型最佳结果。在面向影视场景的MovieGen Audio Bench测试中,其表现大幅领先Meta的Movie Gen Audio模型。


▲ThinkSound在VGGSound测试集上的表现

技术主页:
https://thinksound-project.github.io/

开源地址:
https://huggingface.co/FunAudioLLM
GitHub:https://github.com/liuhuadai/ThinkSound

体验地址:
https://huggingface.co/spaces/FunAudioLLM/ThinkSound

一、三阶段流程完成推理,模拟人类音效师创作流程

ThinkSound模型的突破性在于其成功模拟了专业音效师的核心工作逻辑,通过三阶段推理流程实现自动化音效生成。

首先,模型执行视觉事件解析,逐帧分析视频内容,精准识别关键物理事件如玻璃碎裂轨迹或脚步移动速度,并同时判断画面中物体的材质属性,例如金属、木材或液体,输出带时间戳的结构化事件与属性数据。

然后模型进入声学属性推导阶段,基于解析出的视觉特征,运用物理规则进行映射:依据材质类型推导声音的频谱特性,金属材质会产生高频共振;根据运动强度计算声波能量,雨滴高度直接影响混响强度;同时模拟环境空间如密闭房间或开放广场对声场反射的影响,最终生成物理特性准确的声学参数矩阵。

最后是时序对齐合成阶段,模型通过动态对齐引擎将声学参数与视频帧精确绑定,利用时间编码器自适应补偿画面跳帧或慢动作变化以确保声波连续性,并采用分层渲染技术实时合成音频流,包含基础音色层、环境反射层及运动特效层。

这一流程实现了与画面帧的精准同步,其时序误差率低至仅9.8%,较传统模型大幅降低37.2%,从而将传统手工音效制作中耗时数小时的音画对齐工作压缩至分钟级完成。

在生物声学场景中,ThinkSound模型生成的婴儿哭声音频严格匹配表情动作变化,其音高动态范围与呼吸节奏波动精准遵循婴幼儿生理发声模式,通过时序对齐算法确保哭声强度峰值与面部扭曲程度实现帧级同步。


▲ThinkSound模型生成的婴儿哭声视频截图

ThinkSound-1.3B的参数量为13亿,是当前开源版本中规模最大的模型,适合专业级音效生成任务;ThinkSound-724M的参数量为7.24亿,该模型平衡了生成质量与计算效率。适合需要较高音效质量但资源受限的场景;ThinkSound-533M的参数量为5.33亿),定位为轻量级入门模型。在保证基础音效生成能力的同时,显著降低硬件门槛,适用于快速原型开发和教育研究用途。

二、整合总计2531.8小时音频,构建全球首个AudioCoT数据集

为突破传统音频生成模型“黑箱操作”、缺乏可解释设计逻辑的瓶颈,阿里团队构建了业界首个且规模最大的带思维链标注音频数据集AudioCoT。

该数据集整合了总计2531.8小时的音频、视觉素材,涵盖影视片段库、高保真自然声场采集及国际知名专业音效库。

AudioCoT的核心突破在于其思维链标注体系:每条数据均由专业团队深度标注出完整的逻辑链条。标注团队从视觉事件分析识别画面中的关键触发元素,到声学特性推理推导声音应有的物理和感知属性,再到音效合成策略明确实现目标声音的技术路径。这种从视觉输入到声音输出的完整逻辑映射,为模型构建了理解声音设计“为什么”和“怎么做”的知识图谱。

ThinkSound在训练中不仅学习生成声音,还能够基于画面元素自动推理并调整生成声音的属性,改变了依赖预设标签的黑箱生成模式,实现了生成高质量音频的同时“知其所以然”,增强AI生成音效的真实感和同步性。


▲ThinkSound模型增强AI生成音效的真实感和同步性

三、关键指标超越主流方案,时序对齐误差率降低37%

在权威测试集VGGSound上,ThinkSound的Fréchet音频距离(FD)降至34.56(对比MMAudio的43.26),逼近真实音效分布;声音事件判别精度KLPaSST/KLPaNNs达1.52/1.32,ThinkSound超越MMAudio等标杆模型。

在影视场景测试集MovieGen Audio Bench中,ThinkSound以20%优势超越Meta的Movie Gen Audio模型,尤其在爆炸、金属摩擦等复杂声效的时序对齐误差率降低37%。


▲ThinkSound超越Meta的Movie Gen Audio模型

为验证ThinkSound核心技术设计的必要性,阿里团队展开消融实验。

当前视频生成音频(V2A)技术长期面临的核心痛点,是模型难以捕捉视觉事件与声音之间的物理关联。例如,玻璃碎裂的画面本应触发高频清脆声,但传统模型常输出模糊的“破碎声”或与画面时序错位的音效。其根源在于数据与建模的局限性,主流方案依赖文本、音频的浅层匹配,缺乏对声学物理规律的推理能力。例如,早期模型Make-An-Audio虽通过CLAP文本编码器和频谱自编码器提升可控性,但仍无法解析“物体材质如何影响声音频率”这类逻辑链。

同时,传统模型还存在时序错位问题,通用模型如Meta的Movie Gen Audio在复杂场景中常出现音画不同步,例如爆炸声滞后于火光画面,因模型未建立事件因果链。

团队将视频的CLIP视觉特征与T5文本推理特征在时间轴上对齐融合,相比单独输入音频特征,音画同步精度提升23%。


▲ThinkSound的不同的文本编程策略比较

门控融合机制通过动态分配权重,例如会优先处理视觉事件声效而非环境背景音,在KLPaSST指标上实现17%的提升,Fréchet音频距离降低12%,超越常规的拼接融合与加法融合策略。


▲多模式整合机制比较

结语:ThinkSound开源,阿里三大模型补全音频工具链

ThinkSound的发布标志着音频生成从“能发声”迈向“懂画面”的智能阶段。其技术价值不仅在于性能提升,更在于将专业音效设计流程标准化、自动化,把传统需数小时的手工音画对齐工作压缩至分钟级完成。

对产业而言,ThinkSound与阿里此前开源CosyVoice 2.0(语音合成)、Qwen2.5-Omni(全模态交互)形成技术矩阵,覆盖从语音到环境音效的全场景音频生成需求。开发者可基于此构建影视配音、游戏实时音效、无障碍视频制作等低成本工具,尤其为中小创作者提供接近专业工作室的音频生产能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“橙子姐姐”下落不明:网传被卖175万,疑遭遇“杀猪盘”!

“橙子姐姐”下落不明:网传被卖175万,疑遭遇“杀猪盘”!

小李睡不醒了
2025-11-17 07:06:43
从天堂到地狱,索博在2-1领先后疯狂庆祝,被绝杀后伤心落泪

从天堂到地狱,索博在2-1领先后疯狂庆祝,被绝杀后伤心落泪

懂球帝
2025-11-17 16:24:49
狗咬人事件再升级!监控曝光当晚混乱场面,申倩才是最理智的人

狗咬人事件再升级!监控曝光当晚混乱场面,申倩才是最理智的人

生活魔术专家
2025-11-18 03:34:33
横店20万群演现状:美女泛滥成灾,光棍懒汉遍地,他们该何去何从

横店20万群演现状:美女泛滥成灾,光棍懒汉遍地,他们该何去何从

甜柠聊史
2025-08-18 08:00:54
左宗棠收复新疆后坚持种树,被讥为无用功,22年后慈禧才知其深意

左宗棠收复新疆后坚持种树,被讥为无用功,22年后慈禧才知其深意

萧竹轻语
2025-11-12 18:34:49
央视3分钟点名,中国有权在日驻军,敢打台海主意,8分钟导弹直达

央视3分钟点名,中国有权在日驻军,敢打台海主意,8分钟导弹直达

近史谈
2025-11-15 19:08:31
1982 年高材生王佐良娶瘫痪的张海迪,40 年后,才知他是人间清醒

1982 年高材生王佐良娶瘫痪的张海迪,40 年后,才知他是人间清醒

墨印斋
2025-11-15 16:42:56
刚刚,阿里宣战ChatGPT!

刚刚,阿里宣战ChatGPT!

智东西
2025-11-17 12:41:22
倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

青眼财经
2025-11-13 23:02:27
越扒越深了!网传赵某晖“吞掉”人家装修款,有业主直言她坏良心

越扒越深了!网传赵某晖“吞掉”人家装修款,有业主直言她坏良心

火山诗话
2025-11-18 06:39:29
《鬼灭之刃》新电影全球票房正式破1000亿!

《鬼灭之刃》新电影全球票房正式破1000亿!

随波荡漾的漂流瓶
2025-11-17 15:44:05
李建华,追求低级趣味,多次进行带有财物输赢性质的违规打牌活动,单独或伙同其亲属非法收受巨额财物

李建华,追求低级趣味,多次进行带有财物输赢性质的违规打牌活动,单独或伙同其亲属非法收受巨额财物

都市快报橙柿互动
2025-11-17 13:35:26
卓伟爆了一个新瓜!

卓伟爆了一个新瓜!

八卦疯叔
2025-11-15 10:16:28
“除了鬼,什么都见过了!”陪读妈妈开始“污名化”,太毁三观!

“除了鬼,什么都见过了!”陪读妈妈开始“污名化”,太毁三观!

知晓科普
2025-11-04 09:48:54
随着火箭加时险胜,马刺升第5,勇士3连胜,NBA西部最新排名出炉

随着火箭加时险胜,马刺升第5,勇士3连胜,NBA西部最新排名出炉

董老师看竞技
2025-11-17 14:03:14
奥运两负陈梦、全运两负王曼昱,留给孙颖莎的大赛时间不多了

奥运两负陈梦、全运两负王曼昱,留给孙颖莎的大赛时间不多了

十点街球体育
2025-11-18 06:00:03
80后已经有1100万人提前下车了。

80后已经有1100万人提前下车了。

爱吃糖的猫cat
2025-11-16 18:27:38
索马里海盗最丢脸的抢劫:挟持货船2年无人赎,还要养22名人质

索马里海盗最丢脸的抢劫:挟持货船2年无人赎,还要养22名人质

谈史论天地
2025-10-23 13:42:01
王中磊破产,携全家搬出庄园住进别墅,老婆愁眉苦脸被迫接受降级

王中磊破产,携全家搬出庄园住进别墅,老婆愁眉苦脸被迫接受降级

王瑄自驾
2025-11-13 20:32:34
6000平方公里沙漠变绿,10多万股民血本无归,是谁导演这场戏

6000平方公里沙漠变绿,10多万股民血本无归,是谁导演这场戏

一号位故事
2025-11-12 09:46:54
2025-11-18 09:16:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10752文章数 116898关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

中国多地旅行团游客退订 日本旅游股遭抛售大跌超10%

头条要闻

中国多地旅行团游客退订 日本旅游股遭抛售大跌超10%

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

英伟达遭“硅谷风投教父”清仓

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

家居
房产
亲子
健康
数码

家居要闻

回廊通道 强化空间秩序

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

亲子要闻

这样对西蒙是不是有点儿残忍了啊?哈哈哈哈我居然忍不住笑了

血液科专家揭秘白血病七大误区

数码要闻

北方多地供暖开始!雷军推荐米家无雾加湿器3 800:售价699元

无障碍浏览 进入关怀版