网易首页 > 网易号 > 正文 申请入驻

阿里开源音频生成模型!为AI视频生成匹配音频、分分钟生成游戏音效

0
分享至

智东西7月1日消息,阿里通义实验室全球首个应用思维链(CoT)技术的音频生成模型ThinkSound今天开源,该模型首次将CoT引入音频生成领域,通过多阶段推理框架解决传统视频转音频(V2A)技术的音画错位问题,并开源配套数据集AudioCoT。

ThinkSound模型可直接应用于影视后期制作,为AI生成的视频自动匹配精准的环境噪音与爆炸声效;服务于游戏开发领域,实时生成雨势变化等动态场景的自适应音效;同时可以无障碍视频生产,为视障用户同步生成画面描述与环境音效。

▲ThinkSound模型生成的视频内容

目前,ThinkSound一共有ThinkSound-1.3B、ThinkSound-724M、ThinkSound-533M,开发者可按需调用适配。开发者可通过GitHub、Hugging Face、魔搭社区免费调用Apache 2.0协议的开源代码。

性能验证显示,在VGGSound测试集上,ThinkSound的Fréchet音频距离降至34.56,较此前主流模型MMAudio显著提升20.1%;时序对齐误差率仅9.8%,同比降低37.2%;声音事件判别指标KLPaSST与KLPaNNs分别达到1.52和1.32,均为当前同类模型最佳结果。在面向影视场景的MovieGen Audio Bench测试中,其表现大幅领先Meta的Movie Gen Audio模型。

技术主页:
https://thinksound-project.github.io/

开源地址:
https://huggingface.co/FunAudioLLM
GitHub:https://github.com/liuhuadai/ThinkSound

体验地址:
https://huggingface.co/spaces/FunAudioLLM/ThinkSound

一、三阶段流程完成推理,模拟人类音效师创作流程

ThinkSound模型的突破性在于其成功模拟了专业音效师的核心工作逻辑,通过三阶段推理流程实现自动化音效生成。

首先,模型执行视觉事件解析,逐帧分析视频内容,精准识别关键物理事件如玻璃碎裂轨迹或脚步移动速度,并同时判断画面中物体的材质属性,例如金属、木材或液体,输出带时间戳的结构化事件与属性数据。

然后模型进入声学属性推导阶段,基于解析出的视觉特征,运用物理规则进行映射:依据材质类型推导声音的频谱特性,金属材质会产生高频共振;根据运动强度计算声波能量,雨滴高度直接影响混响强度;同时模拟环境空间如密闭房间或开放广场对声场反射的影响,最终生成物理特性准确的声学参数矩阵。

最后是时序对齐合成阶段,模型通过动态对齐引擎将声学参数与视频帧精确绑定,利用时间编码器自适应补偿画面跳帧或慢动作变化以确保声波连续性,并采用分层渲染技术实时合成音频流,包含基础音色层、环境反射层及运动特效层。

这一流程实现了与画面帧的精准同步,其时序误差率低至仅9.8%,较传统模型大幅降低37.2%,从而将传统手工音效制作中耗时数小时的音画对齐工作压缩至分钟级完成。

在生物声学场景中,ThinkSound模型生成的婴儿哭声音频严格匹配表情动作变化,其音高动态范围与呼吸节奏波动精准遵循婴幼儿生理发声模式,通过时序对齐算法确保哭声强度峰值与面部扭曲程度实现帧级同步。

ThinkSound-1.3B的参数量为13亿,是当前开源版本中规模最大的模型,适合专业级音效生成任务;ThinkSound-724M的参数量为7.24亿,该模型平衡了生成质量与计算效率。适合需要较高音效质量但资源受限的场景;ThinkSound-533M的参数量为5.33亿),定位为轻量级入门模型。在保证基础音效生成能力的同时,显著降低硬件门槛,适用于快速原型开发和教育研究用途。

二、整合总计2531.8小时音频,构建全球首个AudioCoT数据集

为突破传统音频生成模型“黑箱操作”、缺乏可解释设计逻辑的瓶颈,阿里团队构建了业界首个且规模最大的带思维链标注音频数据集AudioCoT。

该数据集整合了总计2531.8小时的音频、视觉素材,涵盖影视片段库、高保真自然声场采集及国际知名专业音效库。

AudioCoT的核心突破在于其思维链标注体系:每条数据均由专业团队深度标注出完整的逻辑链条。标注团队从视觉事件分析识别画面中的关键触发元素,到声学特性推理推导声音应有的物理和感知属性,再到音效合成策略明确实现目标声音的技术路径。这种从视觉输入到声音输出的完整逻辑映射,为模型构建了理解声音设计“为什么”和“怎么做”的知识图谱。

ThinkSound在训练中不仅学习生成声音,还能够基于画面元素自动推理并调整生成声音的属性,改变了依赖预设标签的黑箱生成模式,实现了生成高质量音频的同时“知其所以然”,增强AI生成音效的真实感和同步性。

▲ThinkSound模型增强AI生成音效的真实感和同步性

三、关键指标超越主流方案,时序对齐误差率降低37%

在权威测试集VGGSound上,ThinkSound的Fréchet音频距离(FD)降至34.56(对比MMAudio的43.26),逼近真实音效分布;声音事件判别精度KLPaSST/KLPaNNs达1.52/1.32,ThinkSound超越MMAudio等标杆模型。

在影视场景测试集MovieGen Audio Bench中,ThinkSound以20%优势超越Meta的Movie Gen Audio模型,尤其在爆炸、金属摩擦等复杂声效的时序对齐误差率降低37%。

为验证ThinkSound核心技术设计的必要性,阿里团队展开消融实验。

当前视频生成音频(V2A)技术长期面临的核心痛点,是模型难以捕捉视觉事件与声音之间的物理关联。例如,玻璃碎裂的画面本应触发高频清脆声,但传统模型常输出模糊的“破碎声”或与画面时序错位的音效。其根源在于数据与建模的局限性,主流方案依赖文本、音频的浅层匹配,缺乏对声学物理规律的推理能力。例如,早期模型Make-An-Audio虽通过CLAP文本编码器和频谱自编码器提升可控性,但仍无法解析“物体材质如何影响声音频率”这类逻辑链。

同时,传统模型还存在时序错位问题,通用模型如Meta的Movie Gen Audio在复杂场景中常出现音画不同步,例如爆炸声滞后于火光画面,因模型未建立事件因果链。

团队将视频的CLIP视觉特征与T5文本推理特征在时间轴上对齐融合,相比单独输入音频特征,音画同步精度提升23%。

门控融合机制通过动态分配权重,例如会优先处理视觉事件声效而非环境背景音,在KLPaSST指标上实现17%的提升,Fréchet音频距离降低12%,超越常规的拼接融合与加法融合策略。

结语:ThinkSound开源,阿里三大模型补全音频工具链

ThinkSound的发布标志着音频生成从“能发声”迈向“懂画面”的智能阶段。其技术价值不仅在于性能提升,更在于将专业音效设计流程标准化、自动化,把传统需数小时的手工音画对齐工作压缩至分钟级完成。

对产业而言,ThinkSound与阿里此前开源CosyVoice 2.0(语音合成)、Qwen2.5-Omni(全模态交互)形成技术矩阵,覆盖从语音到环境音效的全场景音频生成需求。开发者可基于此构建影视配音、游戏实时音效、无障碍视频制作等低成本工具,尤其为中小创作者提供接近专业工作室的音频生产能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当初逼学校签“动物保护条约”的大学生,如今成了受害者

当初逼学校签“动物保护条约”的大学生,如今成了受害者

虔青
2026-04-22 09:06:11
为什么2026教育突然松绑了?网友:过度内卷只会影响孩子心理健康

为什么2026教育突然松绑了?网友:过度内卷只会影响孩子心理健康

另子维爱读史
2026-04-21 20:14:40
余承东:内存价格一直涨,要是扛不住了手机以后可能涨价

余承东:内存价格一直涨,要是扛不住了手机以后可能涨价

澎湃新闻
2026-04-20 16:38:26
邓小平去世后,汪东兴:“两个凡是”不是我的发明,发明人已去世

邓小平去世后,汪东兴:“两个凡是”不是我的发明,发明人已去世

覃仕勇说史
2026-04-22 12:32:45
我在中东教汉语,娶了三个本地女孩,虽然年入百万,却并不幸福

我在中东教汉语,娶了三个本地女孩,虽然年入百万,却并不幸福

千秋文化
2026-04-20 19:55:30
不露面不知道,一露面吓一跳,这些明星怎么都老成这个样子了

不露面不知道,一露面吓一跳,这些明星怎么都老成这个样子了

孤城落日
2026-04-20 19:26:14
世锦赛:1-4到9-1,3冠王出局,16强决出11席了世界第1静候斯佳辉

世锦赛:1-4到9-1,3冠王出局,16强决出11席了世界第1静候斯佳辉

求球不落谛
2026-04-22 05:26:49
沙特大幅削减斯诺克资金投入,世界台联强势回应:在中国增加赛事

沙特大幅削减斯诺克资金投入,世界台联强势回应:在中国增加赛事

杨华评论
2026-04-21 22:29:20
许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

小嵩
2026-04-20 13:52:49
炸翻全球军界!沙特怒砸120亿买断中国神装,美军彻底被踢出局

炸翻全球军界!沙特怒砸120亿买断中国神装,美军彻底被踢出局

林子说事
2026-04-22 11:33:39
重庆撒泼“毒母女”一夜全国出名,谁看了不喊一句离谱!

重庆撒泼“毒母女”一夜全国出名,谁看了不喊一句离谱!

脆皮先生
2026-04-19 19:37:38
没有副作用,又不会上瘾的安眠药,你知道有哪些吗?

没有副作用,又不会上瘾的安眠药,你知道有哪些吗?

岐黄传人孙大夫
2026-04-21 11:30:03
选择真的大于努力!0冠凯恩去拜仁夺3冠 17冠小蜘蛛去马竞0冠

选择真的大于努力!0冠凯恩去拜仁夺3冠 17冠小蜘蛛去马竞0冠

智道足球
2026-04-21 18:12:38
果然!特朗普,彻底失控

果然!特朗普,彻底失控

新浪财经
2026-04-22 15:15:54
中国汽车市场份额:法系0.2%,韩系1%,美系6.9%,日系13%

中国汽车市场份额:法系0.2%,韩系1%,美系6.9%,日系13%

狐狸先森讲升学规划
2026-04-21 09:30:03
中方不再伺候了!对荷光刻机优待全部取消,450亿芯片不做了!

中方不再伺候了!对荷光刻机优待全部取消,450亿芯片不做了!

错过美好
2026-04-21 19:01:41
张本智和再次全家大迁徙,这次是德国,网友:回中国也不必多虑!

张本智和再次全家大迁徙,这次是德国,网友:回中国也不必多虑!

玖宇维
2026-04-21 21:23:08
凯伦.威尔逊:“今年的斯诺克世锦赛冠军将在这4位球员中出现、也包括我自己”

凯伦.威尔逊:“今年的斯诺克世锦赛冠军将在这4位球员中出现、也包括我自己”

寒律
2026-04-22 15:18:30
祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

离离言几许
2026-04-21 23:24:09
文班亚马脑震荡会缺席多久?马刺跟队记者爆料:他甚至没有去医院

文班亚马脑震荡会缺席多久?马刺跟队记者爆料:他甚至没有去医院

体坛野秀才
2026-04-22 12:52:03
2026-04-22 16:36:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11658文章数 117037关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

媒体:爱奇艺AI艺人库惹众怒 CEO龚宇的解释站不住脚

头条要闻

媒体:爱奇艺AI艺人库惹众怒 CEO龚宇的解释站不住脚

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

房产
家居
旅游
游戏
教育

房产要闻

狂抢284轮!中海海口再拿重磅宅地!

家居要闻

极简绘梦 克制和谐

旅游要闻

北京欢乐谷也有摩天轮了,北京最高、6月底运营

《武林志》公布新版本更新前瞻:内容完全免费更新,全面优化玩法体验

教育要闻

第8课-Sightseeing + taking photos 观光旅游和拍照

无障碍浏览 进入关怀版