网易首页 > 网易号 > 正文 申请入驻

阿里开源音频生成模型!为AI视频生成匹配音频、分分钟生成游戏音效

0
分享至

智东西7月1日消息,阿里通义实验室全球首个应用思维链(CoT)技术的音频生成模型ThinkSound今天开源,该模型首次将CoT引入音频生成领域,通过多阶段推理框架解决传统视频转音频(V2A)技术的音画错位问题,并开源配套数据集AudioCoT。

ThinkSound模型可直接应用于影视后期制作,为AI生成的视频自动匹配精准的环境噪音与爆炸声效;服务于游戏开发领域,实时生成雨势变化等动态场景的自适应音效;同时可以无障碍视频生产,为视障用户同步生成画面描述与环境音效。

▲ThinkSound模型生成的视频内容

目前,ThinkSound一共有ThinkSound-1.3B、ThinkSound-724M、ThinkSound-533M,开发者可按需调用适配。开发者可通过GitHub、Hugging Face、魔搭社区免费调用Apache 2.0协议的开源代码。

性能验证显示,在VGGSound测试集上,ThinkSound的Fréchet音频距离降至34.56,较此前主流模型MMAudio显著提升20.1%;时序对齐误差率仅9.8%,同比降低37.2%;声音事件判别指标KLPaSST与KLPaNNs分别达到1.52和1.32,均为当前同类模型最佳结果。在面向影视场景的MovieGen Audio Bench测试中,其表现大幅领先Meta的Movie Gen Audio模型。

技术主页:
https://thinksound-project.github.io/

开源地址:
https://huggingface.co/FunAudioLLM
GitHub:https://github.com/liuhuadai/ThinkSound

体验地址:
https://huggingface.co/spaces/FunAudioLLM/ThinkSound

一、三阶段流程完成推理,模拟人类音效师创作流程

ThinkSound模型的突破性在于其成功模拟了专业音效师的核心工作逻辑,通过三阶段推理流程实现自动化音效生成。

首先,模型执行视觉事件解析,逐帧分析视频内容,精准识别关键物理事件如玻璃碎裂轨迹或脚步移动速度,并同时判断画面中物体的材质属性,例如金属、木材或液体,输出带时间戳的结构化事件与属性数据。

然后模型进入声学属性推导阶段,基于解析出的视觉特征,运用物理规则进行映射:依据材质类型推导声音的频谱特性,金属材质会产生高频共振;根据运动强度计算声波能量,雨滴高度直接影响混响强度;同时模拟环境空间如密闭房间或开放广场对声场反射的影响,最终生成物理特性准确的声学参数矩阵。

最后是时序对齐合成阶段,模型通过动态对齐引擎将声学参数与视频帧精确绑定,利用时间编码器自适应补偿画面跳帧或慢动作变化以确保声波连续性,并采用分层渲染技术实时合成音频流,包含基础音色层、环境反射层及运动特效层。

这一流程实现了与画面帧的精准同步,其时序误差率低至仅9.8%,较传统模型大幅降低37.2%,从而将传统手工音效制作中耗时数小时的音画对齐工作压缩至分钟级完成。

在生物声学场景中,ThinkSound模型生成的婴儿哭声音频严格匹配表情动作变化,其音高动态范围与呼吸节奏波动精准遵循婴幼儿生理发声模式,通过时序对齐算法确保哭声强度峰值与面部扭曲程度实现帧级同步。

ThinkSound-1.3B的参数量为13亿,是当前开源版本中规模最大的模型,适合专业级音效生成任务;ThinkSound-724M的参数量为7.24亿,该模型平衡了生成质量与计算效率。适合需要较高音效质量但资源受限的场景;ThinkSound-533M的参数量为5.33亿),定位为轻量级入门模型。在保证基础音效生成能力的同时,显著降低硬件门槛,适用于快速原型开发和教育研究用途。

二、整合总计2531.8小时音频,构建全球首个AudioCoT数据集

为突破传统音频生成模型“黑箱操作”、缺乏可解释设计逻辑的瓶颈,阿里团队构建了业界首个且规模最大的带思维链标注音频数据集AudioCoT。

该数据集整合了总计2531.8小时的音频、视觉素材,涵盖影视片段库、高保真自然声场采集及国际知名专业音效库。

AudioCoT的核心突破在于其思维链标注体系:每条数据均由专业团队深度标注出完整的逻辑链条。标注团队从视觉事件分析识别画面中的关键触发元素,到声学特性推理推导声音应有的物理和感知属性,再到音效合成策略明确实现目标声音的技术路径。这种从视觉输入到声音输出的完整逻辑映射,为模型构建了理解声音设计“为什么”和“怎么做”的知识图谱。

ThinkSound在训练中不仅学习生成声音,还能够基于画面元素自动推理并调整生成声音的属性,改变了依赖预设标签的黑箱生成模式,实现了生成高质量音频的同时“知其所以然”,增强AI生成音效的真实感和同步性。

▲ThinkSound模型增强AI生成音效的真实感和同步性

三、关键指标超越主流方案,时序对齐误差率降低37%

在权威测试集VGGSound上,ThinkSound的Fréchet音频距离(FD)降至34.56(对比MMAudio的43.26),逼近真实音效分布;声音事件判别精度KLPaSST/KLPaNNs达1.52/1.32,ThinkSound超越MMAudio等标杆模型。

在影视场景测试集MovieGen Audio Bench中,ThinkSound以20%优势超越Meta的Movie Gen Audio模型,尤其在爆炸、金属摩擦等复杂声效的时序对齐误差率降低37%。

为验证ThinkSound核心技术设计的必要性,阿里团队展开消融实验。

当前视频生成音频(V2A)技术长期面临的核心痛点,是模型难以捕捉视觉事件与声音之间的物理关联。例如,玻璃碎裂的画面本应触发高频清脆声,但传统模型常输出模糊的“破碎声”或与画面时序错位的音效。其根源在于数据与建模的局限性,主流方案依赖文本、音频的浅层匹配,缺乏对声学物理规律的推理能力。例如,早期模型Make-An-Audio虽通过CLAP文本编码器和频谱自编码器提升可控性,但仍无法解析“物体材质如何影响声音频率”这类逻辑链。

同时,传统模型还存在时序错位问题,通用模型如Meta的Movie Gen Audio在复杂场景中常出现音画不同步,例如爆炸声滞后于火光画面,因模型未建立事件因果链。

团队将视频的CLIP视觉特征与T5文本推理特征在时间轴上对齐融合,相比单独输入音频特征,音画同步精度提升23%。

门控融合机制通过动态分配权重,例如会优先处理视觉事件声效而非环境背景音,在KLPaSST指标上实现17%的提升,Fréchet音频距离降低12%,超越常规的拼接融合与加法融合策略。

结语:ThinkSound开源,阿里三大模型补全音频工具链

ThinkSound的发布标志着音频生成从“能发声”迈向“懂画面”的智能阶段。其技术价值不仅在于性能提升,更在于将专业音效设计流程标准化、自动化,把传统需数小时的手工音画对齐工作压缩至分钟级完成。

对产业而言,ThinkSound与阿里此前开源CosyVoice 2.0(语音合成)、Qwen2.5-Omni(全模态交互)形成技术矩阵,覆盖从语音到环境音效的全场景音频生成需求。开发者可基于此构建影视配音、游戏实时音效、无障碍视频制作等低成本工具,尤其为中小创作者提供接近专业工作室的音频生产能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳罗湖区:水贝黄金平台杰我睿公司已启动兑付

深圳罗湖区:水贝黄金平台杰我睿公司已启动兑付

界面新闻
2026-01-31 17:24:18
全球只有5位领导人被永久保留遗体,他们都是谁

全球只有5位领导人被永久保留遗体,他们都是谁

扶苏聊历史
2026-01-29 16:13:42
郭艾伦仅6分赛季最低!广州丢绝平难阻山东15战13胜 高诗岩14+7

郭艾伦仅6分赛季最低!广州丢绝平难阻山东15战13胜 高诗岩14+7

醉卧浮生
2026-01-31 21:38:59
辽宁双杀天津:赵继伟12+6+9莫兰德14+22+9 王岚嵚22分

辽宁双杀天津:赵继伟12+6+9莫兰德14+22+9 王岚嵚22分

醉卧浮生
2026-01-31 21:26:48
知道不好骗了,所以开始硬抢了!

知道不好骗了,所以开始硬抢了!

胖胖说他不胖
2026-01-31 13:36:22
重庆一中学家委会负责人要求每人交263.3元,再换成现金给班主任且使用明细不公示 ,家长报警

重庆一中学家委会负责人要求每人交263.3元,再换成现金给班主任且使用明细不公示 ,家长报警

扬子晚报
2026-01-31 20:22:18
“很晦气,这房子不敢住了!” 杭州夫妻买房2年后得知一个消息,想退房了

“很晦气,这房子不敢住了!” 杭州夫妻买房2年后得知一个消息,想退房了

潇湘晨报
2026-01-31 10:38:17
官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

史行途
2026-01-30 09:43:04
别买这种“加绒裤”!央视曝光,真的有毒,穿得越久,危害越大

别买这种“加绒裤”!央视曝光,真的有毒,穿得越久,危害越大

离离言几许
2026-01-30 20:54:49
别慌,这次不一样!专家解析黄金、白银史诗级暴跌背后

别慌,这次不一样!专家解析黄金、白银史诗级暴跌背后

凤凰网财经
2026-01-31 15:09:38
曝特朗普曾强迫13-14岁未成年为其“咬”,爱泼斯坦文件揭事发35年前

曝特朗普曾强迫13-14岁未成年为其“咬”,爱泼斯坦文件揭事发35年前

不掉线电波
2026-01-31 21:31:42
相亲点餐8000元男子吃完跑路,女子多次联系无果,让婚介公司买单

相亲点餐8000元男子吃完跑路,女子多次联系无果,让婚介公司买单

汉史趣闻
2026-01-30 14:31:58
害怕春节被“斩首”?赖清德当局加紧春节备战!模拟解放军突袭机场等关键设施,台军演练短程防空接战、地空整体作战、无人机攻击等

害怕春节被“斩首”?赖清德当局加紧春节备战!模拟解放军突袭机场等关键设施,台军演练短程防空接战、地空整体作战、无人机攻击等

每日经济新闻
2026-01-31 19:15:15
比尔·盖茨打破沉默,否认跟俄罗斯女孩发生关系后染病,引发争议

比尔·盖茨打破沉默,否认跟俄罗斯女孩发生关系后染病,引发争议

译言
2026-01-31 07:46:07
女子称退衣服不慎寄走奔驰钥匙 重新配一把要6000多元 希望商家能还给她

女子称退衣服不慎寄走奔驰钥匙 重新配一把要6000多元 希望商家能还给她

闪电新闻
2026-01-31 15:08:35
突发!伊朗阿巴斯港传出爆炸声!伊媒否认革命卫队海军司令遭暗杀

突发!伊朗阿巴斯港传出爆炸声!伊媒否认革命卫队海军司令遭暗杀

每日经济新闻
2026-01-31 20:19:15
今日金价:1月31日大家做好准备!接下来,黄金有可能会历史重演

今日金价:1月31日大家做好准备!接下来,黄金有可能会历史重演

现代小青青慕慕
2026-01-31 10:41:05
爆iPhone 18 Pro将首搭星链卫星通信,无需额外硬件实现“无死角”联网

爆iPhone 18 Pro将首搭星链卫星通信,无需额外硬件实现“无死角”联网

环球网资讯
2026-01-30 15:14:07
太残暴!白银史诗级大崩盘,大v做空1天赚120万?分析师:金属盛宴结束

太残暴!白银史诗级大崩盘,大v做空1天赚120万?分析师:金属盛宴结束

金石随笔
2026-01-31 09:58:47
中国金币集团提醒!理性参与投资,注意管控风险

中国金币集团提醒!理性参与投资,注意管控风险

每日经济新闻
2026-01-29 16:46:11
2026-02-01 01:31:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11160文章数 116946关注度
往期回顾 全部

科技要闻

SpaceX申请部署百万卫星 打造太空数据中心

头条要闻

新年"打虎"不停歇 三天落马两个正部级

头条要闻

新年"打虎"不停歇 三天落马两个正部级

体育要闻

新时代得分王!东皇37+三双刷7纪录怒吼释放

娱乐要闻

李维嘉、吴昕、汪涵现身魏文彬追悼会

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

健康
本地
数码
艺术
军事航空

耳石症分类型,症状大不同

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

2025中国扫地机线上销量同比增长10.1% 市场“前高后降”

艺术要闻

半世纪的蜕变:她从初中辍学到传奇艺术家!

军事要闻

特朗普称庞大舰队驶向伊朗 已超委内瑞拉

无障碍浏览 进入关怀版