阿里开源音频生成模型！为AI视频生成匹配音频、分分钟生成游戏音效|声效|编码器|高保真|audio|阿里巴巴集团|心率监测功能

阿里开源音频生成模型！为AI视频生成匹配音频、分分钟生成游戏音效

2025-07-01 20:49:11　来源: 智东西

北京举报

分享至

智东西7月1日消息，阿里通义实验室全球首个应用思维链（CoT）技术的音频生成模型ThinkSound今天开源，该模型首次将CoT引入音频生成领域，通过多阶段推理框架解决传统视频转音频（V2A）技术的音画错位问题，并开源配套数据集AudioCoT。

ThinkSound模型可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。

▲ThinkSound模型生成的视频内容

目前，ThinkSound一共有ThinkSound-1.3B、ThinkSound-724M、ThinkSound-533M，开发者可按需调用适配。开发者可通过GitHub、Hugging Face、魔搭社区免费调用Apache 2.0协议的开源代码。

性能验证显示，在VGGSound测试集上，ThinkSound的Fréchet音频距离降至34.56，较此前主流模型MMAudio显著提升20.1%；时序对齐误差率仅9.8%，同比降低37.2%；声音事件判别指标KLPaSST与KLPaNNs分别达到1.52和1.32，均为当前同类模型最佳结果。在面向影视场景的MovieGen Audio Bench测试中，其表现大幅领先Meta的Movie Gen Audio模型。

技术主页：
https://thinksound-project.github.io/

开源地址：
https://huggingface.co/FunAudioLLM
GitHub：https://github.com/liuhuadai/ThinkSound

体验地址：
https://huggingface.co/spaces/FunAudioLLM/ThinkSound

一、三阶段流程完成推理，模拟人类音效师创作流程

ThinkSound模型的突破性在于其成功模拟了专业音效师的核心工作逻辑，通过三阶段推理流程实现自动化音效生成。

首先，模型执行视觉事件解析，逐帧分析视频内容，精准识别关键物理事件如玻璃碎裂轨迹或脚步移动速度，并同时判断画面中物体的材质属性，例如金属、木材或液体，输出带时间戳的结构化事件与属性数据。

然后模型进入声学属性推导阶段，基于解析出的视觉特征，运用物理规则进行映射：依据材质类型推导声音的频谱特性，金属材质会产生高频共振；根据运动强度计算声波能量，雨滴高度直接影响混响强度；同时模拟环境空间如密闭房间或开放广场对声场反射的影响，最终生成物理特性准确的声学参数矩阵。

最后是时序对齐合成阶段，模型通过动态对齐引擎将声学参数与视频帧精确绑定，利用时间编码器自适应补偿画面跳帧或慢动作变化以确保声波连续性，并采用分层渲染技术实时合成音频流，包含基础音色层、环境反射层及运动特效层。

这一流程实现了与画面帧的精准同步，其时序误差率低至仅9.8%，较传统模型大幅降低37.2%，从而将传统手工音效制作中耗时数小时的音画对齐工作压缩至分钟级完成。

在生物声学场景中，ThinkSound模型生成的婴儿哭声音频严格匹配表情动作变化，其音高动态范围与呼吸节奏波动精准遵循婴幼儿生理发声模式，通过时序对齐算法确保哭声强度峰值与面部扭曲程度实现帧级同步。

ThinkSound-1.3B的参数量为13亿，是当前开源版本中规模最大的模型，适合专业级音效生成任务；ThinkSound-724M的参数量为7.24亿，该模型平衡了生成质量与计算效率。适合需要较高音效质量但资源受限的场景；ThinkSound-533M的参数量为5.33亿），定位为轻量级入门模型。在保证基础音效生成能力的同时，显著降低硬件门槛，适用于快速原型开发和教育研究用途。

二、整合总计2531.8小时音频，构建全球首个AudioCoT数据集

为突破传统音频生成模型“黑箱操作”、缺乏可解释设计逻辑的瓶颈，阿里团队构建了业界首个且规模最大的带思维链标注音频数据集AudioCoT。

该数据集整合了总计2531.8小时的音频、视觉素材，涵盖影视片段库、高保真自然声场采集及国际知名专业音效库。

AudioCoT的核心突破在于其思维链标注体系：每条数据均由专业团队深度标注出完整的逻辑链条。标注团队从视觉事件分析识别画面中的关键触发元素，到声学特性推理推导声音应有的物理和感知属性，再到音效合成策略明确实现目标声音的技术路径。这种从视觉输入到声音输出的完整逻辑映射，为模型构建了理解声音设计“为什么”和“怎么做”的知识图谱。

ThinkSound在训练中不仅学习生成声音，还能够基于画面元素自动推理并调整生成声音的属性，改变了依赖预设标签的黑箱生成模式，实现了生成高质量音频的同时“知其所以然”，增强AI生成音效的真实感和同步性。

▲ThinkSound模型增强AI生成音效的真实感和同步性

三、关键指标超越主流方案，时序对齐误差率降低37%

在权威测试集VGGSound上，ThinkSound的Fréchet音频距离（FD）降至34.56（对比MMAudio的43.26），逼近真实音效分布；声音事件判别精度KLPaSST/KLPaNNs达1.52/1.32，ThinkSound超越MMAudio等标杆模型。

在影视场景测试集MovieGen Audio Bench中，ThinkSound以20%优势超越Meta的Movie Gen Audio模型，尤其在爆炸、金属摩擦等复杂声效的时序对齐误差率降低37%。

为验证ThinkSound核心技术设计的必要性，阿里团队展开消融实验。

当前视频生成音频（V2A）技术长期面临的核心痛点，是模型难以捕捉视觉事件与声音之间的物理关联。例如，玻璃碎裂的画面本应触发高频清脆声，但传统模型常输出模糊的“破碎声”或与画面时序错位的音效。其根源在于数据与建模的局限性，主流方案依赖文本、音频的浅层匹配，缺乏对声学物理规律的推理能力。例如，早期模型Make-An-Audio虽通过CLAP文本编码器和频谱自编码器提升可控性，但仍无法解析“物体材质如何影响声音频率”这类逻辑链。

同时，传统模型还存在时序错位问题，通用模型如Meta的Movie Gen Audio在复杂场景中常出现音画不同步，例如爆炸声滞后于火光画面，因模型未建立事件因果链。

团队将视频的CLIP视觉特征与T5文本推理特征在时间轴上对齐融合，相比单独输入音频特征，音画同步精度提升23%。

门控融合机制通过动态分配权重，例如会优先处理视觉事件声效而非环境背景音，在KLPaSST指标上实现17%的提升，Fréchet音频距离降低12%，超越常规的拼接融合与加法融合策略。

结语：ThinkSound开源，阿里三大模型补全音频工具链

ThinkSound的发布标志着音频生成从“能发声”迈向“懂画面”的智能阶段。其技术价值不仅在于性能提升，更在于将专业音效设计流程标准化、自动化，把传统需数小时的手工音画对齐工作压缩至分钟级完成。

对产业而言，ThinkSound与阿里此前开源CosyVoice 2.0（语音合成）、Qwen2.5-Omni（全模态交互）形成技术矩阵，覆盖从语音到环境音效的全场景音频生成需求。开发者可基于此构建影视配音、游戏实时音效、无障碍视频制作等低成本工具，尤其为中小创作者提供接近专业工作室的音频生产能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.