阿里通义实验室开源ThinkSound：AI音频生成迈入"有逻辑地听"|音效|高保真|心率监测功能|thinksound

阿里通义实验室开源ThinkSound：AI音频生成迈入"有逻辑地听"

2025-07-05 16:41:10　来源: Al文体生活

湖南举报

分享至

7月4日，阿里云旗下"通义大模型"公众号宣布，其首个音频生成模型

ThinkSound

正式开源。这一突破性技术首次将

思维链（CoT）

引入音频生成领域，让AI不再只是机械"看图配音"，而是能像人类一样理解画面事件与声音的逻辑关联，实现高保真、强同步的空间音频合成。

从"听图说话"到"听懂画面"

传统视频转音频（V2A）技术常面临两大痛点：一是生成的音频过于通用，无法精准匹配动态细节（如猫头鹰鸣叫与起飞时机的匹配）；二是缺乏对空间关系的感知，导致声画错位。ThinkSound的核心创新在于通过

多模态大语言模型（MLLM）

和

统一音频生成模型

的协同，分三阶段解析画面：先理解全局场景，再聚焦具体物体，最后响应用户指令。

例如，面对一段森林视频，AI不仅能识别"鸟叫"，还能推断"猫头鹰在树枝间跳跃时伴随摩擦声"的细节，生成符合物理规律的声效。这种能力源于通义实验室构建的全球首个

链式推理多模态音频数据集AudioCoT

。

AudioCoT：让AI学会"结构化听音"

为训练ThinkSound，团队整合了VGGSound、AudioSet等开源数据，筛选出

2531.8小时

的高质量样本，覆盖动物鸣叫、机械声、环境音等场景。更关键的是，他们设计了

精细化的数据过滤流程

——通过自动化质量检测和人工校验（占比超5%），确保每条数据能支撑AI的逻辑推理。此外，AudioCoT还包含交互式编辑样本，为后续功能扩展预留接口。

开源意义：降低创意门槛，推动行业变革

ThinkSound的开源将直接惠及影视制作、游戏开发等领域。过去依赖音效师手动匹配声画的繁琐流程，如今可通过AI高效完成，尤其对中小团队而言，大幅降低了高质量音频制作的成本。阿里云表示，未来将持续优化模型在复杂场景下的表现，例如多人对话、情感化音效等方向。

这一突破标志着AI音频生成从"感知"迈向"认知"阶段。当机器学会像人类一样思考声音与画面的关联，虚拟世界的沉浸感将被重新定义。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.