7月4日,阿里云旗下"通义大模型"公众号宣布,其首个音频生成模型
ThinkSound
正式开源。这一突破性技术首次将
思维链(CoT)
引入音频生成领域,让AI不再只是机械"看图配音",而是能像人类一样理解画面事件与声音的逻辑关联,实现高保真、强同步的空间音频合成。
从"听图说话"到"听懂画面"
传统视频转音频(V2A)技术常面临两大痛点:一是生成的音频过于通用,无法精准匹配动态细节(如猫头鹰鸣叫与起飞时机的匹配);二是缺乏对空间关系的感知,导致声画错位。ThinkSound的核心创新在于通过
多模态大语言模型(MLLM)
和
统一音频生成模型
的协同,分三阶段解析画面:先理解全局场景,再聚焦具体物体,最后响应用户指令。
例如,面对一段森林视频,AI不仅能识别"鸟叫",还能推断"猫头鹰在树枝间跳跃时伴随摩擦声"的细节,生成符合物理规律的声效。这种能力源于通义实验室构建的全球首个
链式推理多模态音频数据集AudioCoT
。
AudioCoT:让AI学会"结构化听音"
为训练ThinkSound,团队整合了VGGSound、AudioSet等开源数据,筛选出
2531.8小时
的高质量样本,覆盖动物鸣叫、机械声、环境音等场景。更关键的是,他们设计了
精细化的数据过滤流程
——通过自动化质量检测和人工校验(占比超5%),确保每条数据能支撑AI的逻辑推理。此外,AudioCoT还包含交互式编辑样本,为后续功能扩展预留接口。
开源意义:降低创意门槛,推动行业变革
ThinkSound的开源将直接惠及影视制作、游戏开发等领域。过去依赖音效师手动匹配声画的繁琐流程,如今可通过AI高效完成,尤其对中小团队而言,大幅降低了高质量音频制作的成本。阿里云表示,未来将持续优化模型在复杂场景下的表现,例如多人对话、情感化音效等方向。
这一突破标志着AI音频生成从"感知"迈向"认知"阶段。当机器学会像人类一样思考声音与画面的关联,虚拟世界的沉浸感将被重新定义。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.