空间音频(Spatial Audio)的用户留存率比杜比全景声(Dolby Atmos)原生内容高出340%——但后者在曲库中的占比不到7%。Franz Bender在瓦伦西亚的一个懒洋洋的下午,盯着这个数据看了十分钟,然后打开笔记本写了一段神经网络代码。
这段代码最终跑在浏览器里,把普通立体声实时转成空间音频。没有订阅费,没有设备锁,没有苹果生态绑架。
空间音频的本质,是旧酒装新壶
Bender在博客里写得很直白:空间音频就是环绕声的营销改名。你朋友父母家那套Bose 5.1系统,五个小卫星箱加一个低音炮,原理一模一样。
但苹果的高明之处在于,他们把这套需要物理布线的系统,塞进了两只耳机里。通过头部追踪算法,让声场随你转头而移动——转头时声音固定在你面前的"虚拟空间"里,而不是跟着耳朵跑。
这套体验依赖两个前提:第一,音源必须是杜比全景声格式;第二,你得有AirPods Pro或Max。Bender的痛点在于,他喜欢的乐队根本没人做全景声母带。"功能存在,内容缺席",这是空间音频推广三年的死结。
神经网络的解题思路:猜出"缺失的声道"
立体声只有左右两个声道。5.1需要左前、右前、中置、左后、右后、低音炮六个。差出来的四个声道,Bender选择让神经网络"脑补"。
训练数据来自开源的5.1电影音轨。模型学习的是频谱特征与空间位置的映射关系——哪些频率通常出现在后方(环境混响),哪些固定在前方(人声对白)。Bender把它类比为"音频版的深度估计":就像AI从单张图片猜三维结构,这里是从双声道反推多声道。
浏览器端运行依赖WebAudio API和TensorFlow.js。推理延迟控制在40毫秒以内,低于人类可感知的音频延迟阈值(约50毫秒)。这意味着你可以把它塞进任何网页播放器,不需要用户下载App。
效果怎么样?Bender自己打了分
他在博客里贴了一段AB测试的录音对比。原始立体声版本像"声音被拍扁在两面墙之间",神经网络版本则让鼓点有了纵深位置,人声略微前置,合成器飘在脑后。
但Bender也承认局限。复杂编曲会暴露 artifacts——某些频段出现相位错乱,听起来像"隔着毛玻璃听乐队"。他目前的解决方案是保守策略:当模型置信度低于阈值时,自动回退到原始立体声,不做强行扩展。
这个项目开源在GitHub,核心模型只有8MB。Bender的下一步是优化人声分离模块,让主唱永远锁定在中置声道,而不是随编曲复杂度左右漂移。
苹果会怎么反应?Bender在文末留了句话:「他们要么收购这个思路,要么在下次系统更新里做类似的功能。空间音频不应该被格式和硬件绑架。」
你耳机里正在放的那首歌,如果突然有了前后左右的方位感,你会关掉它,还是单曲循环?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.