网易首页 > 网易号 > 正文 申请入驻

《现代电影技术》|曲天书等:基于球麦克风阵列的高阶声场记录与重放在电影音频制作中的应用

0
分享至

本文刊发于《现代电影技术》2025年第2期

专家点评

在习近平文化思想和党的二十大及系列全会精神的科学指引与系统部署下,电影领域改革发展持续深化,电影科技能力显著增强,电影产业加快提质升级。伴随观众对高品质沉浸式视听体验的需求日益增长,高新技术格式电影摄制播映技术与工艺流程不断优化,虚拟现实(VR)、增强现实(AR)、扩展现实(XR)等技术的发展与应用为电影产业注入了新活力与新动能,并成为推动电影产业创新升级的重要力量。高阶高保真立体声(HOA)作为一种先进的沉浸式音频录制与还音技术,其核心优势在于能够精准捕捉和重现三维空间中的声场信息,通过球面传声器阵列采集声场信号,并灵活适配多种还音环境。HOA技术能够提供更为丰富的空间声学线索,显著提升音频沉浸感,未来其与人工智能(AI)技术相结合,势必进一步优化和提高电影音频制作的效率和质量,推动声场记录与重放技术的智能化演进。《基于球麦克风阵列的高阶声场记录与重放在电影音频制作中的应用》作为本期“声音采集与控制”专题的开篇之作,聚焦三维声场采集与双耳重放环节,针对传统电影音频采集技术在三维声场捕捉中的局限性,提出基于球麦克风阵列的HOA分析采集技术,并采用球谐域结合虚拟扬声器的方式将HOA信号准确还原为双耳声。通过优化球麦克风阵列设计和头相关传递函数(HRTF)合成算法,减少采集过程中的低频噪声干扰和高频空间混叠现象,提升音频采集与重放的质量与精确度,为HOA技术在电影音频制作与重放领域的应用提供了技术支撑与应用指南,对于推动电影沉浸式音频制作与还音技术的发展具有较高的理论指导意义和实践应用价值。

——徐涛

正高级工程师

中国电影科学技术研究所(中央宣传部电影技术质量检测所)副所长

作 者 简 介

曲天书

北京大学智能学院、北京大学言语听觉研究中心、跨媒体通用人工智能全国重点实验室副教授,博士生导师。

北京大学智能学院、北京大学言语听觉研究中心、跨媒体通用人工智能全国重点实验室教授,博士生导师。

吴玺宏

随着电影对极致沉浸式视听体验的发展需求,沉浸式声场记录和重放技术日显重要。本文围绕电影音频制作技术中的声场记录和重放问题,介绍了基于球麦克风阵列的高阶高保真立体声(Higher Order Ambisonics, HOA)分析技术,并针对球麦克风阵列球谐分解中的低频噪声与高频混叠问题,以及双耳重放技术中的阶数受限问题,给出了相应解决方案,研究表明所提方案可为观众提供更真实、更具沉浸感的声场重放效果,提升了观影体验,在电影音频制作中具有广阔的应用前景。

关键词

虚拟现实;球麦克风阵列;高阶高保真立体声(HOA)技术;双耳重放;球谐分解

1 引言

在当今电影技术发展日新月异的背景下,随着虚拟现实(VR)和增强现实(AR)技术的日益普及,电影制作正逐步从传统的视觉表现迈向更加沉浸的视听体验。

音频采集和播放技术演进已有超过140年历史,从单声道音频到立体声、环绕声,再到如今的沉浸式空间音频(Spatial Audio),每一次技术革新都极大地丰富了人们的听觉感受。沉浸式音频技术的发展为电影音频制作开创了新局面,以精准再现或合成三维声学环境为目标,为观众带来身临其境的听觉体验[1]。

电影音频的重放基于扬声器和耳机(双耳)两种方式。扬声器重放适用于影院等场所,而耳机重放则广泛应用于家庭影院和个人娱乐体验。传统的双耳重放技术通过人头录音实现。20世纪30年代,贝尔实验室将一个名为“奥斯卡”的蜡像模型模拟人头,在其双耳位置安装麦克风进行录音,通过直接在听者双耳分别重放这两个通道的信号取得较好的听感效果[2]。然而,尽管人头录音保留了全面的静态听觉定位线索,但由于只保留了双耳处声压的标量信息,无法支持动态双耳重放,并且由于个体头部、躯干和耳廓等尺寸和形状不同,会导致合成声像失真,出现前后混淆、头中效应等问题[3]。

为解决这些问题,研究人员提出多种改进方法。例如,Toshima 等设计了可旋转假人头[4],通过将听者头部转动信息反馈实现动态双耳重放。Algazi 等在 2004 年提出运动跟踪双耳声(Motion⁃Tracked Binaural, MTB)方法[5],将人头简化为刚性球,双耳简化为刚性球直径所对应两端点,不同直径两端的麦克风记录了双耳处不同角度接收的信号。重放时,根据头部转动信息,选择某一直径两端的麦克风信号作为双耳信号,并通过插值处理未覆盖的方向信号[6]。与直接录制双耳的声压不同,Wenzel 等在 1993 年提出基于对象的音频方法[7],利用头相关传递函数(Head⁃Related Transfer Function,HRTF)进行动态双耳重放。录制与重放的具体做法是使用强指向性麦克风对每个声源独立录制,同时记录其位置及运动轨迹,结合单个无指向性麦克风记录环境声。双耳重放时,基于声源与头部相对方向的实时计算,使用对应方向头相关冲激响应(Head⁃Related Impulse Response, HRIR)卷积合成声源到双耳位置直达声。反射声部分依赖于经验丰富的混音师,根据主观听感调整直混比参数。

20 世纪 70 年代初,Gerzon 提出一阶高保真立体声(First Order Ambisonics,FOA)的实现方案[8],是扬声器重放的基础技术。然而,FOA 的低空间分辨率限制了其实际应用,学者们随后提出了高阶高保真立体声(Higher Order Ambisonics),即HOA技术[8,9]。最初高保真立体声主要用于扬声器重放,2000 年,Landone 和Sandler 将高保真立体声信号引入双耳信号合成中,但其目的是评估多声道系统[10]。2003 年,Noisternig 等提出虚拟扬声器方法,将高保真立体声信号解码至虚拟扬声器,然后将虚拟扬声器信号与对应方向的 HRTF 相乘合成双耳信号[11]。之后,研究者提出将HRTF 转换至球谐域,在球谐域直接合成双耳信号的方法,省去虚拟扬声器解码步骤,既提高了重放效率,又保持了合成效果[12,13]。Ben-Hur等从理论上分析了双耳重放存在的截断误差以及混叠误差之间的关系[14]。

电影音频制作中将多通道麦克风信号转换成HOA 信号作为存储和传输的中间格式,有以下显著优势:(1)提升电影沉浸感。在实际应用中,HOA 信号可为观众提供三维空间声源的精准定位,还能模拟动态的环境音效,使沉浸感更为强烈。(2)推动技术标准化与普及。作为兼容性强且灵活的音频格式,HOA信号支持多种播放方式(如环绕声、双耳重放等),降低了制作门槛,为行业树立新的音频制作标准。(3)有利于开拓新应用场景。随着流媒体平台和VR技术的普及,沉浸式音频逐渐成为吸引观众的关键因素。HOA技术不仅能满足影院大片的音频需求,还能扩展至虚拟现实电影、交互电影等新兴领域,为电影行业开辟新的增长点。

在音响技术的标准化方面,国际音响标准化组织长期致力于推动音频技术的统一与规范。例如,国际电信联盟(ITU)在环绕声和立体声技术上提出了一系列标准,并已在全球范围内应用于影院音响系统。菁彩声(Audio Vivid)是一种基于AI技术的音频编解码标准,旨在提供高沉浸感的音频体验。‌其由世界超高清视频产业联盟(UWA)牵头制定,支持基于声道信号、HOA信号、对象信号等多种信号类型的编码,兼容单声道、立体声、环绕声等多种音频格式。而随着更为复杂的三维音频技术的引入,越来越多的行业标准正逐步形成,以确保不同厂商的音频设备能够互操作并提供一致的用户体验。近年来,关于高阶高保真立体声和空间音频的标准化工作也在进行中,旨在为虚拟现实和电影音频重放提供一种统一、可扩展的解决方案。行业的标准化活动推动了技术的普及,使电影音频制作的门槛逐步降低,并为更广泛的应用提供了可能。

北京大学言语听觉研究中心(以下简称“实验室”)长期致力于空间音频研究,本文以实验室多年的研究为基础,介绍了一种基于 HOA 技术的双耳重放方法。该方法通过球麦克风阵列采集声场信号,转换为 HOA 格式,并结合 HRTF 技术在重放过程中引入空间线索,从而实现更为真实和精确的沉浸式音频体验。

2 基于球麦克风阵列的高阶声场分析与电影音频采集技术的融合

传统电影音频采集技术在捕捉复杂的三维声场时存在局限,难以精准还原电影场景中的丰富音频细节。球麦克风阵列技术为捕捉复杂三维声场提供了可行性。然而,这项技术在实际应用中仍面临一些挑战,尤其是低频噪声干扰和高频空间混叠问题,这些问题不可忽视。本章将详细分析这些问题的成因,并提出相应解决方案,以确保采集到的声音信号质量,从而为电影音频制作提供更为清晰、逼真的声音素材。

2.1 球麦克风阵列设计

球麦克风阵列是一种专门用于捕捉三维声场的麦克风技术,其通过多个麦克风单元的空间分布,采集声场中不同方向的声压信息,并通过信号处理实现高分辨率的空间声场重构。目前,市面上较为流行的球麦克风阵列设计包括SoundField麦克风阵列等一阶高保真立体声采集产品、Eigenmike®等高阶高保真立体声产品。

图1 常见球麦克风阵列采集设备

图1(a)中,SoundField SPS200 是一种经典的一阶高保真立体声麦克风阵列,由四个高质量电容式矢量麦克风单元组成,分布在紧凑的球形结构中[15]。其设计目标是通过硬件和Surround Zone 插件,实现灵活高效的音频工作流。SPS200 输出 A⁃Format信号,可通过软件解码为 B⁃Format信号,用于多种重放方式,如立体声、7.1 环绕声和沉浸式音频格式。这种紧凑、便携的设计使其成为小型制作环境和现场录音的重要工具。然而,由于 FOA 技术的空间分辨率较低,其在高精度声场重构中的表现存在一定限制。

图 1(b)中,Eigenmike® em32 是一种高阶高保真立体声麦克风阵列的典型代表,由 32 个全向麦克风均匀分布在球形表面上。相比于一阶高保真立体声,Eigenmike®支持更高阶次的球谐分解(通常支持到4阶或更高),显著提升了声场的空间分辨率。该技术特别适用于捕捉复杂三维声场细节,广泛应用于电影音频制作、声场测量及沉浸式音频的研究与开发。然而,高阶麦克风阵列在实现过程中面临着合成声音信噪比低且存在空间混叠等技术难题,这也是当前研究的热点问题。

为克服这些挑战,研究者通常通过提升麦克风阵列的通道数来实现声场高阶表达,扩展可用频段范围,从而提高声场采集与重放的性能。为此,实验室提出了一种基于带电粒子假设的麦克风阵列建模方案[16],该模型假设麦克风为带电粒子,受其他麦克风的合力作用,通过多次迭代,麦克风最终达到平衡状态,从而实现近似均匀的分布。此方案适用于任意数量麦克风的情况。实验室据此设计了一种128 通道的球麦克风阵列,该阵列可实现 10 阶声场表达〔图 1(c)〕。这一设计不仅改善了声场的空间分辨率,且能有效解决传统方法中存在的低频噪声和高频混叠问题。

2.2 基于球麦克风阵列的高阶声场分析

本方案采用球坐标系,使用球麦克风阵列记录信号,假设Ω处的麦克风信号如式(1)所示:

2.3 低频噪声干扰问题及解决方案

在电影录音的实际应用场景中,存在设备噪声以及麦克风摆放的位置误差,可视作通道不相关的白噪声(空间白噪声),实际中采集的麦克风信号为式(6):

图2 不同阶数,径向函数倒数的幅度随频率变化图

为抑制低频噪声大幅度放大导致重放声音不可听的问题,一种通用的解决方案是正则化方法,如Tikhonov正则化方法[9],即对径向函数施加正则项,则正则化后的HOA信号为:

式(8)中,λ是正则化参数,需通过实验选择。施加正则化后的径向函数幅度在不同阶对频率的变化如图3所示,噪声在低频的放大倍数被大幅抑制。对比式(6)可发现,正则化方法并没有改善信噪比,而是通过牺牲信号来实现对噪声的抑制。

图3 不同阶数,正则化径向函数的倒数幅度随频率变化图

为降低下截止频率,Parthy等对双半径麦克风阵列展开研究,表明通过半径更大的外层开放式阵列记录低频信号,可以降低下截止频率[17],对比相同麦克风数量的单半径球麦克风阵列,由于在刚性球表面的麦克风数量是双半径的两倍,合成HOA信号的过程可看作是对各通道麦克风信号的加权求和,且各通道的噪声是不相关的,故加权求和会降低平均噪声能量,从而进一步优化低频信号的编码效果。

2.4 空间混叠问题及其解决方案

图4 单声源4阶HOA信号FSAD图及其中12 kHz信号的SAD图

该方法存在几个问题:首先在不满足稀疏性假设的条件下,如存在混响条件,该约束会对HOA信号的估计起反作用;其次,该方法对测量误差敏感,还无法应用于实录数据;最后,由于稀疏性约束是逐频点进行,会造成频率间的不连续。

2022年,实验室高山等提出基于神经网络的HOA信号估计方法[25],通过对物理模型的分析,设计网络的输入以及网络结构使之更具可解释性。使用麦克风信号的球谐域表示作为网络输入,网络仅学习球面声压分布的球谐域表示到声源振幅分布球谐域表示的映射,无需学习球傅里叶变换,降低网络学习的难度,以获得更好的HOA信号估计;网络结构利用子带多层卷积对不同频带存在的问题进行针对性地解决,使用通道间的全连接模拟径向函数逐频点均衡,为电影音频采集技术的发展提供了一种新的思路和方法。

3 球谐域双耳声音信号回放与电影音频重放技术的紧密结合

在电影音频重放过程中,双耳声音信号回放技术至关重要。本章研究了基于高阶高保真立体声技术的双耳声音信号回放方法,通过虚拟扬声器方法和球谐域直接合成方法,实现了高效、准确的双耳声音信号回放。这些技术不仅提升了电影音频的重放质量,还为观众带来了更为真实、沉浸的观影体验。此外,本章还针对双耳截断误差问题进行了深入研究,并提出了改善方案,有效改善了双耳声音信号回放中的低通现象,提高了声音的定位准确性和听感效果。

3.1 球谐域双耳声音信号回放

3.2 双耳截断误差及解决方案

图5 不同截断阶数下左耳信号幅度谱

图6 声源到左耳不同路径示意图

图7 对齐处理后HRTF球谐域表示中各阶能量分布

Evans在1998年提出的基于HRTF球谐域降阶方法[28],较大改善了阶数受限HOA信号的双耳重放的听感效果,其思路是在时域对不同角度的头相关冲激响应峰值进行对齐,从而实现HRTF的球谐域表示降阶;2017年,Andreopoulou提出与频域相关的对齐方法,使用低通滤波器将HRIR分为高频段和低频段,对高频段在时域进行峰值对齐[29];2019年,Schörkhuber等基于上述工作,对补偿的临界频率进行了讨论,实验表明临界频率设为2 kHz较为合适[30]。但上述工作只对4个角度进行实验分析,并且只比较低阶HOA信号的重放结果N<5。2021年,实验室林晶等将人头看成一个球模型,针对不同方向的HRTF进行路径补偿,图7是采用KU⁃100假人头测量的HRTF库,对齐处理后HRTF球谐域系数在各阶的能量分布,蓝线是c90,红线是c98,f=2 kHz,可以看到98%的能量集中在前14阶,90%的能量集中在前7阶,对比图7左右两图可看出对齐处理后有效实现了HRTF球谐域的表示降阶,为电影音频重放质量的提升提供了新的技术手段。

4 结论

高阶声场记录与重放技术作为现代电影音频制作的重要手段之一,具有广阔的应用前景和发展潜力。通过结合球麦克风阵列和高阶高保真立体声技术,能够实现更为精准的三维空间声场记录与重放,为观众带来更真实、沉浸的音频体验。这些技术在虚拟现实、增强现实以及传统电影音频制作中的应用,推动了电影视听体验的革命。然而,这些技术在实际应用过程中仍面临一些挑战,尤其是低频噪声干扰、高频空间混叠以及双耳重放技术的阶数受限等问题。本文针对这些问题进行深入分析,提出了针对性解决方案,成功减少了低频噪声的干扰并有效抑制了空间混叠现象。此外,球麦克风阵列的高阶设计和改进的HRTF处理方法进一步提升了音频重放的质量与精准度,为电影音频制作提供了更为清晰、自然的声音素材。

未来,通过不断优化麦克风阵列设计、提高信号处理算法的效率,我们可以期待更高分辨率的声场采集和更精确的声音定位。此外,智能化的音频处理和动态调整技术也将在电影音频制作中发挥更大作用。

参考文献

(向下滑动阅读)

[1] ZHANG W, SAMARASINGHE P N, CHEN H, et al. Surround by sound: A review of spatial audio recording and reproduction[J]. Applied Sciences, 2017, 7(5): 532.

[2] HAMMER K, SNOW W. Binaural transmission system at academy of music in philadelphia[J]. Memorandum MM⁃3950, Bell Laboratories, 1932.

[3] WENZEL E M, ARRUDA M, KISTLER D J, et al. Localization using non⁃individualized head⁃related transfer functions[J]. Journal of the Acoustical Society of America, 1993, 94(1): 111.

[4] TOSHIMA I, UEMATSU H, HIRAHARA T. A steerable dummy head that tracks three⁃dimensional head movement: TeleHead[J]. Acoustical Science & Technology, 2003, 24(5): 327⁃329.

[5] ALGAZI V R, DUDA R O, THOMPSON M D. Motion⁃tracked binaural sound[J]. Journal of the Audio Engineering Society, 2004, 52(11): 1142⁃1156.

[6] HOM C M, ALGAZI V R, DUDA R O. High⁃frequency interpolation for motion⁃tracked binaural sound[C]//121st Convention of the Audio Engineering Society, 2006.

[7] GERZON M. Periphony: With⁃height sound reproduction[J]. Journal of the Acoustical Society of America, 1973,21(110).

[8] DANIEL J, MOREAU S, NICOL R. Further investigations of high order ambisonics and wavefield synthesis for holophonic sound imaging[C]//114th Convention of the Audio Engineering Society, 1999.

[9] MOREAU S, DANIEL J, BERTET S. 3D sound field recording with higher order ambisonics – objective measurements and validation of a 4th order spherical microphone[C]//120th Convention of the Audio Engineering Society, 2006.

[10] LANDONE C, SANDLER M. Applications of binaural processing to surround sound reproduction in large spaces[C]// IEEE International Symposium on Circuits & Systems, Geneva, Switzerland, 2000: 217⁃220.

[11] NOISTERNIG M, SONTACCHI A, MUSIL T. A 3D ambisonic⁃based binaural sound reproduction system[C]//Audio Engineering Society 24th International Conference: Multichannel Audio, Graz, Austria, 2003.

[12] ZOTKIN D N, DURAISWAMI R, GUMEROV N A. Regularized HRTF fitting using spherical harmonics[C]//IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, NY, USA, 2009:257⁃260.

[13] POLLOW M, NGUYEN K V, WARUSFEL O. Calculation of head⁃related transfer functions for arbitrary field points using spherical harmonics decomposition[J]. Acta Acustica United with Acustica, 2012, 98(1): 72⁃82.

[14] BEN-HUR Z, ALON D L, RAFAELY B. Loudness stability of binaural sound with spherical harmonic representation of sparse head⁃related transfer functions[J]. EURASIP Journal on Audio Speech and Music Processing, 2019(1).

[15] KURZ E, PFAHLER F, FRANK M. Comparison of first⁃order Ambisonics microphone arrays[C]//3rd International Conference on Spatial Audio, ICSA, 2015.

[16] GAO S, WU X, QU T. The microphone array arrangement method for high order ambisonics recordings[C]//In Intelligence Science and Big Data Engineering: 7th International Conference, Dalian, China, 2017: 3⁃10

[17] PARTHY A, JIN C T, SCHAIK A V. Acoustic holography with a concentric rigid and open spherical microphone array[C]//IEEE International Conference on Acoustics, Taipei, Taiwan, 2009:2173⁃2176.

[18] WARD D B, ABHAYAPALA T D. Reproduction of a plane⁃wave sound field using an array of loudspeakers[J]. IEEE Transactions on Speech & Audio Processing, 2001, 9(6): 697⁃707.

[19] RAFAELY B. Analysis and design of spherical microphone arrays[J]. IEEE Transactions on Speech and Audio Processing, 2005, 13(1): 135⁃143.

[20] ALON D L, RAFAELY B .Spherical microphone array with optimal aliasing cancellation[C]//Electrical & Electronics Engineers in Israel.IEEE, 2012.DOI:10.1109/EEEI.2012.6377007.

[21] ALON D L, SHEAFFER J, RAFAELY B. Robust plane⁃wave decomposition of spherical microphone array recordings for binaural sound reproduction[J]. Journal of the Acoustical Society of America, 2015, 138(3): 1925⁃1926.

[22] WABNITZ A, EPAIN N, JIN C T. A frequency⁃domain algorithm to upscale ambisonic sound scenes[C]//IEEE International Conference on Acoustics, Kyoto, Japan, 2012:385⁃388.

[23] EPAIN N, JIN C, SCHAIK A V. The application of compressive sampling to the analysis and synthesis of spatial sound fields[C]//127th Audio Engineering Society Convention, 2009.

[24] LIN J, WU X, QU T. Anti spatial aliasing HOA encoding method based on aliasing projection matrix[C]//IEEE 3rd International Conference on Information Communication and Signal Processing, Shanghai, China, 2020:321⁃325.

[25] GAO S, LIN J, WU X, et al. Sparse DNN model for frequency expanding of higher order ambisonics encoding process[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2022, 30: 1124⁃1135.

[26] BERNSCHÜTZ B, GINER A V, PRSCHMANN C. Binaural reproduction of plane waves with reduced modal order[J]. Acta Acustica united with Acustica, 2014, 100(5): 972⁃983.

[27] BEN-HUR Z, BRINKMANN F, SHEAFFER J. Spectral equalization in binaural signals represented by order⁃truncated spherical harmonics[J]. Journal of the Acoustical Society of America, 2017, 141(6): 4087.

[28] EVANS M J, ANGUS J A, TEW A I. Analyzing head⁃related transfer function measurements using surface spherical harmonics[J]. Journal of the Acoustical Society of America, 1998, 104(4): 2400⁃2411.

[29] ANDREOPOULOU A, KATZ B F. Identification of perceptually relevant methods of interaural time difference estimation[J]. Journal of the Acoustical Society of America, 2017, 142(2): 588⁃589.

[30] SCHÖRKHUBER C, HÖLDRICH R.Linearly and quadratically constrained least⁃squares decoder for signal⁃dependent binaural rendering of ambisonic signals[C]//Audio Engineering Society Conference on Immersive and Interactive Audio, 2019.

【基金项目】国家重点研发计划“虚实融合移动终端的高精度三维光声同步呈现”(2024YFB2808902)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

电影技术微刊 incentive-icons
电影技术微刊
电影技术微刊
633文章数 209关注度
往期回顾 全部

专题推荐

洞天福地 花海毕节 山水馈赠里的“诗与远方

无障碍浏览 进入关怀版