巴斯克大学让计算机直接"听懂"大脑中的语音和音素|信号|语音学|上下文|语音识别

分享至

这项由西班牙巴斯克大学HiTZ中心通信工程系的Xabier de Zuazo、Ibon Saratxaga和Eva Navas三位研究员完成的研究发表于2025年12月，论文编号为arXiv:2512.01443v1。研究团队开发了名为"MEGConformer"的大脑解码系统，能够从脑磁图信号中直接识别语音活动和具体的音素内容。有兴趣深入了解的读者可以通过该论文编号在arXiv平台查询完整论文，相关的技术文档、源代码和模型检查点已在GitHub上的libribrain-experiments项目中公开。

想象一下，当你听到别人说话时，你的大脑就像一个巨大的录音棚，里面有无数个"麦克风"在同时记录着语言信息的处理过程。这些"麦克风"实际上是大脑中的神经元，它们产生的电磁信号可以被脑磁图设备捕捉到。巴斯克大学的研究团队就像是音响工程师，他们设计了一套智能系统，能够从这些复杂的"录音"中准确识别出人们正在听到的语音内容。

这项研究的背景是LibriBrain 2025 PNPL竞赛，这是一个专门针对大脑信号解码的学术竞赛。研究团队面临的挑战就像是要在一个嘈杂的录音棚里，从306个同时工作的麦克风中识别出两种不同的信息：第一种是判断现在有没有人在说话，第二种是识别具体说了什么音素。音素就像是语言的基本积木块，比如"ba"、"pa"这样的最小发音单位。

研究团队选择了一种叫做Conformer的人工智能架构作为他们的"翻译器"。这个架构原本是为语音识别任务设计的，就像一个既懂得关注细节又能把握全局的聪明助手。它能同时处理局部的时间模式和全局的上下文信息，这正好符合大脑信号处理的特点。研究人员巧妙地将这个原本用于处理声音的系统改造成了能够理解大脑信号的"大脑语言翻译器"。

在技术实现上，研究团队面对的是一个复杂的工程挑战。他们需要处理来自306个传感器通道的原始脑磁图数据，这些数据经过了标准的预处理流程，包括坏通道插值、头部位置校正、信号空间分离、陷波滤波和带通滤波等步骤。这就像是在录音前先要调试设备、消除噪音、确保音质清晰一样。处理后的信号被下采样到250赫兹，然后根据不同任务切分成不同长度的时间窗口。

一、语音检测任务：从噪音中捕捉话语的艺术

在语音检测任务中，研究团队的目标就像是训练一个高度敏感的"语音探测器"，能够准确判断大脑正在处理语音还是处于安静状态。他们使用了2.5秒长的时间窗口，相当于625个数据样本点，这个长度足以捕捉到完整的语音片段特征。

系统的核心是一个轻量级的一维卷积投影层，它的作用就像是一个智能的信号适配器，将306个脑磁图通道的信息压缩成144维的特征表示。这个过程类似于将一个交响乐团的所有乐器声音混合成一个高质量的立体声录音。之后是一个丢弃率为0.1的dropout层，用来防止模型过度拟合，就像是给学习过程加入一些"遗忘机制"，确保模型不会死记硬背而是真正学会泛化。

Conformer的核心结构采用了所谓的"通心粉布局"，这个有趣的名字描述了其层级结构：前馈网络、多头自注意力机制、深度卷积和第二个前馈网络，所有这些都通过残差连接串联起来。对于语音检测任务，研究团队使用了16层的Conformer Small配置，具有4个注意力头、576维的前馈网络隐藏层和31的卷积核大小。最终的分类器只有一个输出节点，使用二元交叉熵损失和0.1的标签平滑技术进行训练。

研究团队还开发了一种专门针对脑磁图信号的数据增强技术，他们称之为MEGAugment，这是SpecAugment技术的脑信号版本。这种技术包含两种操作：时间掩码和频带阻断。时间掩码会随机将两个时间段的信号置零，每个段最大宽度为180个样本点；频带阻断则会随机抑制特定频带的信号，针对θ波、α波、β波、γ波和高γ波等不同脑电节律，使用四阶无限冲激响应陷波器，激活概率为0.4。

在训练过程中，输入窗口以60个样本的步长滑动，这种重叠策略增加了训练样本的多样性。在推理阶段，系统输出语音存在的概率，然后通过移除持续时间少于60个样本（240毫秒）的短语音片段进行平滑处理，确保检测结果的稳定性。

二、音素分类任务：解密大脑中的语言密码

音素分类任务的复杂程度就像是要从交响乐演奏中识别出每一个乐器的具体音符。研究团队面临的挑战是从平均化的脑磁图信号中识别出39种不同的英语音素，这些音素覆盖了英语语音的基本构成单元。

与语音检测任务不同，音素分类使用了较短的0.5秒时间窗口，相当于125个样本点。这个选择反映了音素作为语音基本单位的时间特性。更重要的是，研究团队在原始输入后立即添加了实例级归一化层，这个看似简单的改进却是整个系统成功的关键。实例归一化会对每个样本的每个通道在时间维度上进行归一化处理，不维护运行统计信息，这样做能够有效消除不同时间窗口和不同记录会话之间的幅度和尺度差异。

研究团队发现，训练数据、验证数据和测试数据之间存在显著的统计分布差异，特别是在holdout（保留测试集）上表现出双峰分布特征，而验证集和测试集则呈现单峰分布。这种分布偏移就像是录音设备在不同时间段的音量设置发生了变化，如果不加以处理，会严重影响模型的泛化能力。实例归一化有效地解决了这个问题，将holdout数据集上的性能提升了超过200%。

针对音素分类任务，研究团队设计了一个定制的Conformer架构，包含7层、12个注意力头、2048维的前馈网络和127的卷积核大小。这个配置专门针对较小的数据集进行了优化。由于音素类别存在严重的不平衡问题，研究团队采用了平方根倒数样本数（ISNS）规则进行类别加权，其中每个类别c的权重与该类别训练样本数量的平方根成反比，并确保所有权重的平均值为1。

由于竞赛中的holdout记录是基于100个样本的平均值来改善信噪比的，研究团队相应地调整了训练策略。他们使用了100样本动态分组加载器，这个加载器在每个训练周期都会重新打乱分组，让模型能够看到同一类别的许多独立平均值，同时保持时间局部性。这种策略相当于让模型在训练时就适应了测试时会遇到的数据格式。

为了进一步提高性能的稳定性，研究团队采用了集成学习策略，将五个最佳模型种子的预测结果进行集成，最终通过多数投票选择音素类别。这种方法类似于让多个专家同时判断，然后采用民主投票的方式做出最终决定。

三、实验设置与训练策略：精心调校的学习过程

研究团队严格遵循LibriBrain竞赛的官方数据分割方案，使用提供的训练集、验证集、测试集和holdout集进行所有实验。在他们的实践中，重新分割或重新平衡数据并没有带来一致的改善，因此他们保持了原始配置。

训练过程使用了AdamW优化器，这是Adam优化器的改进版本，能够更好地处理权重衰减。学习率设置为1×10^-4，权重衰减为5×10^-2，批量大小为256。采用基于验证集F1-macro分数的早停策略，耐心值设为10，这意味着如果连续10个周期验证性能没有改善，训练就会停止。研究团队选择F1-macro作为模型选择的主要指标，这个指标能够平衡地考虑所有类别的性能，特别适合处理类别不平衡的问题。

评估严格遵循竞赛协议，在测试集和holdout集上使用F1-macro作为主要评价指标。所有模型都在单独的NVIDIA A100和H100 GPU上训练，每个模型配置都用十个随机种子进行训练，以确保结果的可靠性和可比性。

四、研究成果与性能表现：超越基准的突破性表现

研究团队的MEGConformer模型在两个任务上都取得了令人瞩目的成绩。在语音检测任务中，最佳模型达到了88.9%的F1-macro分数，显著超越了官方基准的68.0%。在音素分类任务中，模型达到了65.8%的F1-macro分数，同样超过了竞赛基准的60.4%。这些成绩不仅确认了Conformer架构从语音识别到脑信号解码的成功迁移，也证明了该系统在处理传统卷积和transformer模型方面的竞争力。

通过详细的消融实验，研究团队揭示了各个组件对性能提升的贡献。在语音检测任务中，将输入窗口从0.5秒延长到2.5秒带来了最大的性能提升，增幅达到10.8%。这个发现说明了时间上下文信息对于语音检测的重要性，更长的时间窗口能够捕捉到更完整的语音模式。采用Conformer架构相比SEANet基准模型带来了9.0%的提升，这证明了Conformer在处理时序信号方面的优势。将训练步长减少到60个样本点贡献了2.8%的性能改善，这表明更密集的采样策略有助于模型学习更细粒度的特征。

有趣的是，MEGAugment数据增强技术在最终配置中的净效应几乎为零，只有0.01%的提升。但研究团队在早期模型版本中观察到了1.8%的显著改善，这说明数据增强的效果与具体的模型配置密切相关。

在音素分类任务中，动态分组策略相比固定分组带来了13.3%的相对改善，这是所有改进中最大的单项贡献。这个结果突显了训练策略对于处理平均化样本的重要性。平方根倒数类别加权相比无权重损失函数提升了7.6%，有效缓解了类别不平衡问题。定制的Conformer架构相比标准的Conformer Small带来了0.5%的微小提升，这表明针对特定数据特征的架构调整是有价值的。集成学习策略在holdout集上贡献了额外的15.4%提升，这强调了模型集成在提高预测稳定性方面的重要作用。

最关键的发现是实例级归一化对holdout泛化性能的巨大影响。这个技术相比批归一化提升了17.8%，相比层归一化提升了88.2%，其重要性在处理分布偏移方面不言而喻。

五、深入探索：从语音特征到数据规模的全面分析

为了更好地理解脑信号解码的机制，研究团队还探索了基于语音学特征的解码方法。他们将音素分类任务分解为更基础的语音学特征，包括爆破音、摩擦音、塞擦音、鼻音、流音、滑音以及浊音特征的二元分类任务。这种方法类似于将复杂的音乐识别任务分解为识别节拍、音调、音色等基础要素。

在这些语音学特征中，浊音特征显示出最强的解码信号，F1-macro分数接近58%，尽管其标签平衡度与语音检测任务相似，但性能仍有明显差距，这暗示着解码某些细粒度语音特征可能面临固有的挑战。发音方式特征如爆破音和摩擦音表现出中等的可解码性，而塞擦音作为一个复合且低频的类别（仅占0.97%），其性能基本处于随机水平。

研究团队还通过数据规模消融实验探索了数据集大小对解码性能的影响。结果显示，语音检测性能随着数据增加快速提升然后开始饱和，这表明该任务可能已经接近单被试数据的性能上限。相比之下，音素分类任务虽然显示出一定的收益递减迹象，但仍呈现上升趋势，没有明显的平台期，这意味着更大规模的被试内记录仍可能带来显著的性能提升。

六、技术创新与方法论贡献：开创性的解决方案

这项研究的技术贡献体现在多个层面。首先是架构适配方面的创新，研究团队成功地将原本设计用于语音识别的Conformer架构适配到脑磁图信号处理，这种跨模态的架构迁移为神经信号处理领域提供了新的思路。他们保持了Conformer的核心优势，即结合卷积网络的局部特征提取能力和自注意力机制的全局上下文建模能力，同时通过轻量级的卷积投影层实现了从306个脑磁图通道到144维特征空间的有效映射。

在数据处理策略方面，实例级归一化的引入解决了一个实际的工程问题。研究团队通过详细的RMS能量分析发现，holdout数据集呈现双峰分布（峰值分别在0.08和0.62附近），而验证集和测试集呈现单峰分布，这种分布偏移如果不加处理会严重影响模型的泛化能力。实例级归一化通过逐样本、逐通道的时间维度归一化，有效地消除了这种幅度和尺度差异，这为处理跨会话脑信号数据提供了实用的解决方案。

在训练策略创新方面，100样本动态分组加载器的设计体现了对实际应用场景的深入考虑。由于竞赛的holdout记录采用100样本平均来改善信噪比，研究团队相应地调整了训练策略，让模型在训练时就适应这种数据格式。这种策略不仅提高了性能，还为未来处理类似平均化神经信号数据提供了参考。

MEGAugment数据增强技术的开发代表了将语音处理技术向神经信号领域扩展的有益尝试。通过时间掩码和频带阻断两种操作，这种方法针对脑磁图信号的特点进行了定制化设计，特别是频带阻断操作考虑了不同脑电节律的特征，体现了对神经生理学原理的深入理解。

七、性能分析与竞赛表现：科学严谨的评估体系

研究团队采用了严格的统计分析方法来评估各个组件的贡献。他们使用Wilcoxon符号秩检验来评估配对差异，这是一种不假设正态分布的非参数检验方法，特别适合评估模型性能分数这样可能不满足正态分布的数据。通过在十个随机种子上的重复实验，研究团队确保了结果的统计可靠性。

在语音检测任务的详细分析中，窗口长度扩展和架构选择的显著性都通过统计检验得到了验证。tmax=0.5秒对比2.5秒的比较显示W=0.0，p=0.002，SEANet对比Conformer的比较同样显示W=0.0，p=0.002，这些结果表明改进不是偶然的，而是系统性的提升。

值得注意的是，虽然MEGAugment在最终配置中的效果不显著，但在早期模型版本中确实提供了1.8%的显著提升，这提醒我们数据增强技术的效果往往与具体的模型配置和数据特征密切相关。

在音素分类任务中，动态分组的效果最为显著（W=1.0，p=0.004），而类别加权虽然带来了7.6%的提升，但统计检验显示不显著（W=10.0，p=0.084），这可能与样本大小和效应量的关系有关。

研究团队在竞赛排行榜上的表现证明了方法的有效性。在标准赛道中，语音检测任务排名前10，音素分类任务同样进入前10，这些成绩不仅验证了技术方案的可行性，也为脑信号解码领域的发展提供了有价值的基准。

八、未来展望与实际应用：开启新的可能性

这项研究的成功为脑机接口技术的发展开辟了新的道路。Conformer架构在脑磁图信号解码中的有效性证明了将成熟的语音处理技术迁移到神经信号处理的可行性，这为设计更复杂的脑信号解码系统提供了重要的技术基础。

研究团队指出，将语音模型架构适配到脑磁图解码可能为端到端的语音重建开辟道路，使用如CTC或序列到序列等序列化目标函数，甚至可能实现语音合成功能。这种可能性对于失语症患者或其他语言障碍患者来说具有重要的临床意义，有望为他们提供新的沟通辅助技术。

基于语音学特征的方法虽然在当前实验中面临挑战，但仍然显示出改善数据不平衡和提高可解释性的潜力。通过将音素分类分解为二元发音特征，这种方法可能有助于更好地理解大脑处理语音的神经机制，并为开发更鲁棒的解码算法提供理论指导。

数据规模实验的结果特别值得关注，音素分类任务持续的性能提升趋势表明，随着更大规模的脑磁图数据集变得可用，这一领域可能会迎来更大的突破。这为未来的数据收集和实验设计提供了重要的指导意义。

LibriBrain数据集作为单被试数据集，虽然提供了前所未有的被试内建模机会，但跨被试泛化仍然是一个开放的挑战。研究团队的方法主要关注单被试性能优化，未来的工作需要探索如何将这些技术扩展到多被试场景，这对于开发实用的脑机接口系统至关重要。

研究的技术文档、源代码和模型检查点的开源发布为学术界提供了宝贵的资源，这不仅促进了研究的可复现性，也为其他研究者在此基础上进行进一步的创新和改进提供了起点。这种开放的研究态度有助于整个领域的快速发展。

说到底，这项由巴斯克大学团队完成的研究代表了脑信号解码技术的一个重要进展。通过将先进的语音识别架构成功适配到脑磁图信号处理，他们不仅在竞赛中取得了优异成绩，更重要的是为这一跨学科领域的发展提供了新的思路和方法。实例级归一化解决分布偏移问题的创新方法、针对脑信号特点设计的数据增强技术，以及动态分组策略等具体技术贡献，都为未来的研究者提供了宝贵的经验和启发。

随着脑机接口技术的不断发展，这种能够从大脑信号中解码语音信息的技术可能会在医疗康复、辅助交流等领域发挥重要作用，为那些因各种原因失去正常语言能力的人们重新获得与世界沟通的机会。虽然目前的研究还主要局限于实验室环境和单个被试，但其展现出的技术潜力和发展前景无疑是令人鼓舞的。

Q&A

Q1：MEGConformer能够识别大脑中什么样的语音信息？

A：MEGConformer可以从脑磁图信号中识别两种类型的语音信息：一是判断大脑是否正在处理语音还是处于安静状态（语音检测），二是识别大脑正在处理的具体音素内容（音素分类）。音素是语言的基本发音单位，比如"ba"、"pa"这样的声音，系统能够从39种英语音素中准确识别出正在被大脑处理的具体音素。

Q2：这项脑信号解码技术的准确率怎么样？

A：MEGConformer在两个任务上都取得了优异表现。语音检测任务达到88.9%的准确率，显著超过官方基准68.0%；音素分类任务达到65.8%的准确率，同样超过竞赛基准60.4%。这些成绩让研究团队在LibriBrain竞赛中双双进入前10名，证明了技术方案的有效性。

Q3：MEGConformer技术未来能用来帮助失语症患者吗？

A：研究团队认为这项技术确实有潜力发展成为失语症患者的辅助交流工具。通过进一步优化，这种能够从大脑信号解码语音的技术可能发展成端到端的语音重建系统，甚至实现语音合成功能。不过目前的研究还主要局限于实验室环境，要真正应用到临床帮助患者，还需要解决跨被试泛化等技术挑战。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.