上海交大联合宇生月伴，研发高性能高泛化语音鉴伪大模型|算法|信源|多源|正式版模型

上海交大联合宇生月伴，研发高性能高泛化语音鉴伪大模型

2025-12-31 14:12:30　来源: 机器之心Pro

河北举报

分享至

在生成式 AI 技术日新月异的背景下，合成语音的逼真度已达到真假难辨的水平，随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段，语音鉴伪技术已成为信息安全领域的研究重心。

然而，当前的语音鉴伪模型正面临严峻的「泛化性挑战」：许多在特定实验室数据集上表现优秀的模型，在面对现实世界中从未见过的生成算法时，检测性能往往会出现剧烈下滑。这种「泛化瓶颈」严重限制了鉴伪技术在复杂多变的真实场景中的应用价值。

针对这一难题，上海交通大学听觉认知与计算声学实验室和宇生月伴公司（VUI Labs）联合发表了最新研究成果，提出了一种以数据为中心的研究范式。该研究深入探究了训练数据分布与模型泛化能力之间的底层逻辑，通过系统性的实证研究与策略优化，构建了兼具高性能与高泛化性的语音鉴伪大模型。

论文标题：A Data-Centric Approach to Generalizable Speech Deepfake Detection
论文链接：
https://arxiv.org/pdf/2512.18210

核心视角：

从单一构建到多源聚合

不同于以往关注架构创新的路径，论文从数据中心视角切入，将数据版图重构为两个核心视角：

构建单一数据集：基于不同信源（source）和生成器（generator）生成伪造样本，构建数据集。

聚合多源数据集：汇聚具有不同信源、生成算法及其他声学条件的异构数据池，构建多样化训练数据。

基于上述视角，论文旨在通过系统性的实证分析探索两个核心问题：

在单一数据集构建中，如何在数据规模和多样性（信源 / 生成器）之间进行资源的科学分配？

在聚合多源数据集时，如何设计高效的混合与采样策略以实现最优泛化性能？

规模定律：

多样性远胜数据总量

为了揭示资源分配的最优原则，论文针对训练数据的组成规律开展了大规模实证分析。通过量化信源多样性、生成器多样性与样本容量之间的复杂关系，揭示了语音鉴伪领域内在的「规模定律」。

核心发现：

多样性是泛化的首要动力：在资源有限的情况下，提升信源与生成器的多样性所带来的性能增益，远比单纯增加数据总量更具效率。

信源与生成器属性互补：信源多样性有助于模型构建稳健的真实语音分布，而生成器多样性则显著强化了模型对各类伪造特征的识别。

泛化表现具备可预测性：泛化误差随数据多样性的增加呈现出稳定的幂律缩放特性，使泛化能力的提升从随机探索走向科学建模。

采样策略：

科学混合异构数据池

既然多样性的价值远胜于纯粹的数据堆叠，那么如何科学地混合来自不同源头的异构数据，就成为了解决泛化难题的第二个关键问题。基于规模定律的分析，论文提出了多样性优化采样策略（Diversity-Optimized Sampling Strategy，DOSS）。该策略的核心在于将复杂的异构数据按照信源或生成器划分为细粒度的域，并相对公平地对待每一种已知的生成模式：

细粒度域定义：将真实语音按「信源」划分，将伪造语音按「信源 + 生成器」的组合进行索引，从而在更微观的层面实施分布控制。

多样性筛选（DOSS-Select）：一种基于数据剪枝策略，旨在构建更平衡且高效的训练子集，剔除边际收益递减的冗余样本以提升训练效率。

分布加权（DOSS-Weight）：一种数据重加权策略，在保留全量数据的同时，调整各数据域在训练时的采样概率，让模型更均衡地学习不同规模域的特征，避免被海量但单一的数据分布所主导。

实验结果验证了该策略在处理大规模异构数据时的优势：

极高的数据效率：采用 DOSS-Select 策略，仅需使用约 3% 的总数据量，其泛化性能即可超越朴素聚合全部数据的基线水平。

显著的性能提升：采用 DOSS-Weight 策略，实现了相对朴素聚合基线约 30% 的大幅度误差削减。

实战评估：

学术基准和商业接口实测

为了验证上述策略的稳健性与可扩展性，论文构建了一个包含 1.2 万小时音频、涵盖 300+ 个伪造领域的大规模异构数据池。通过应用 DOSS 策略进行训练，最终得到了高性能高泛化的大模型，并在多个学术基准和商业接口上进行了实测，均取得了突破性表现：

学术基准：刷新跨域性能记录

在多个公开测试集的评估中，模型平均等错误率（EER）降至 1.65%，在多个主流基准测试中均刷新了记录，确立了新的技术基准和 SOTA。此外，数据与模型效率的表现尤为出色：相较于之前最好的来自日本 NII 的系统——在 7.4 万小时数据上训练的 2B 规模模型（平均 EER 3.94%），提出的新方案仅凭约 1/6 的训练数据与更精简的参数规模，便实现了检测误差的倍数级削减。即便是在更轻量的 300M 版本下，其性能表现依然稳健，证明了科学的数据策略比单纯的规模堆叠更能有效释放模型的泛化潜力。

商业接口：直面现实安全威胁

针对从 Google、Microsoft 等主流云服务到 ElevenLabs、MiniMax 等前沿高拟真引擎的 9 类最新商业接口进行评估，模型平均检测准确率达到了 96.01%。即便在面对目前极具挑战性的高保真合成引擎 Qwen3 时，模型仍能保持 87.32% 的高准度识别。这进一步印证了从多样化训练数据中学习到的表征，能够有效迁移并泛化至现实中不断进化的商业生成方式。

总结

不同于以往在模型架构与算法优化上的迭代，深挖训练数据组成的底层逻辑正在成为重塑语音安全防线的关键。本论文通过量化多样性的规模效应并引入优化采样机制，成功实现了对异构数据资源的高效调度与深度挖掘。这种向「数据中心」范式的深刻转变，为构建高性能、高泛化的语音安全大模型提供了全新的探索思路。

团队介绍

研究团队来自于上海交通大学计算机学院听觉认知与计算声学实验室（SJTU Auditory Cognition and Computational Acoustics Lab，AudioCC Lab）和宇生月伴公司（VUI Labs），该团队由语音对话和听觉处理领域知名学者，教育部长江学者钱彦旻教授领导，专注于完整的听觉人工智能与计算声学领域的前沿研究。

实验室集结了一支由青年教师、博士生、硕士生、本科生及专职科研人员等组成的近 40 人科研团队，在语音、音频、音乐及自然声信号处理等领域积累了丰富的技术经验。实验室依托国家重点项目及企业合作支持，拥有数百块先进 GPU 计算资源，致力于解决产业级技术难题。

近年来，团队在国际顶级期刊和会议上发表了数百项学术成果，并在多项国际评测中斩获冠军。团队成员全面发展，毕业生均进入国内外顶级企业和研究机构，持续推动人工智能技术的创新与应用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.