网易首页 > 网易号 > 正文 申请入驻

上海交大联合宇生月伴,研发高性能高泛化语音鉴伪大模型

0
分享至



在生成式 AI 技术日新月异的背景下,合成语音的逼真度已达到真假难辨的水平,随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段,语音鉴伪技术已成为信息安全领域的研究重心。

然而,当前的语音鉴伪模型正面临严峻的「泛化性挑战」:许多在特定实验室数据集上表现优秀的模型,在面对现实世界中从未见过的生成算法时,检测性能往往会出现剧烈下滑。这种「泛化瓶颈」严重限制了鉴伪技术在复杂多变的真实场景中的应用价值。

针对这一难题,上海交通大学听觉认知与计算声学实验室和宇生月伴公司(VUI Labs)联合发表了最新研究成果,提出了一种以数据为中心的研究范式。该研究深入探究了训练数据分布与模型泛化能力之间的底层逻辑,通过系统性的实证研究与策略优化,构建了兼具高性能与高泛化性的语音鉴伪大模型。



  • 论文标题:A Data-Centric Approach to Generalizable Speech Deepfake Detection
  • 论文链接:
  • https://arxiv.org/pdf/2512.18210

核心视角:

从单一构建到多源聚合

不同于以往关注架构创新的路径,论文从数据中心视角切入,将数据版图重构为两个核心视角:

  • 构建单一数据集:基于不同信源(source)和生成器(generator)生成伪造样本,构建数据集。

  • 聚合多源数据集:汇聚具有不同信源、生成算法及其他声学条件的异构数据池,构建多样化训练数据。



基于上述视角,论文旨在通过系统性的实证分析探索两个核心问题:

  • 在单一数据集构建中,如何在数据规模和多样性(信源 / 生成器)之间进行资源的科学分配?

  • 在聚合多源数据集时,如何设计高效的混合与采样策略以实现最优泛化性能?

规模定律:

多样性远胜数据总量


为了揭示资源分配的最优原则,论文针对训练数据的组成规律开展了大规模实证分析。通过量化信源多样性、生成器多样性与样本容量之间的复杂关系,揭示了语音鉴伪领域内在的「规模定律」。

核心发现:

  • 多样性是泛化的首要动力:在资源有限的情况下,提升信源与生成器的多样性所带来的性能增益,远比单纯增加数据总量更具效率。

  • 信源与生成器属性互补:信源多样性有助于模型构建稳健的真实语音分布,而生成器多样性则显著强化了模型对各类伪造特征的识别。

  • 泛化表现具备可预测性:泛化误差随数据多样性的增加呈现出稳定的幂律缩放特性,使泛化能力的提升从随机探索走向科学建模。



采样策略:

科学混合异构数据池


既然多样性的价值远胜于纯粹的数据堆叠,那么如何科学地混合来自不同源头的异构数据,就成为了解决泛化难题的第二个关键问题。基于规模定律的分析,论文提出了多样性优化采样策略(Diversity-Optimized Sampling Strategy,DOSS)。该策略的核心在于将复杂的异构数据按照信源或生成器划分为细粒度的域,并相对公平地对待每一种已知的生成模式:

  • 细粒度域定义:将真实语音按「信源」划分,将伪造语音按「信源 + 生成器」的组合进行索引,从而在更微观的层面实施分布控制。

  • 多样性筛选(DOSS-Select):一种基于数据剪枝策略,旨在构建更平衡且高效的训练子集,剔除边际收益递减的冗余样本以提升训练效率。

  • 分布加权(DOSS-Weight):一种数据重加权策略,在保留全量数据的同时,调整各数据域在训练时的采样概率,让模型更均衡地学习不同规模域的特征,避免被海量但单一的数据分布所主导。

实验结果验证了该策略在处理大规模异构数据时的优势:

  • 极高的数据效率:采用 DOSS-Select 策略,仅需使用约 3% 的总数据量,其泛化性能即可超越朴素聚合全部数据的基线水平。

  • 显著的性能提升:采用 DOSS-Weight 策略,实现了相对朴素聚合基线约 30% 的大幅度误差削减。



实战评估:

学术基准和商业接口实测


为了验证上述策略的稳健性与可扩展性,论文构建了一个包含 1.2 万小时音频、涵盖 300+ 个伪造领域的大规模异构数据池。通过应用 DOSS 策略进行训练,最终得到了高性能高泛化的大模型,并在多个学术基准和商业接口上进行了实测,均取得了突破性表现:

学术基准:刷新跨域性能记录

在多个公开测试集的评估中,模型平均等错误率(EER)降至 1.65%,在多个主流基准测试中均刷新了记录,确立了新的技术基准和 SOTA。此外,数据与模型效率的表现尤为出色:相较于之前最好的来自日本 NII 的系统——在 7.4 万小时数据上训练的 2B 规模模型(平均 EER 3.94%),提出的新方案仅凭约 1/6 的训练数据与更精简的参数规模,便实现了检测误差的倍数级削减。即便是在更轻量的 300M 版本下,其性能表现依然稳健,证明了科学的数据策略比单纯的规模堆叠更能有效释放模型的泛化潜力。



商业接口:直面现实安全威胁

针对从 Google、Microsoft 等主流云服务到 ElevenLabs、MiniMax 等前沿高拟真引擎的 9 类最新商业接口进行评估,模型平均检测准确率达到了 96.01%。即便在面对目前极具挑战性的高保真合成引擎 Qwen3 时,模型仍能保持 87.32% 的高准度识别。这进一步印证了从多样化训练数据中学习到的表征,能够有效迁移并泛化至现实中不断进化的商业生成方式。



总结


不同于以往在模型架构与算法优化上的迭代,深挖训练数据组成的底层逻辑正在成为重塑语音安全防线的关键。本论文通过量化多样性的规模效应并引入优化采样机制,成功实现了对异构数据资源的高效调度与深度挖掘。这种向「数据中心」范式的深刻转变,为构建高性能、高泛化的语音安全大模型提供了全新的探索思路。

团队介绍


研究团队来自于上海交通大学计算机学院听觉认知与计算声学实验室(SJTU Auditory Cognition and Computational Acoustics Lab,AudioCC Lab)和宇生月伴公司(VUI Labs),该团队由语音对话和听觉处理领域知名学者,教育部长江学者钱彦旻教授领导,专注于完整的听觉人工智能与计算声学领域的前沿研究。

实验室集结了一支由青年教师、博士生、硕士生、本科生及专职科研人员等组成的近 40 人科研团队,在语音、音频、音乐及自然声信号处理等领域积累了丰富的技术经验。实验室依托国家重点项目及企业合作支持,拥有数百块先进 GPU 计算资源,致力于解决产业级技术难题。

近年来,团队在国际顶级期刊和会议上发表了数百项学术成果,并在多项国际评测中斩获冠军。团队成员全面发展,毕业生均进入国内外顶级企业和研究机构,持续推动人工智能技术的创新与应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
虎跳峡落水男遗体距水面仅40厘米!本已放弃打捞现有转机

虎跳峡落水男遗体距水面仅40厘米!本已放弃打捞现有转机

九方鱼论
2026-04-03 11:50:58
争议?姆巴佩替补登场主动索要队长袖标!生日当天让35岁传奇难堪

争议?姆巴佩替补登场主动索要队长袖标!生日当天让35岁传奇难堪

我爱英超
2026-04-02 22:14:15
换掉司法部长只是开始,白宫酝酿更多国安、国防高层变动

换掉司法部长只是开始,白宫酝酿更多国安、国防高层变动

界面新闻
2026-04-03 10:48:28
研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

研究表明:男性嫖娼率6.4%,女性出轨率15%,且越有钱越开放!

黯泉
2026-04-01 17:28:39
4月看病注意!报销从80%降到50%,问题不在医保,而在这两个细节

4月看病注意!报销从80%降到50%,问题不在医保,而在这两个细节

复转这些年
2026-04-02 12:18:20
告天下子女:再孝顺,也不要为年过70岁的老父老母,做这三件事

告天下子女:再孝顺,也不要为年过70岁的老父老母,做这三件事

匹夫来搞笑
2026-04-02 15:07:56
28岁川大博士遗体找到了!父母搬砖供他,姐姐哭到崩溃还遭网暴

28岁川大博士遗体找到了!父母搬砖供他,姐姐哭到崩溃还遭网暴

舍长阿爷谈事
2026-04-01 13:14:28
久尔杰维奇:中国足球的环境在变好,与亚洲强队交锋不落下风

久尔杰维奇:中国足球的环境在变好,与亚洲强队交锋不落下风

懂球帝
2026-04-03 10:19:10
谁“毁”了单依纯?是常石磊的再造,还是被过早采摘的宿命?

谁“毁”了单依纯?是常石磊的再造,还是被过早采摘的宿命?

非常先生看娱乐
2026-03-31 16:20:58
实测阿里Qwen3.6-Plus:8分钟做了个官网,被北京地铁绕晕

实测阿里Qwen3.6-Plus:8分钟做了个官网,被北京地铁绕晕

智东西
2026-04-02 20:10:07
皇俄大V曝俄兵亲笔信:炸了四年,乌军工涨35倍,我们在打什么?

皇俄大V曝俄兵亲笔信:炸了四年,乌军工涨35倍,我们在打什么?

老马拉车莫少装
2026-04-03 09:56:00
4队犬牙交错!火箭不能再赢了?对阵湖人掘金2选1,乌帅随机应变

4队犬牙交错!火箭不能再赢了?对阵湖人掘金2选1,乌帅随机应变

熊哥爱篮球
2026-04-03 12:20:28
市值500亿的化工龙头,股价从17元跌到5元,社保基金持有4亿

市值500亿的化工龙头,股价从17元跌到5元,社保基金持有4亿

投资观
2026-04-01 07:20:03
调整!4月3日央视直播乒乓球世界杯有变,王楚钦、温瑞博迎来劲敌

调整!4月3日央视直播乒乓球世界杯有变,王楚钦、温瑞博迎来劲敌

林子说事
2026-04-03 09:59:39
退休人员也要缴费了!4月起执行,每月扣多少、谁能免,一次说清

退休人员也要缴费了!4月起执行,每月扣多少、谁能免,一次说清

观察者海风
2026-04-02 23:48:25
潜伏11年,那些被矿渣喂大的香蕉,终于开始向人类“复仇”了

潜伏11年,那些被矿渣喂大的香蕉,终于开始向人类“复仇”了

番外行
2026-04-03 09:00:02
曾借钱资助张雪8万元创业 师父喊话:没骑过好车 能送我一台820吗

曾借钱资助张雪8万元创业 师父喊话:没骑过好车 能送我一台820吗

风过乡
2026-04-03 06:33:24
“接下来几场,我会让MVP失去悬念。”

“接下来几场,我会让MVP失去悬念。”

篮球实录
2026-04-02 22:59:41
中东危机只是小菜?更大危机还在后面,外媒:中国将彻底颠覆战场

中东危机只是小菜?更大危机还在后面,外媒:中国将彻底颠覆战场

叹知
2026-03-29 18:13:46
为何住家保姆难以长期服务?网友:主人翁意识觉醒了!

为何住家保姆难以长期服务?网友:主人翁意识觉醒了!

特约前排观众
2026-04-02 00:15:03
2026-04-03 12:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12669文章数 142605关注度
往期回顾 全部

科技要闻

SpaceX冲刺2万亿美元估值,马斯克野心太大

头条要闻

牛弹琴:美国干了一件令人发指的事 全世界都无法接受

头条要闻

牛弹琴:美国干了一件令人发指的事 全世界都无法接受

体育要闻

冲击世界杯失败,80岁老帅一气之下病倒了

娱乐要闻

《浪姐7》最新人气TOP 曾沛慈断层第一

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

房产
时尚
艺术
数码
本地

房产要闻

理科生的浪漫,都藏在细节里!中交·蓝色港湾这场交付太硬核!

为什么“这个颜色”成为今年顶流?这样穿好看又治愈

艺术要闻

吴昌硕『扇画』老辣古拙

数码要闻

卢伟冰回应小米及REDMI部分在售产品调价:内存涨价力度远超预期

本地新闻

跟着歌声游安徽,听古村回响

无障碍浏览 进入关怀版