网易首页 > 网易号 > 正文 申请入驻

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

0
分享至

音频超分辨率(Audio Super-Resolution, Audio SR),即从低采样率音频恢复出高采样率版本,是提升语音清晰度、音乐细节与沉浸式音频体验的关键技术。

无论是在老旧录音修复、语音通信增强,还是音乐制作与多模态生成中,高分辨率音频都能显著提升听感与表现力。然而,由于高频细节在低采样率信号中被严重损失,这一任务一直是音频生成领域的核心挑战。

值得注意的是,近期由OpenAI推出的有声视频模型Sora 2已能生成采样率高达96 kHz的音频,为高保真音频生成树立了新的技术标杆。而现有学术界的音频超分模型大多仍局限于48 kHz以内,缺乏能够稳定支持更高采样率的通用框架。

在这一背景下,清华大学与生数科技(Shengshu AI)团队围绕桥类生成模型与音频超分任务展开系统研究,先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果:

轻量化语音波形超分模型Bridge-SR,以及面向高达192 kHz母带级音频的多功能超分框架AudioLBM。

其中,AudioLBM覆盖语音、音效与音乐等多类内容,在通用高分辨率音频生成方面展现出重要的扩展潜力。

从数据到数据:Bridge-SR的探索

2025年发表于ICASSP的Bridge-SR工作首次将薛定谔桥(Schrödinger Bridge)模型引入语音超分任务,在“数据到数据”的生成范式下建立了低分辨率波形与高分辨率波形之间的可解桥接过程。

不同于扩散模型从随机噪声逐步生成信号的“噪声到数据”方式,Bridge-SR直接利用低分辨率波形作为生成先验,使模型在轻量化网络(仅1.7M参数)下就能以“数据到数据”范式实现高效、高保真的语音超分,并在VCTK语音测试集上优于多项主流方法。

这一工作为先验驱动的音频超分提供了新思路,也为后续更通用、更高质量的音频超分模型奠定了理论与实验基础。



△图一:波形空间的轻量化桥类超分模块设计

通过非对称的噪声调度设计,频域幅度谱、相位谱的辅助监督,与一阶PF-ODE采样,Bridge-SR在音频波形空间采用基线模型中最轻量级的1.7M网络即实现了语音超分的质量突破。



△图二:VCTK Benchmark测试集的语音超分质量对比

近日,团队继续深入研究,开发针对语音、音效、音乐全音频信号的通用超分模型,设计“隐空间桥类模型”AudioLBM,在Any-to-48 kHz的音频超分任务中大幅超越基线模型,实现音频超分新范式。并成功实现了96kHz和192kHz音频超分的工程突破,使得母带音质不再稀缺。

从隐变量到隐变量:AudioLBM的突破

在 Bridge-SR 的基础上,团队进一步提出了AudioLBM,论文已发表于 NeurIPS 2025。

该研究探索了从“波形域生成”到“隐空间建模”的转变,实现了基于桥类模型的通用音频超分。AudioLBM首次在波形连续隐空间中构建低分辨率到高分辨率的隐变量桥接生成过程

研究团队通过变分自编码器(VAE)将波形压缩为连续隐空间表征,并在该空间中学习概率生成映射,从而保留输入波形的结构化先验信息,同时提升模型的泛化建模能力。

下图为,音频超分任务(上)、传统在频谱隐空间的扩散模型(中)、和波形隐空间桥类模型(下):



为应对高分辨率数据稀缺问题,提升训练效率,AudioLBM提出了频率感知机制(frequency-aware LBM),在训练中显式感知先验采样率与基于团队设计的信号处理手段自动检测的目标采样率,使模型能够学习“任意采样率到任意采样率”(any-to-any)的超分过程。

进一步地,为了有效实现采样率上限突破,团队设计了级联桥类模型(cascaded LBM),将模型能力从48 kHz扩展至96 kHz与192 kHz,首次实现了音频超分研究中覆盖192 kHz工业级采样率的探索。

通过先验增强(prior augmentation)与潜空间模糊(latent blurring)策略,模型能够在多阶段生成中保持高频细节与能量一致性。同时,团队对各阶段压缩网络和桥模型进行级联微调,有效利用低分辨率模型作为更高分辨率模型的强大先验。



△图四:级联桥类模型设计

在跨语音、音效与音乐的多域评测中,AudioLBM在Any-to-48kHz超分任务上取得新的SOTA(state-of-the-art)表现:



△图五:通用音频超分的质量对比

相较于基线模型AudioSR与FlowHigh,在对数谱距离(LSD)上均明显下降,同时在96 kHz与192 kHz任务中保持稳定性能。该方法在统一框架下实现了对语音、音效与音乐的高保真重建,显著提升了通用性。实现了从语音到音乐的统一高分辨率生成。



△图六:音频超分结果的频谱展示

针对音频数据的其他表征空间,如波形空间、谱空间,团队也做出消融实验。对于语音、音效、音乐通用音频超分任务,波形隐空间达到最佳效果:



△图七:音频波形空间、谱空间、波形隐空间超分结果与真值的频谱展示

作者介绍

此两项目的第一作者均为李畅陈泽华

李畅是中国科学技术大学少年班学院的本科生,主要研究方向是语音,音频相关的生成建模与表征学习,曾以第一作者身份在多个CCF-A/B类会议发表音频相关学术研究。



陈泽华是清华大学计算机系水木学者博士后,博士毕业于英国帝国理工学院电气与电子工程系,主要研究方向为概率生成模型,及其在语音、音效、生物电信号合成等方面的应用。在语音和机器学习领域的重要会议与期刊上持续发表相关研究工作。



【Bridge-SR】
论文地址:https://arxiv.org/pdf/2501.07897
样本展示:https://bridge-sr.github.io/

【AudioLBM】
论文地址:https://arxiv.org/pdf/2509.17609
样本展示:https://audiolbm.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太突然!董事长汤建,因心梗意外去世

太突然!董事长汤建,因心梗意外去世

每日经济新闻
2026-03-25 18:21:26
日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

谛听骨语本尊
2026-03-25 16:26:02
梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

兴趣知识
2026-03-25 12:32:27
王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

不似少年游
2026-03-25 17:03:59
张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

谈史论天地
2026-03-25 07:26:54
这是清朝格格们的真实容貌,都看看吧,这不是演员扮演的

这是清朝格格们的真实容貌,都看看吧,这不是演员扮演的

圆梦的小老头
2026-03-24 13:38:33
黄天鹅就鸡蛋角黄素抽检结果发布声明,三地监管部门抽检结果反馈,鸡蛋未检出角黄素

黄天鹅就鸡蛋角黄素抽检结果发布声明,三地监管部门抽检结果反馈,鸡蛋未检出角黄素

每日经济新闻
2026-03-25 18:11:54
离谱!皇马队医坑完姆巴佩坑卡马文加,前员工曝其用ChatGPT开药

离谱!皇马队医坑完姆巴佩坑卡马文加,前员工曝其用ChatGPT开药

仰卧撑FTUer
2026-03-26 08:02:05
面对伊朗同归于尽打法,美军亮出王炸底牌:如果战败,就爆核武器

面对伊朗同归于尽打法,美军亮出王炸底牌:如果战败,就爆核武器

半壁胭脂色
2026-03-24 16:09:17
女儿高考当天,我撞见婆婆往她汤里下药,我偷偷换给了高考的侄子

女儿高考当天,我撞见婆婆往她汤里下药,我偷偷换给了高考的侄子

鱼语昱雨轩
2026-03-25 14:03:47
央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

阿伧说事
2026-03-25 07:11:23
87年薄一波去杭州探望陈云,期间二人神秘交谈,薄提醒:你悠着点

87年薄一波去杭州探望陈云,期间二人神秘交谈,薄提醒:你悠着点

谈古论今历史有道
2026-03-25 15:15:03
好莱坞的AI招魂术:死亡不再是劳动的终点

好莱坞的AI招魂术:死亡不再是劳动的终点

动察Beating
2026-03-26 11:06:56
中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

南宗历史
2026-03-25 16:04:15
姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

懂球帝
2026-03-26 07:00:47
固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

芭比衣橱
2026-03-26 09:52:41
李双江庆87岁大寿!怒吼要奋斗到90岁,切不动蛋糕戴玉强扶手帮忙

李双江庆87岁大寿!怒吼要奋斗到90岁,切不动蛋糕戴玉强扶手帮忙

嫹笔牂牂
2026-03-26 07:37:49
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
打疯!东契奇生涯32次单节20+追平哈登 历史第三仅输库里科比

打疯!东契奇生涯32次单节20+追平哈登 历史第三仅输库里科比

醉卧浮生
2026-03-26 07:54:15
新型啃老正流行,67岁大妈哭诉:女儿的陪伴式养老是我晚年的噩梦

新型啃老正流行,67岁大妈哭诉:女儿的陪伴式养老是我晚年的噩梦

惟来
2026-03-25 09:45:12
2026-03-26 13:51:00
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
亲子
房产
数码

艺术要闻

哪一座桥不是风景?

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

无障碍浏览 进入关怀版