网易首页 > 网易号 > 正文 申请入驻

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

0
分享至

音频超分辨率(Audio Super-Resolution, Audio SR),即从低采样率音频恢复出高采样率版本,是提升语音清晰度、音乐细节与沉浸式音频体验的关键技术。

无论是在老旧录音修复、语音通信增强,还是音乐制作与多模态生成中,高分辨率音频都能显著提升听感与表现力。然而,由于高频细节在低采样率信号中被严重损失,这一任务一直是音频生成领域的核心挑战。

值得注意的是,近期由OpenAI推出的有声视频模型Sora 2已能生成采样率高达96 kHz的音频,为高保真音频生成树立了新的技术标杆。而现有学术界的音频超分模型大多仍局限于48 kHz以内,缺乏能够稳定支持更高采样率的通用框架。

在这一背景下,清华大学与生数科技(Shengshu AI)团队围绕桥类生成模型与音频超分任务展开系统研究,先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果:

轻量化语音波形超分模型Bridge-SR,以及面向高达192 kHz母带级音频的多功能超分框架AudioLBM。

其中,AudioLBM覆盖语音、音效与音乐等多类内容,在通用高分辨率音频生成方面展现出重要的扩展潜力。

从数据到数据:Bridge-SR的探索

2025年发表于ICASSP的Bridge-SR工作首次将薛定谔桥(Schrödinger Bridge)模型引入语音超分任务,在“数据到数据”的生成范式下建立了低分辨率波形与高分辨率波形之间的可解桥接过程。

不同于扩散模型从随机噪声逐步生成信号的“噪声到数据”方式,Bridge-SR直接利用低分辨率波形作为生成先验,使模型在轻量化网络(仅1.7M参数)下就能以“数据到数据”范式实现高效、高保真的语音超分,并在VCTK语音测试集上优于多项主流方法。

这一工作为先验驱动的音频超分提供了新思路,也为后续更通用、更高质量的音频超分模型奠定了理论与实验基础。



△图一:波形空间的轻量化桥类超分模块设计

通过非对称的噪声调度设计,频域幅度谱、相位谱的辅助监督,与一阶PF-ODE采样,Bridge-SR在音频波形空间采用基线模型中最轻量级的1.7M网络即实现了语音超分的质量突破。



△图二:VCTK Benchmark测试集的语音超分质量对比

近日,团队继续深入研究,开发针对语音、音效、音乐全音频信号的通用超分模型,设计“隐空间桥类模型”AudioLBM,在Any-to-48 kHz的音频超分任务中大幅超越基线模型,实现音频超分新范式。并成功实现了96kHz和192kHz音频超分的工程突破,使得母带音质不再稀缺。

从隐变量到隐变量:AudioLBM的突破

在 Bridge-SR 的基础上,团队进一步提出了AudioLBM,论文已发表于 NeurIPS 2025。

该研究探索了从“波形域生成”到“隐空间建模”的转变,实现了基于桥类模型的通用音频超分。AudioLBM首次在波形连续隐空间中构建低分辨率到高分辨率的隐变量桥接生成过程

研究团队通过变分自编码器(VAE)将波形压缩为连续隐空间表征,并在该空间中学习概率生成映射,从而保留输入波形的结构化先验信息,同时提升模型的泛化建模能力。

下图为,音频超分任务(上)、传统在频谱隐空间的扩散模型(中)、和波形隐空间桥类模型(下):



为应对高分辨率数据稀缺问题,提升训练效率,AudioLBM提出了频率感知机制(frequency-aware LBM),在训练中显式感知先验采样率与基于团队设计的信号处理手段自动检测的目标采样率,使模型能够学习“任意采样率到任意采样率”(any-to-any)的超分过程。

进一步地,为了有效实现采样率上限突破,团队设计了级联桥类模型(cascaded LBM),将模型能力从48 kHz扩展至96 kHz与192 kHz,首次实现了音频超分研究中覆盖192 kHz工业级采样率的探索。

通过先验增强(prior augmentation)与潜空间模糊(latent blurring)策略,模型能够在多阶段生成中保持高频细节与能量一致性。同时,团队对各阶段压缩网络和桥模型进行级联微调,有效利用低分辨率模型作为更高分辨率模型的强大先验。



△图四:级联桥类模型设计

在跨语音、音效与音乐的多域评测中,AudioLBM在Any-to-48kHz超分任务上取得新的SOTA(state-of-the-art)表现:



△图五:通用音频超分的质量对比

相较于基线模型AudioSR与FlowHigh,在对数谱距离(LSD)上均明显下降,同时在96 kHz与192 kHz任务中保持稳定性能。该方法在统一框架下实现了对语音、音效与音乐的高保真重建,显著提升了通用性。实现了从语音到音乐的统一高分辨率生成。



△图六:音频超分结果的频谱展示

针对音频数据的其他表征空间,如波形空间、谱空间,团队也做出消融实验。对于语音、音效、音乐通用音频超分任务,波形隐空间达到最佳效果:



△图七:音频波形空间、谱空间、波形隐空间超分结果与真值的频谱展示

作者介绍

此两项目的第一作者均为李畅陈泽华

李畅是中国科学技术大学少年班学院的本科生,主要研究方向是语音,音频相关的生成建模与表征学习,曾以第一作者身份在多个CCF-A/B类会议发表音频相关学术研究。



陈泽华是清华大学计算机系水木学者博士后,博士毕业于英国帝国理工学院电气与电子工程系,主要研究方向为概率生成模型,及其在语音、音效、生物电信号合成等方面的应用。在语音和机器学习领域的重要会议与期刊上持续发表相关研究工作。



【Bridge-SR】
论文地址:https://arxiv.org/pdf/2501.07897
样本展示:https://bridge-sr.github.io/

【AudioLBM】
论文地址:https://arxiv.org/pdf/2509.17609
样本展示:https://audiolbm.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赵鸿刚出战“世界耳光大赛”惨遭KO,本人最新回应:眉骨处伤口已缝5针,摘墨镜眼睛肿得睁不开

赵鸿刚出战“世界耳光大赛”惨遭KO,本人最新回应:眉骨处伤口已缝5针,摘墨镜眼睛肿得睁不开

极目新闻
2025-11-02 08:11:51
事发上海地铁!活的禁入!一对男女惊呆:“绑成这样还能越狱?”这份美味居然败给了安检

事发上海地铁!活的禁入!一对男女惊呆:“绑成这样还能越狱?”这份美味居然败给了安检

极目新闻
2025-11-02 20:11:35
乌军空降兵支援被全歼,红军城5000乌军投降,乌克兰人彻底怒了!

乌军空降兵支援被全歼,红军城5000乌军投降,乌克兰人彻底怒了!

海上武器杂谈
2025-11-02 17:20:28
WTT法国冠军赛:王艺迪4-2力克韩国黑马,晋级决赛和温特争冠

WTT法国冠军赛:王艺迪4-2力克韩国黑马,晋级决赛和温特争冠

乒谈
2025-11-02 19:47:44
特朗普威胁对尼日利亚采取军事行动

特朗普威胁对尼日利亚采取军事行动

参考消息
2025-11-02 09:58:05
3-1!亚马尔破门 拉什福德爆射独造12球 巴萨反超黄潜落后皇马5分

3-1!亚马尔破门 拉什福德爆射独造12球 巴萨反超黄潜落后皇马5分

狍子歪解体坛
2025-11-03 03:26:50
全红婵报名事件惹争议!复出变胖夺冠后,才知其放弃女单多么明智

全红婵报名事件惹争议!复出变胖夺冠后,才知其放弃女单多么明智

三十年莱斯特城球迷
2025-11-02 21:54:15
56岁大妈下单盲人按摩 “特殊服务”,竟称:“伸进按才管用”

56岁大妈下单盲人按摩 “特殊服务”,竟称:“伸进按才管用”

云端小院
2025-11-02 09:05:55
台湾地区前领导人马英九:我不希望台湾成为第二个香港!

台湾地区前领导人马英九:我不希望台湾成为第二个香港!

老范谈史
2025-11-02 19:37:42
湖南怀化警方通报疑似贩卖婴儿:抓获4名犯罪嫌疑人,成功解救3名婴儿

湖南怀化警方通报疑似贩卖婴儿:抓获4名犯罪嫌疑人,成功解救3名婴儿

界面新闻
2025-11-02 14:14:43
随着王艺迪4-3夺冠,莫雷加德4-0横扫!奖金榜出炉,最高28.4万

随着王艺迪4-3夺冠,莫雷加德4-0横扫!奖金榜出炉,最高28.4万

知轩体育
2025-11-03 01:21:49
不出意外的话!苏林会成为第二个黎笋

不出意外的话!苏林会成为第二个黎笋

近史谈
2025-11-02 18:54:35
一场3-1让巴萨缩小差距,拉什福德神了:14场造12球

一场3-1让巴萨缩小差距,拉什福德神了:14场造12球

足球狗说
2025-11-03 06:00:50
1:0!迪巴拉点球不进,AC米兰笑傲强强对话,意甲前四仅1分之差

1:0!迪巴拉点球不进,AC米兰笑傲强强对话,意甲前四仅1分之差

阿超他的体育圈
2025-11-03 05:50:30
刚复出就夺冠!全运会跳水女子团体:全红婵领衔广东队轻松卫冕

刚复出就夺冠!全运会跳水女子团体:全红婵领衔广东队轻松卫冕

全景体育V
2025-11-02 20:53:11
清华姚班毕业天才、量化大佬出新书:《ren妻约会指南》

清华姚班毕业天才、量化大佬出新书:《ren妻约会指南》

吃瓜体
2025-11-02 16:31:48
律师行业崩了,近七成同行活得像行尸走肉

律师行业崩了,近七成同行活得像行尸走肉

麦小柒
2025-10-31 20:53:15
国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

晓鰀爱八卦
2025-11-02 13:48:27
开拓者太给面子了!就下放杨瀚森2天还解释原因,打湖人王者归来

开拓者太给面子了!就下放杨瀚森2天还解释原因,打湖人王者归来

嘴炮体坛
2025-11-02 10:55:44
4-3拒爆冷!凌晨0点,王艺迪赢了:大心脏挽救赛点夺冠,王者国乒

4-3拒爆冷!凌晨0点,王艺迪赢了:大心脏挽救赛点夺冠,王者国乒

大秦壁虎白话体育
2025-11-03 00:07:32
2025-11-03 06:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
11617文章数 176320关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

游戏
艺术
本地
公开课
军事航空

TES给Faker打困了!网友称第一次见到Faker打哈欠

艺术要闻

瓦迪斯瓦夫·谢维尼茨基:19世纪波兰杰出的画家

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版