网易首页 > 网易号 > 正文 申请入驻

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

0
分享至

音频超分辨率(Audio Super-Resolution, Audio SR),即从低采样率音频恢复出高采样率版本,是提升语音清晰度、音乐细节与沉浸式音频体验的关键技术。

无论是在老旧录音修复、语音通信增强,还是音乐制作与多模态生成中,高分辨率音频都能显著提升听感与表现力。然而,由于高频细节在低采样率信号中被严重损失,这一任务一直是音频生成领域的核心挑战。

值得注意的是,近期由OpenAI推出的有声视频模型Sora 2已能生成采样率高达96 kHz的音频,为高保真音频生成树立了新的技术标杆。而现有学术界的音频超分模型大多仍局限于48 kHz以内,缺乏能够稳定支持更高采样率的通用框架。

在这一背景下,清华大学与生数科技(Shengshu AI)团队围绕桥类生成模型与音频超分任务展开系统研究,先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果:

轻量化语音波形超分模型Bridge-SR,以及面向高达192 kHz母带级音频的多功能超分框架AudioLBM。

其中,AudioLBM覆盖语音、音效与音乐等多类内容,在通用高分辨率音频生成方面展现出重要的扩展潜力。

从数据到数据:Bridge-SR的探索

2025年发表于ICASSP的Bridge-SR工作首次将薛定谔桥(Schrödinger Bridge)模型引入语音超分任务,在“数据到数据”的生成范式下建立了低分辨率波形与高分辨率波形之间的可解桥接过程。

不同于扩散模型从随机噪声逐步生成信号的“噪声到数据”方式,Bridge-SR直接利用低分辨率波形作为生成先验,使模型在轻量化网络(仅1.7M参数)下就能以“数据到数据”范式实现高效、高保真的语音超分,并在VCTK语音测试集上优于多项主流方法。

这一工作为先验驱动的音频超分提供了新思路,也为后续更通用、更高质量的音频超分模型奠定了理论与实验基础。



△图一:波形空间的轻量化桥类超分模块设计

通过非对称的噪声调度设计,频域幅度谱、相位谱的辅助监督,与一阶PF-ODE采样,Bridge-SR在音频波形空间采用基线模型中最轻量级的1.7M网络即实现了语音超分的质量突破。



△图二:VCTK Benchmark测试集的语音超分质量对比

近日,团队继续深入研究,开发针对语音、音效、音乐全音频信号的通用超分模型,设计“隐空间桥类模型”AudioLBM,在Any-to-48 kHz的音频超分任务中大幅超越基线模型,实现音频超分新范式。并成功实现了96kHz和192kHz音频超分的工程突破,使得母带音质不再稀缺。

从隐变量到隐变量:AudioLBM的突破

在 Bridge-SR 的基础上,团队进一步提出了AudioLBM,论文已发表于 NeurIPS 2025。

该研究探索了从“波形域生成”到“隐空间建模”的转变,实现了基于桥类模型的通用音频超分。AudioLBM首次在波形连续隐空间中构建低分辨率到高分辨率的隐变量桥接生成过程

研究团队通过变分自编码器(VAE)将波形压缩为连续隐空间表征,并在该空间中学习概率生成映射,从而保留输入波形的结构化先验信息,同时提升模型的泛化建模能力。

下图为,音频超分任务(上)、传统在频谱隐空间的扩散模型(中)、和波形隐空间桥类模型(下):



为应对高分辨率数据稀缺问题,提升训练效率,AudioLBM提出了频率感知机制(frequency-aware LBM),在训练中显式感知先验采样率与基于团队设计的信号处理手段自动检测的目标采样率,使模型能够学习“任意采样率到任意采样率”(any-to-any)的超分过程。

进一步地,为了有效实现采样率上限突破,团队设计了级联桥类模型(cascaded LBM),将模型能力从48 kHz扩展至96 kHz与192 kHz,首次实现了音频超分研究中覆盖192 kHz工业级采样率的探索。

通过先验增强(prior augmentation)与潜空间模糊(latent blurring)策略,模型能够在多阶段生成中保持高频细节与能量一致性。同时,团队对各阶段压缩网络和桥模型进行级联微调,有效利用低分辨率模型作为更高分辨率模型的强大先验。



△图四:级联桥类模型设计

在跨语音、音效与音乐的多域评测中,AudioLBM在Any-to-48kHz超分任务上取得新的SOTA(state-of-the-art)表现:



△图五:通用音频超分的质量对比

相较于基线模型AudioSR与FlowHigh,在对数谱距离(LSD)上均明显下降,同时在96 kHz与192 kHz任务中保持稳定性能。该方法在统一框架下实现了对语音、音效与音乐的高保真重建,显著提升了通用性。实现了从语音到音乐的统一高分辨率生成。



△图六:音频超分结果的频谱展示

针对音频数据的其他表征空间,如波形空间、谱空间,团队也做出消融实验。对于语音、音效、音乐通用音频超分任务,波形隐空间达到最佳效果:



△图七:音频波形空间、谱空间、波形隐空间超分结果与真值的频谱展示

作者介绍

此两项目的第一作者均为李畅陈泽华

李畅是中国科学技术大学少年班学院的本科生,主要研究方向是语音,音频相关的生成建模与表征学习,曾以第一作者身份在多个CCF-A/B类会议发表音频相关学术研究。



陈泽华是清华大学计算机系水木学者博士后,博士毕业于英国帝国理工学院电气与电子工程系,主要研究方向为概率生成模型,及其在语音、音效、生物电信号合成等方面的应用。在语音和机器学习领域的重要会议与期刊上持续发表相关研究工作。



【Bridge-SR】
论文地址:https://arxiv.org/pdf/2501.07897
样本展示:https://bridge-sr.github.io/

【AudioLBM】
论文地址:https://arxiv.org/pdf/2509.17609
样本展示:https://audiolbm.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部:中方欢迎艾德外交大臣来访

外交部:中方欢迎艾德外交大臣来访

北青网-北京青年报
2025-11-07 15:51:04
11月7日俄乌最新:副总长上吊

11月7日俄乌最新:副总长上吊

西楼饮月
2025-11-07 15:38:31
这不是迷信!“最怕立冬是雨天”,今日立冬,下雨啥预兆?

这不是迷信!“最怕立冬是雨天”,今日立冬,下雨啥预兆?

智慧生活笔记
2025-11-07 12:19:58
气得发抖!茅台高管张楷怒喊:3000一瓶的飞天,老百姓谁喝得起?

气得发抖!茅台高管张楷怒喊:3000一瓶的飞天,老百姓谁喝得起?

好贤观史记
2025-11-07 08:02:13
安世中国脱钩后,荷兰第3波报复来了,七国已抱团,要断中方后路

安世中国脱钩后,荷兰第3波报复来了,七国已抱团,要断中方后路

云鹏叙事
2025-11-07 16:23:59
30万人岛国逼平日本!U17世界杯奇迹:伟大的0-0 疯狂庆祝如夺冠

30万人岛国逼平日本!U17世界杯奇迹:伟大的0-0 疯狂庆祝如夺冠

风过乡
2025-11-07 20:54:26
“副院长出轨眼科主任”上热搜,视频发布者身份疑曝出,医院回应

“副院长出轨眼科主任”上热搜,视频发布者身份疑曝出,医院回应

胡侃社会百态
2025-11-06 14:09:35
中国首例冷冻人8年后,丈夫对其复活信心逐渐减弱,交往新女友,但家中仍保留妻子照片和物品

中国首例冷冻人8年后,丈夫对其复活信心逐渐减弱,交往新女友,但家中仍保留妻子照片和物品

FM93浙江交通之声
2025-11-07 12:42:06
网传河北一法院人均未结案600件,已排到明年7月,官方建议优先调解

网传河北一法院人均未结案600件,已排到明年7月,官方建议优先调解

互联网大观
2025-11-07 09:55:51
三个女人一台戏!辛芷蕾正面硬刚郝蕾,双方恩怨遭深扒!

三个女人一台戏!辛芷蕾正面硬刚郝蕾,双方恩怨遭深扒!

古希腊掌管月桂的神
2025-11-07 15:07:58
传媒电影股炒啥?头部票房没了,现在连腰部票房都没有了

传媒电影股炒啥?头部票房没了,现在连腰部票房都没有了

爆角追踪
2025-11-07 14:46:42
打破欧美垄断,宇航科技再爆「黑发明」!比T恤轻、比羽绒暖,零下20°暖到骨头里

打破欧美垄断,宇航科技再爆「黑发明」!比T恤轻、比羽绒暖,零下20°暖到骨头里

超级数学建模
2025-11-06 10:29:56
突然宣布!拥有2套以上房产的家庭,按照新规,房产税或将这样征

突然宣布!拥有2套以上房产的家庭,按照新规,房产税或将这样征

深度报
2025-11-07 22:36:47
人美声甜的曾琦多张靓照曝光,停职后三大困境缠身,未来渺茫

人美声甜的曾琦多张靓照曝光,停职后三大困境缠身,未来渺茫

公子麦少
2025-11-07 14:36:16
贾乃亮李小璐合体直播卖货?网友:这吃相太难看了!

贾乃亮李小璐合体直播卖货?网友:这吃相太难看了!

毒舌八卦
2025-11-07 23:40:37
薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

扬平说史
2025-11-06 20:22:42
副院长出轨后续!眼科主任美照被扒,更多大尺度画面曝光,太辣眼

副院长出轨后续!眼科主任美照被扒,更多大尺度画面曝光,太辣眼

180视角
2025-11-07 09:47:50
40岁女医生曾琦的日常工作被披露!一天“精准卡点”的战斗模式…

40岁女医生曾琦的日常工作被披露!一天“精准卡点”的战斗模式…

火山诗话
2025-11-07 11:46:47
巴总统:已正式通知中国,退出一带一路计划,我方回应4个字

巴总统:已正式通知中国,退出一带一路计划,我方回应4个字

花花娱界
2025-11-07 20:53:23
马姆达尼赢得大选,戳中了西方“一人一票”式民主制的死穴

马姆达尼赢得大选,戳中了西方“一人一票”式民主制的死穴

壹家言
2025-11-07 11:19:25
2025-11-08 05:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
11642文章数 176329关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

奥巴马意外现身 庆祝胜利

头条要闻

奥巴马意外现身 庆祝胜利

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

旅游
游戏
房产
本地
公开课

旅游要闻

稻城亚丁冲古寺看仙乃日雪山的最佳角度在哪? 看完这篇你就明白了

海的那边是什么?我会自己去看"/> 主站 商城 论坛 自运营 登录 注册 海的那边是什么?我会自己去看 廉颇 2025-11-07 返回专栏首页 作者:...

房产要闻

全国2025唯一“开盘即百亿”在广州诞生

本地新闻

这届干饭人,已经把博物馆吃成了食堂

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版