网易首页 > 网易号 > 正文 申请入驻

ICML25|让耳朵「看见」方向!仅依靠360°视频,就能生成空间音频

0
分享至

OmniAudio团队 投稿
量子位 | 公众号 QbitAI

空间音频,作为一种能够模拟真实听觉环境的技术,正逐渐成为提升沉浸式体验的关键。

然而,现有的技术大多基于固定的视角视频,缺乏对360°全景视频中空间信息的充分利用。

在这样的背景下,一项在空间音频生成领域具有里程碑意义的研究应运而生——OmniAudio:它能够直接从360°视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。

相关代码和数据集已开源:

https://github.com/liuhuadai/OmniAudio

为何需要从360°视频生成空间音频?

传统的视频到音频生成技术主要关注于生成非空间音频,比如手机外放或者耳机里的声音,这些音频缺乏方向信息,无法满足沉浸式体验对3D声音定位的需求。

所以看VR电影或者玩动作游戏的时候,总会觉得少了些代入感。

随着360°摄像头的普及和虚拟现实技术的发展,如何利用全景视频生成与之匹配的空间音频,就成为了一个亟待解决的问题。

为应对这些挑战,OmniAudio的研究团队提出了360V2SA(360-degree Video to Spatial Audio)任务,旨在直接从360°视频生成FOA(First-order Ambisonics)音频。

FOA是一种标准的3D空间音频格式,使用四个通道来表示声音,包含声音的方向信息,可实现真实的3D音频再现。

与传统的立体声相比,FOA音频在头部旋转时也能够保持声音定位的准确性。

Sphere360:第一个大规模360V2SA数据集

数据是机器学习模型的基石,然而,现有的配对360°视频和空间音频数据极为稀缺。

为此,OmniAudio团队设计了一个高效的半自动化pipeline,用于构建Sphere360数据集:

首先,通过关键字在YouTube上爬取包含FOA音频和360°视频的候选素材,应用技术过滤器剔除不符合条件的视频,并采用频道为单位进行聚合式爬取。

然后,人工审核补充剩余视频。

在清洗环节,针对视频静态、音频静音、过多语音内容以及视音频不匹配等问题设计了具体检测算法,确保高质量对齐。

Sphere360数据集是一个包含超过103,000个真实世界视频片段的数据宝库,涵盖288种音频事件,总时长达到288小时。收集到的视频既包含 360° 视觉内容,又支持FOA音频,并具有高质量和高可用性。

与其他现有数据集相比,Sphere360在规模和适用性上均存在显著优势。

OmniAudio:创新技术实现空间音频生成

OmniAudio的训练方法可分为两个阶段:自监督的coarse-to-fine流匹配预训练,以及基于双分支视频表示的有监督微调

简单地说,在预训练阶段,先用普通立体声音频转换为“伪FOA”格式训练模型,同时通过自监督的掩码预测方法,让模型学会音频的基本结构和时间规律;再使用真实FOA精细训练,提高掩码概率,让模型能够更好地理解声音的空间信息。

相比起直接训练,这种“先普通音频,再空间音频”的两步法显著改善了模型对空间特征的泛化能力与生成质量。

在完成自预训练后,OmniAudio团队将模型与双分支视频编码器结合,同时提取视频的全局特征和局部视角,进行有监督微调,以达成模型可根据360° 视频生成高保真、方向准确的空间音频的效果。

详细方法可见文末项目链接。

成果与展望

OmniAudio团队在Sphere360-Bench,以及来自YT-360的外部分布测试集YT360-Test上进行有监督微调与评估。

主要结果显示,OmniAudio在两套测试集上均显著优于所有基线。

但OmniAudio也有一定的局限性:例如,面对包含大量发声物体的复杂场景时,模型在事件类型识别上仍存在挑战。

OmniAudio的研究团队表示,未来的工作将探索更好地理解多目标360° 视频的技术,并通过持续收集和扩充数据集,进一步推进该领域的发展。

项目主页: https://omniaudio-360v2sa.github.io/

开源仓库:https://github.com/liuhuadai/OmniAudio

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本的导弹布置,确实架势很大!他敢偷袭吗?

日本的导弹布置,确实架势很大!他敢偷袭吗?

魔都姐姐杂谈
2026-03-14 19:26:48
郭台铭:谁要是敢惹台湾,我就放8万只机械战士去收拾他们!

郭台铭:谁要是敢惹台湾,我就放8万只机械战士去收拾他们!

混沌录
2026-03-09 21:27:12
“00后”陈某某被押赴刑场 执行死刑

“00后”陈某某被押赴刑场 执行死刑

闪电新闻
2026-02-07 16:53:35
中美考虑建立促进双边贸易投资合作的工作机制

中美考虑建立促进双边贸易投资合作的工作机制

界面新闻
2026-03-17 06:59:32
拉里贾尼呼吁伊斯兰国家考虑选边站队

拉里贾尼呼吁伊斯兰国家考虑选边站队

新京报
2026-03-17 07:15:06
“为这个没名没姓的年头干一杯”

“为这个没名没姓的年头干一杯”

张佳玮写字的地方
2026-03-16 17:04:50
前任都是因为什么联系的你?网友分享让人忍俊不禁!

前任都是因为什么联系的你?网友分享让人忍俊不禁!

匹夫来搞笑
2026-03-17 14:16:16
阿富汗塔利班最高领导人发表公开声明

阿富汗塔利班最高领导人发表公开声明

新京报
2026-03-16 17:26:08
看看这份战损清单,你说美军这仗还怎么打?

看看这份战损清单,你说美军这仗还怎么打?

李光满说
2026-03-15 15:12:10
大结局了!17岁顶顶没听别人劝,自己决定搬去跟爸爸潘粤明一起住

大结局了!17岁顶顶没听别人劝,自己决定搬去跟爸爸潘粤明一起住

乐悠悠娱乐
2026-03-16 10:55:16
1960年,烈士赵一曼儿子写信讽刺毛主席,主席看后只回复了6个字

1960年,烈士赵一曼儿子写信讽刺毛主席,主席看后只回复了6个字

小莜读史
2026-03-04 15:56:32
湘雅女研究生坠江:遗书直指58岁导师,父亲发声,官方已全面调查

湘雅女研究生坠江:遗书直指58岁导师,父亲发声,官方已全面调查

天气观察站
2026-03-17 14:55:06
林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

达文西看世界
2026-03-04 15:07:30
全世界最狠的骗局,莫过于贷款买房。

全世界最狠的骗局,莫过于贷款买房。

流苏晚晴
2026-01-08 18:18:57
中国向全球宣布:又一张国家名片诞生!该技术全世界只有中国拥有

中国向全球宣布:又一张国家名片诞生!该技术全世界只有中国拥有

杰丝聊古今
2026-01-17 01:29:32
铁了心打垮中国?最大威胁现身!这次不是美国,普京却笑到了最后

铁了心打垮中国?最大威胁现身!这次不是美国,普京却笑到了最后

阿七说史
2026-03-13 15:56:51
儿子创纪录,父亲却暴怒!马克斯・道曼父亲怒怼蹭热度前教练

儿子创纪录,父亲却暴怒!马克斯・道曼父亲怒怼蹭热度前教练

夜白侃球
2026-03-17 14:03:43
从7分钟到31分!杨瀚森G联赛暴走,用沉默撕碎“水货”标签

从7分钟到31分!杨瀚森G联赛暴走,用沉默撕碎“水货”标签

阿晞体育
2026-03-17 13:04:32
李鸿章十句话,最好背下来!

李鸿章十句话,最好背下来!

心情励志美文
2026-01-24 21:48:02
3月养老金新标准落地!60岁以上农民每月能领多少?一文读懂

3月养老金新标准落地!60岁以上农民每月能领多少?一文读懂

小嵩
2026-03-17 15:55:53
2026-03-17 21:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12298文章数 176415关注度
往期回顾 全部

科技要闻

3万字实录|黄仁勋:每家公司都必须懂养虾

头条要闻

特朗普访华可能重新安排到什么时间 外交部回应

头条要闻

特朗普访华可能重新安排到什么时间 外交部回应

体育要闻

那个男人34岁拒绝买断 他要给状元当导师

娱乐要闻

姚晨曹郁发离婚声明 凌潇肃评论区沦陷

财经要闻

多款药品被曝线上线下价差巨大

汽车要闻

10分钟电量20%→97% 低温实测比亚迪闪充

态度原创

游戏
房产
本地
时尚
健康

直接从Steam启动PS3游戏!这款模拟器功能太强大

房产要闻

炸裂!狂拆642亩!那个要砸100亿的三亚香港城来了!

本地新闻

春天出门像出舱?一个过敏星人的装备进化史

优雅,与皱纹无关

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版