网易首页 > 网易号 > 正文 申请入驻

视听合一!“基于视觉理解的三维声重合成技术” 获广电总局高新视频创新应用大赛一等奖

0
分享至

来源:科技视听


在超高清视频成为行业主流的今天,4K/8K画质早已走进千家万户,但你是否有过这样的体验:画面清晰到纤毫毕现,声音却总感觉“跟不上”——或定位不准,或杂音干扰,沉浸感大打折扣?

日前,在广电总局高新视频创新应用大赛中,“基于视觉理解的三维声智能化重合成技术”一举斩获生产端一等奖。该技术由中国传媒大学与广东南方新媒体股份有限公司联合研发,以深度学习为核心,实现了视觉与听觉的精准协同,为超高清视听内容生产提供了高效解决方案。

技术背景

超高清时代的“声音刚需”

当前,超高清产业发展与国家文化数字化战略高度契合,4K/8K超高清技术广泛应用于多地频道、博物馆展厅、端游等场景。作为超高清六维技术的核心组成,声音直接影响用户的沉浸体验。数据显示,目前全球三维声市场需求持续暴涨,预计2030年市场规模将增长至164.6亿美元,复合年增长率高达12.81%。

然而,传统三维声合成依赖人工塑声,不仅成本高、制作周期长,效果也因混音师主观经验而异,难以满足大规模标准化生产需求。更突出的问题是“视听两张皮”:一方面,沉浸式三维声重合成技术相对视觉超高清技术发展缓慢。另一方面,大多数三维声重合成方法只侧重音频,忽略了与视觉信息的协同互补,使沉浸式体验大打折扣。还有一些使用视觉作为空间信息重构指导的方法则普遍存在视听同步性不足、空间定位精度低、背景噪声干扰等问题,无法实现声音与画面动作、场景空间的动态适配,成为制约超高清产业发展的关键瓶颈。因此,亟需一套“视听协同”的全新解决方案。

三大核心技术

重构三维声生产逻辑

“基于视觉理解的三维声重合成技术”的核心突破是用“视听计算”替代“手工录制”,构建了一套“体验量化指导—算法自动补采—视听动态映射”的三维声重合成智能系统,并提出了“评测端定位、采集端降本、重构端提质”的三维优化思路,实现了从人为主观感知到算法客观评价,从专用设备依赖到通用音频计算,从视听静态匹配到动态同步的跨越。

01

脑电技术赋能,让“听感”客观且可量化

当前视听质量评估多采用人工多级评分方法,但该方式受个体审美偏好、主观判断差异的影响显著。面对海量视听内容,迫切需要构建一套统一、稳定的质量评估标准,并形成客观化的视听感知量化方法。为此,团队创新提出“群体客观性度量”的解决方案,以脑电特征为客观表征载体,实现跨个体的感知质量统一度量,突破传统主观评价的局限性。通过采集不同年龄段被试者的脑电时域、空域、频域特征,将视听感知质量拆解为清晰度、一致性、沉浸度三个核心维度,成功将“主观经验判断”转变为“客观数据度量”,为三维声合成提供了精准的优化依据。

具体技术实施流程可概括为:首先选取多组音视频片段作为刺激材料,生成标准化的音视频刺激序列,随后开展脑电实验,采集被试接收刺激时的脑电响应。之后,基于采集的脑电信号,提取其时域、频域及空域特征,进而构建脑电感知评分预测模型,最终形成“基于脑电响应的质量评价指标”,完成视听感知质量的客观量化。总的来说,这一技术建立了脑电特征与视听质量之间的定量度量关系,为后续三维声合成的自主驱动优化,提供了客观、可量化的感知质量依据。


图 基于脑电特征的视听感知量化技术

02

智能去噪,留住纯净原声

由于录制设备和录制环境的随机性,设备间的电路噪声以及录制环境的背景噪声会直接影响未空间化的音频听感。而现有的音频去噪方案对于不同类型、不同频段的含噪声音频采用无差别处理模式,这导致噪声残留,或损坏非噪声谐波结构。因此,亟需建模音频谐波结构,实现自适应去噪。

针对这一问题,团队创新提出自适应高效去噪模型,包括两个模块:第一个是基于高效通道注意力机制的特征学习模块,通过高效通道注意力机制捕捉通道间局部依赖,分区挖掘局部细节特征,结合监督注意力子模块强化目标音频特征,针对性建模音频谐波结构,在数据驱动模式下区分噪声与音频的有效成分。第二个模块则基于细粒度特征实现自适应降噪,避免无差别处理带来的听感损失。该技术能平衡噪声滤除效果和音频表达完整度,实现54.6%的噪声滤除度,显著优于传统去噪方法,为三维声合成提供纯净输入源。


图 基于高效通道注意力的自动音频去噪技术

03

视听时空动态同步,声随画动

在空间音频重合成的子领域,即立体声音频重合成方法中,往往采用视听内容整体分析策略,无法捕捉声源动态变化,导致位置错误、发声状态误判等问题。

本团队提出“分离-混合”两步法,首先通过时空动态分析算法,将复杂场景拆分为多个独立视听区域,之后并行完成各区域视听特征提取与融合。技术上,创新采用基于声源区域的视听特征融合编码方法,通过ResNet-18网络提取视频帧浅深层特征,精准定位潜在发声区域。结合关联金字塔网络实现跨模态特征融合。最后将各独立视听区域的三维声音频按通道混合,实现声源位置与画面动态的实时匹配。该方案显著提升了合成精度与效率,其中视听一致度高达64.3%,计算效率方面英伟达RTX A5000单卡处理10秒音频仅需0.491秒。


图 视听时空动态同步重合成技术

10年深耕结硕果

技术落地多场景惠及千万用户

经过近10年深耕,“基于视觉理解的三维声重合成技术”的研发团队构建了“理论研究-技术突破-平台开发-产业应用”的完整创新链。不仅在IEEE TPAMI、ACM MM等顶级期刊和会议发表论文10余篇,还申请/授权发明专利5项,发布行业标准4项,软件著作权1项。

扎实的技术积累,最终转化为实实在在的应用价值。目前,这项技术已在超高清视频制作、老电影修复、文博展览等多个领域规模化落地,成效显著。在超高清视频领域,已集成于广东、河南IPTV播控平台,覆盖4277万用户,完成《逃学神探》《哆啦A梦》等4811分钟影视内容的5.1声道重构,让家庭用户尽享影院级环绕声体验;在老电影修复领域,为中国电影资料馆国宝级影片《解放了的中国》提供音轨修复技术支持,还原经典作品的原声质感,相关成果获CCTV-1《机智过人》节目报道;在文博领域,已走进湖南博物院、河南博物院,通过乐器三维声生成,让观众能“听见”文物背后的历史故事,创新科普传播形式。

未来可期

智能+定制化三维声在路上

“基于视觉理解的三维声智能化重合成技术”通过打通视觉与听觉的跨模态协同壁垒,不仅破解了超高清内容生产中制作效率低、视听不同步等行业痛点,还为影视制作、网络直播、VR/AR等领域提供了低成本、高质量的三维声解决方案。未来,团队还将进一步引入语音识别、文字识别等多模态信息,强化复杂场景适配能力,并结合用户个性化需求,实现定制化三维声合成。相信在各项技术的共同推动下,超高清视听产业将持续向智能化、标准化、规模化方向发展。

好文共赏请转发 有话要说请留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东舰航母,2条电磁弹射器,兼容空警600,已成定局?

山东舰航母,2条电磁弹射器,兼容空警600,已成定局?

万里繁华
2026-01-23 11:13:03
苏州文旅被指“洗稿”原创文章,原作者只求公开致歉,官方回应:文章已下架,是否构成“洗稿”还需认定

苏州文旅被指“洗稿”原创文章,原作者只求公开致歉,官方回应:文章已下架,是否构成“洗稿”还需认定

扬子晚报
2026-01-22 22:40:28
春节前清租!天河长湴村狂奔,村民补偿猛涨

春节前清租!天河长湴村狂奔,村民补偿猛涨

广州楼市发布
2026-01-22 19:36:57
王楚然超级白嫩美腿太美了

王楚然超级白嫩美腿太美了

可乐谈情感
2026-01-18 11:08:58
贝克汉姆儿媳黑料被扒,曾被造型师吐槽人品差像怪物,且擅长公关

贝克汉姆儿媳黑料被扒,曾被造型师吐槽人品差像怪物,且擅长公关

电影侦探社
2026-01-22 18:10:29
董璇姐姐的普拉提,这身材谁扛得住

董璇姐姐的普拉提,这身材谁扛得住

小椰的奶奶
2026-01-23 11:46:10
1.23今日金价:大家不必等待了!接下来,金价有可能会重演历史!

1.23今日金价:大家不必等待了!接下来,金价有可能会重演历史!

叮当当科技
2026-01-23 03:36:50
自然资源部:坚决拥护党中央决定

自然资源部:坚决拥护党中央决定

新京报
2026-01-22 21:25:13
这夜,气质儒雅的梁朝伟成焦点,素面朝天甩了脂粉气十足的几条街

这夜,气质儒雅的梁朝伟成焦点,素面朝天甩了脂粉气十足的几条街

琴声飞扬
2026-01-22 13:37:44
曼联700万铁闸拒绝冬窗离队!接洽恩迪迪真相揭晓,两人仍是目标

曼联700万铁闸拒绝冬窗离队!接洽恩迪迪真相揭晓,两人仍是目标

罗米的曼联博客
2026-01-22 11:43:26
北京下了死命令,2027年底前,所有中小学必须告别“校外配餐”

北京下了死命令,2027年底前,所有中小学必须告别“校外配餐”

近史博览
2026-01-19 15:32:32
金臀遇上六块腹肌:金姐与C罗的第一次“撞车”

金臀遇上六块腹肌:金姐与C罗的第一次“撞车”

罗氏八卦
2026-01-23 08:44:27
热点丨重庆某医院检验科主任狂买30多处房产!面对纪委她称买房钱“都是借的”

热点丨重庆某医院检验科主任狂买30多处房产!面对纪委她称买房钱“都是借的”

钱眼
2026-01-22 20:09:20
第一个捐款的明星出现了!苗圃现身嫣然医院捐款,更多名人发声了

第一个捐款的明星出现了!苗圃现身嫣然医院捐款,更多名人发声了

萌神木木
2026-01-21 17:18:03
给机会不中用!杜兰特疑干扰球,火箭队加时惜败,球迷:正义必胜

给机会不中用!杜兰特疑干扰球,火箭队加时惜败,球迷:正义必胜

墨史轩
2026-01-23 11:19:04
印度希望中国无偿转让锂电池技术!被中国拒绝后,印度或无法接受

印度希望中国无偿转让锂电池技术!被中国拒绝后,印度或无法接受

临云史策
2026-01-22 18:48:25
为什么成功人士的精力都非常旺盛?网友:几乎不管任何琐碎的事情

为什么成功人士的精力都非常旺盛?网友:几乎不管任何琐碎的事情

另子维爱读史
2025-12-29 17:29:04
沈从文进精神病院后,妻子从未来探望,临终前他说:“对不起”

沈从文进精神病院后,妻子从未来探望,临终前他说:“对不起”

史之铭
2026-01-23 05:29:14
卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

以茶带书
2025-12-09 23:33:58
又一品牌宣布:2月2日起,全线涨价!金价持续狂飙,有人直言扛不住了,“一夜没睡……”

又一品牌宣布:2月2日起,全线涨价!金价持续狂飙,有人直言扛不住了,“一夜没睡……”

都市快报橙柿互动
2026-01-23 11:28:21
2026-01-23 12:20:49
广电猎酷 incentive-icons
广电猎酷
致力于广电科技的第一订阅号
10973文章数 2627关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

面值400元“马钞”卖了3000元 有人报价4600元

头条要闻

面值400元“马钞”卖了3000元 有人报价4600元

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

本地
旅游
亲子
公开课
军事航空

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

旅游要闻

350余项文旅活动迎新春,临沂文旅邀您“冬享沂蒙过大年”

亲子要闻

没有过敏原为什么孩子还是起荨麻疹?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版