网易首页 > 网易号 > 正文 申请入驻

超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025

0
分享至



在视频编码领域,双向编码(RA 模式)一直是高效压缩的「秘密武器」,长期以来被广泛应用于点播、视频存储等场景。然而,在基于深度学习的智能视频编码中,这项技术也面临新的挑战:双向编码采用复杂的大跨度分层参考结构,这导致运动的精确处理变得困难,参考帧的价值利用也存在明显差异。双向智能视频编码的潜力远未被完全激发,仍有巨大的优化空间等待探索。

为破解上述难题,快手音视频技术团队提出了全新的双向智能视频编码方法 —— BRHVC。该方法不仅在压缩性能上显著超越业内最先进的端到端智能视频编码方案,也成功超越最新标准的 VTM-RA 编码。相关研究成果成功被人工智能领域顶级学术会议 NeurIPS 2025 录用。



  • 论文标题:Neural B-frame Video Compression with Bi-directional Reference Harmonization
  • 论文地址:
  • https://arxiv.org/abs/2511.08938

视频编码(又称视频压缩)的核心价值在于破解海量视频数据与有限传输、存储资源之间的根本矛盾。未压缩的高清视频码率高达 1-3 Gbps,1 分钟 4K 视频占用近 20 GB 空间,这种数据量远超现有网络带宽和存储设备的承受能力。

对此,视频编码通过消除时空冗余、量化视觉不敏感信息,将视频码率压缩至 1/100~1/1000,使短视频、直播、视频会议、云游戏等应用成为可能。从经济角度看,视频编码技术每年为行业节省数万亿带宽成本,降低数据中心能耗,让用户能享受到低码率高质量的视频服务。

背景:

从低时延模式到双向模式的扩展

视频编码中的低时延模式(Low Delay, LD)采用单向 P 帧编码,仅参考前一帧进行前向预测编码。该方法延迟较小,更适用于直播场景,可以满足实时交互需求,但压缩效率偏低。双向模式(Random Access, RA)采用双向分层 B 帧编码,每个 B 帧可同时参考前后两帧,利用时域上的双向信息,在相同画质下可比低延迟模式节省 20+% 码率,是点播、存储等高画质场景首选。

目前端到端智能视频编码方法主要针对 LD 模式进行优化,在 RA 模式上的研究还不够深入。这是由于 RA 模式的参考帧顺序有着独特的设计,与 LD 模式和其他基于深度学习的视频任务存在本质区别,研发难度更大,进而约束了 RA 模式的性能。为进一步提高双向编码的压缩性能,研究团队基于以下两个任务痛点做出了改进:

长跨度帧的运动处理



该问题的根源在于 RA 编码结构(如右图)固有的时间维度放大效应。与 LD 模式固定 1 帧的参考跨度不同,RA 模式采用分层 B 帧结构,初始层级的帧间隔随层级指数级增长,最高可达 32 帧距离。这种长时距使得运动幅度与复杂度呈非线性激增。当物体在 32 帧间隔内持续移动时,其位移可能超过数百像素,同时伴随遮挡、形变、光照变化等复杂现象。现有光流网络(如 SpyNet)基于局部相关性假设,感受野受限于卷积核尺寸,面对大位移运动时极易陷入局部最优,导致运动场估计出现「断裂」或「漂移」。

不平衡的参考贡献问题



长跨度下两个参考帧的信息价值存在显著差异,如何有效利用参考帧的这一特性是一个关键问题。目前的方法没有显式建模出两个参考帧的重要性权重,即预先认为两帧具有同等的参考价值,这与很多现实情况相悖。

以上图为例,在编码当前帧(如上图 (b))的「号码牌」时,左边的帧由于遮挡而无法提供有效的参考信息,只有右边的帧有足够的参考价值。为了进一步定量分析这种不平衡的参考贡献问题,研究团队设计了专门实验:



用参考左右两帧的双向模型作为基准,用 BD-rate 表示相同质量下测试算法码率相对基准码率的增加比例(越小越好)。上图横坐标表示帧跨度,红色柱体表示只输入两个参考帧中较差的帧,绿色柱体表示只输入两个参考帧中较好的帧,灰色表示两者的 BD-rate 差值。从图中可以看到,在帧跨度较大(即 32 和 16)时,不平衡的参考贡献问题非常严重,这将极大影响后续帧的编码效率。

算法设计



整体框架如图所示,研究团队提出一种创新的双向智能视频编码框架 BRHVC(Bi-directional Reference Harmonization Video Compression),其中提出包括双向运动聚合(Bi-directional Motion Converge, BMC)和双向上下文融合(Bi-directional Contexual Fusion, BCF)两个模块,有效解决了上述长跨度帧的运动难处理问题和参考贡献不平衡问题,从而显著提升了压缩性能。

双向运动聚合(BMC)



BMC 模块针对长跨度运动估计难题,将光流网络生成的多尺度光流(原始、1/2 分辨率、1/4 分辨率)收敛至单一隐变量进行联合压缩,并引入双向参考帧间的互运动特征作为先验,动态适配不同帧类型的信息需求。这种设计突破过往光流压缩的局限,使网络在解码端能重构出覆盖更大感受野的准确运动场,显著提升大位移场景下的运动补偿精度。



BMC 的可视化效果如上图所示,图左半部分表示长跨度的参考,右半部分表示短跨度的参考,上半部分表示所提 BRHVC 用到的 BMC 模块,下半部分表示基准 Baseline 模型。可以看到,BMC 对多尺度光流进行单独生成和整体压缩,可以有效避免大跨度下光流生成时遇到的光流杂乱错误的情况。

双向上下文融合(BCF)



BCF 模块则针对不平衡参考贡献问题,在编码端通过计算当前帧与双向运动补偿结果在像素域的相似度差异,生成空间自适应权重图与偏置项,将参考特征在通道维度按重要性重新加权融合;解码端则利用熵解码后的潜变量重建权重信息,实现与编码端协同。



上图展示了权重特征在不同帧跨度上的区别。可以看到,BCF 处理得到的显式权重建模很好地解决了长跨度帧的遮挡问题,使得所提的 BRHVC 能够聚焦更多注意力在更有参考价值的区域上,从而提高压缩性能。

总之,BRHVC 的两个关键模块形成递进式优化 —— BMC 提供高质量多尺度运动表征,BCF 在此基础上实现智能信息筛选,最终使 BRHVC 在 HEVC 数据集上超越 VTM-RA 编码,成功实现双向智能视频编码对传统标准的超越,具有重要意义。

实验效果





研究团队使用了业内标准数据集 HEVC Class B 至 E、UVG 及 MCL-JCV,分辨率跨度从 240p 到 1080p,并遵循 Intra Period 为 32 的配置以公平评估。实验对比涵盖了 H.265 标准编码器 HM-16.5、最新标准的 H.266 编码器 VTM-17.0 的 LD/RA 模式、最新的低时延智能视频编码方法(如 DCVC-DC、DCVC-FM 等)以及双向智能编码方法 DCVC-B。

结果表明,在 HEVC 数据集上,BRHVC 相比于传统编码器 VTM-LDB 平均实现 32.0% 的码率节省,其中在 Class D 序列上增益高达 44.7%;同时,BRHVC 相比于传统编码器 VTM-RA 实现 1.1% 的码率节省,在编码效率上成功超越 VTM-RA。



研究团队对 BRHVC 的两个模块进行了消融实验,结果表明 BMC 和 BCF 两个模块有着较高的解码收益性价比,能够获得相对基准模型约 12.3% 的显著码率节省。

总结

本研究系统梳理并深入剖析了双向智能视频压缩面临的核心挑战,特别是长跨度帧的运动处理和不平衡参考贡献问题。尽管传统预测编码能够借助前后参考帧显著提高压缩效率,但在长跨度场景下,参考帧之间的信息价值往往呈现明显异质性,使得模型难以充分发挥双向预测的潜在优势。

针对这一瓶颈,快手研究团队提出了全新的BRHVC 编码框架,通过引入双向运动融合(BMC)与双向上下文融合(BCF)两大关键创新模块,实现了对参考信息的自适应调和。得益于更精准的运动刻画和更均衡的参考融合机制,BRHVC 在压缩性能上超越最新传统标准VTM-RA编码器,取得了双向智能视频压缩领域的重要突破,也为未来智能视频编码的发展提供了新的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
9岁女童倒地猝死后续:舅舅曝光真相,聊天内容流出,男方被打脸

9岁女童倒地猝死后续:舅舅曝光真相,聊天内容流出,男方被打脸

有范又有料
2026-01-15 15:26:30
1969年,叶剑英被贬长沙,少将黎原机场怒斥秘书:这叫忘恩负义!

1969年,叶剑英被贬长沙,少将黎原机场怒斥秘书:这叫忘恩负义!

文史明鉴
2026-01-15 20:58:11
火箭91-111雷霆4坏消息!杜兰特申京被限制,谢泼德难有培养价值

火箭91-111雷霆4坏消息!杜兰特申京被限制,谢泼德难有培养价值

篮球资讯达人
2026-01-16 11:30:50
惨败40分!广东输在哪?多位媒体人给出看法,有2人点评一针见血

惨败40分!广东输在哪?多位媒体人给出看法,有2人点评一针见血

后仰大风车
2026-01-15 22:24:59
征战23载NBA!詹姆斯退役后退休金曝光,数额让网友直呼意外

征战23载NBA!詹姆斯退役后退休金曝光,数额让网友直呼意外

篮球看比赛
2026-01-15 11:22:21
大师赛中国1胜2负!6-5绝杀,50岁老将晋级4强,赵心童获37万奖金

大师赛中国1胜2负!6-5绝杀,50岁老将晋级4强,赵心童获37万奖金

小火箭爱体育
2026-01-16 01:44:44
亚足联官方复盘U23小组赛:李昊闪耀扑救榜,中日后防固若金汤

亚足联官方复盘U23小组赛:李昊闪耀扑救榜,中日后防固若金汤

懂球帝
2026-01-15 20:04:41
美军上将大胆预言:解放军的统一之战,将以这个名义打响第一枪?

美军上将大胆预言:解放军的统一之战,将以这个名义打响第一枪?

真正能保护你的
2026-01-13 01:19:02
王君伟已任全国总工会书记处书记人选、党组成员

王君伟已任全国总工会书记处书记人选、党组成员

澎湃新闻
2026-01-16 09:54:26
乌克兰新任国防部长:出现20万逃兵,200万人逃避征兵

乌克兰新任国防部长:出现20万逃兵,200万人逃避征兵

澎湃新闻
2026-01-15 18:40:26
破案!深圳能干赢上海,而广东却输40分的原因找到,沪迷说出实情

破案!深圳能干赢上海,而广东却输40分的原因找到,沪迷说出实情

后仰大风车
2026-01-16 08:25:06
越南少将大实话:当年中国撤军为啥不追?不是不想,是一份绝密命令让人不得不服

越南少将大实话:当年中国撤军为啥不追?不是不想,是一份绝密命令让人不得不服

老杉说历史
2026-01-14 20:31:37
广东40分输球揪出最大毒瘤!他上场24分钟,正负值-48,打的真差

广东40分输球揪出最大毒瘤!他上场24分钟,正负值-48,打的真差

篮球专区
2026-01-15 22:24:04
加拿大总理刚到北京,又有两国元首计划访华,特朗普突然喊话中国

加拿大总理刚到北京,又有两国元首计划访华,特朗普突然喊话中国

离离言几许
2026-01-15 19:13:19
美军航母又上演“声东击西”?三面特朗普:发狠话,放软话,还在等关键临界点到来

美军航母又上演“声东击西”?三面特朗普:发狠话,放软话,还在等关键临界点到来

红星新闻
2026-01-15 14:30:15
聂卫平病逝!他的三任妻子中,王静名气最大,处境却最让人心疼

聂卫平病逝!他的三任妻子中,王静名气最大,处境却最让人心疼

社会日日鲜
2026-01-16 07:09:38
甘肃武威市天祝县发生3.6级地震,震源深度10千米

甘肃武威市天祝县发生3.6级地震,震源深度10千米

极目新闻
2026-01-16 08:57:36
一家七口完美落袋31亿,卖掉公司后逃到美国,把麻烦留给17万股民

一家七口完美落袋31亿,卖掉公司后逃到美国,把麻烦留给17万股民

趣文说娱
2026-01-14 11:37:46
伊朗推迟处决,川普暂缓行动;中东上空“山雨欲来风满楼”

伊朗推迟处决,川普暂缓行动;中东上空“山雨欲来风满楼”

近距离
2026-01-15 11:21:15
宿迁百亿传销案!孙玉婷18岁的女儿被抓走

宿迁百亿传销案!孙玉婷18岁的女儿被抓走

无忌财谈
2026-01-15 21:39:22
2026-01-16 11:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12128文章数 142540关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

健康
房产
亲子
旅游
公开课

血常规3项异常,是身体警报!

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

亲子要闻

答应我,今晚试试看,10分钟就行

旅游要闻

冰雪为媒 冬季游持续“升温”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版