网易首页 > 网易号 > 正文 申请入驻

全球顶级语音技术比赛中获双料冠军,这家中国公司靠什么?

0
分享至

  

萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

  一场关键比赛,刚刚在全球顶级语音会议INTERSPEECH 2021上决出胜负。

  腾讯、西工大、CMU等国内外机构是这场对决的主办方,两项比赛内容是语音行业的前沿研究,针对真实视频会议场景。


  单麦克风阵列多通道语音增强任务(dMOS越高越好)


  多分布式麦克风阵列多通道语音增强任务(dMOS越高越好)

  来自中国、美国、新加坡等16个国家和地区的实力队伍参赛,其中有像浙大、北航这样的顶尖高校,也有像中科院声学所这样的专业研究机构。

  最终kuaishou_deep_ns团队包揽榜首,这支团队来自快手

  两项任务的第二名,分别是来自浙江大学和海康威视研究院联合团队,以及中国科学院大学、中科院声学所、北京航空航天大学、北京语言大学、西北工业大学联合团队。

  快手团队在这场比赛中所使用的技术,已经以2篇论文的形式被INTERSPEECH 2021收录。

  快手究竟在「远场多通道语音增强技术」上做出了什么突破?

  经典分割模型U-Net,跨界语音增强领域

  先来看看,这两项任务的考查目标「远场多通道语音增强技术」是什么。

  

语音增强技术,指在含噪语音中,对噪声信号进行抑制、降低,尽可能提取纯净的原始语音信号。


  如果场景中只有一个麦克风(单通道),将难以解决在会议室、智能家居、智能座舱等场景下出现的远场问题。

  

远场,指说话人距离麦克风较远的场景。
主要存在三个难点:信噪比低、房间混响(在封闭、室内场景下,声波在传播时不断被墙壁反射、吸收和衰减)、多人说话场景

  因此,通常采用多通道(多个麦克风组成的阵列)技术,来获取更多不同方向信号的幅度和相位信息,进一步解决远场问题,就是这场挑战赛的目标。


  圆阵和线阵的采集方案

  多通道包括单个、多个分布式麦克风阵列两种类型,因此这场挑战赛也由两项任务组成,分别考查这两种多通道类型的远场语音增强技术。

  传统基于信号的多通道算法,往往噪声抑制能力有限。这次的比赛中,快手团队决定从一个新角度出发解决远场问题:将深度学习技术和多通道算法进行融合。

  经过筛选后,团队最终敲定了U-Net模型架构,这是一个图像分割领域的经典模型,在医疗图像和遥感领域的应用效果非常好。

  U-Net模型以其结构左右完全对称、非常像“U”而得名,与FCN相似,同样为encoder-decoder架构,最初被用于图像压缩和图像去噪中。


  由于下采样和上采样均进行了4次,同时相比于FCN多了skip-connection(跳层连接)结构,因此U-Net能很好地提取高级语义信息和低级特征。

  但团队却将U-Net用在了语音增强领域中,基于因果U-Net提出了一种多输入多输出算法模型。

  

因果U-Net的卷积结构采用了因果卷积(causal convolutions),目的是考虑实时性问题(语音数据处理需要考虑实时性)。

  事实上,将深度学习技术用于多通道模型,仍属于前沿研究,相关论文非常少。这也成为了团队设计模型时的一大难题。

  经过反复测试验证后,团队发现,如果将模型的输出和经典的波束形成相结合,就能获得1+1>2的效果。

  同时,在整体设计的基础上,串联一个后处理滤波器,对基于深度学习模型生成的语音信号进行二次降噪,让语音音质更加清晰。


  事实证明,这一“跨界”模型的效果确实不错,原本广泛用于图像分割领域的经典模型,现在在语音增强领域也能取得不错的效果。

  最终,快手团队研发的多输入多输出模型支持8通道语音增强技术,同时具有可扩展性(能扩展不同的通道数量)。

  不过,模型创新设计还只是比赛中的一环。

  用数据还原真实场景,让听觉“无障碍”成为可能

  事实上,在语音增强比赛中,数据合成又成为了另一挑战。

  举办方只会给出纯净的单人语音和噪声数据,但在最终的场景考核中,所有语音信号却都来自真实场景。

  也就是说,在最终比赛时,模型会遇到各种远场情况、不同房间尺寸、不同麦克风放置地点和各种噪声强度等不同类型的数据,但训练数据却完全要靠团队自行设计。

  这就需要参赛者合理考虑各类数据的占比,尽可能使模拟出来的数据更贴近真实情况。


  不仅如此,由于此前深度学习在语音增强方向的研究大多基于单通道模型,因此团队自行设计的数据,还得进一步考虑多通道的情况。

  也就是说,需要对同一场景下、不同麦克风(通道)收到的信号数据进行模拟,用于多通道模型的训练。

  尽可能还原真实场景的合成数据,加上自己研发的基于深度学习的多通道模型,让快手团队最终在这场语音增强比赛上获得两项任务的第一。

  但这场语音增强比赛,背后的意义不仅在于角逐出模型的第一。

  虽然「远场多通道语音增强技术」确实尚处于前沿研究阶段,但它未来的应用场景也已经得以预见。

  其一,多人会议,而且是异地两部门之间的那种多人视频会议。


  常见的线上视频会议中,基本上每个人都需要佩戴一副耳机,才能实现多人视频会议,这也是目前大多数视频会议APP所能实现的功能。

  但未来可能只需要一块屏幕,加上多通道语音技术就能在两个异地部门、或是两群人之间实现实时视频沟通。

  即使坐在屏幕最远端的人,也能听见视频对面每个人的声音,就像在一个办公室沟通那样顺利。

  其二,让XR技术的实现,在语音处理领域成为可能。


  5G+AI的组合,让XR中的图像实时传输技术成为现实,但语音实时交互却仍然存在不少困难,其中远场是不可避开的一个技术难点。

  如果远场多通道语音增强技术进一步得到发展,或许将来XR也能真正实现语音上“声临其境”的交互效果。

  想象一下,如果将来XR能应用到直播中(例如户外直播),或许我们也能实时进入到直播环境中,足不出户感受世界的美景。

  作为音视频行业的引领者,快手已经在探索这样的多通道语音增强技术落地场景。

  将来,像多人会议、XR、直播场景互动这些设想中的“无障碍”听觉技术,说不定哪天就会成为产品,落入寻常百姓家。

  夺冠背后,快手的技术基因

  在这次的语音增强比赛上获得第一,背后是一整个快手的音频处理算法团队在做技术支撑。


  参赛团队中,也有不少成员来自清北、西工大等985高校。

  据团队成员表示,实现这个模型,团队用了将近一个月的时间,期间在模型设计和数据处理上遇到了不少难关,但最终团队都将它们逐一攻破。

  但相比于一味追求降噪效果,团队成员的模型设计也考虑了实时通信的需求。

  毕竟远场通信的一大特点就是实时性,如果模型设计得太大,忽略了可实现性的话,也会失去落地应用的价值。

  这也是快手“技术无差别”的基因之一,让技术更贴近实际生活,尽可能造福每一圈层的人群。


  事实上,除了语音增强技术以外,快手在回声消除技术上也深耕已久。

  同样是在INTERSPEECH 2021的AEC Challenge(Acoustic Echo Cancellation Challenge)回声消除比赛上,快手就以4.77的分数取得了双讲回声消除的单项世界冠军,领先于中科院、字节跳动、阿里巴巴等诸多参赛团队。

  而在技术落地方面,同样是在今年5月,快手还上线了基于深度学习的实时变声直播,成为行业中首个上线相关技术的公司。

  未来,快手还将继续在音视频行业中,凭借技术实力,带给我们更多的惊喜。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国车主最满意的轮胎品牌

中国车主最满意的轮胎品牌

聚汽网
2021-07-23 10:09:55
17岁杨幂躺在49岁成龙怀里拍广告,素颜的大幂幂,这颜值跪了

17岁杨幂躺在49岁成龙怀里拍广告,素颜的大幂幂,这颜值跪了

小昊浩聊娱乐
2021-07-23 14:30:46
乡爱王小蒙现身商演,身材壮实不如伴舞,谢广坤获6名美女护送

乡爱王小蒙现身商演,身材壮实不如伴舞,谢广坤获6名美女护送

猫眼聊八卦
2021-07-21 10:48:11
满满的套路?俄罗斯苏-75发布,本想看笑话性能却超预期

满满的套路?俄罗斯苏-75发布,本想看笑话性能却超预期

军武次位面
2021-07-22 15:46:23
江苏曝光一起事情,就发生在徐州市,当地人知道不?

江苏曝光一起事情,就发生在徐州市,当地人知道不?

社会民生资讯播报
2021-07-23 22:31:40
国家点名!郑州9次,武汉8次,合肥长沙7次,南昌太原6次

国家点名!郑州9次,武汉8次,合肥长沙7次,南昌太原6次

西部城市
2021-07-24 00:38:33
网恋奔现的大型翻车现场,笑死了,网友:我找个对象容易嘛

网恋奔现的大型翻车现场,笑死了,网友:我找个对象容易嘛

笑skr人
2021-07-22 19:22:10
丧钟敲响!神秘人现身实锤林生斌,神秘脚步声意外牵出80万遗嘱

丧钟敲响!神秘人现身实锤林生斌,神秘脚步声意外牵出80万遗嘱

小酒杯
2021-07-23 01:55:52
蒋欣和曾黎的合影火了,3小时阅读量破100万,气场差异引起热议

蒋欣和曾黎的合影火了,3小时阅读量破100万,气场差异引起热议

娱乐圈的阿三
2021-07-23 19:11:41
前任又离婚了,我再次接纳了她;彻夜长谈后,我决定彻底离开她

前任又离婚了,我再次接纳了她;彻夜长谈后,我决定彻底离开她

凌晨故事
2021-07-24 00:08:12
广州会发生像郑州那样的水灾吗?

广州会发生像郑州那样的水灾吗?

羊城网
2021-07-23 23:46:47
官宣!两笔签约达成,湖人双喜临门,詹姆斯历史第一或后再无来者

官宣!两笔签约达成,湖人双喜临门,詹姆斯历史第一或后再无来者

零点说篮
2021-07-23 23:18:22
“我的很大,你忍一下”,丁丁尺寸多大才正常?医生告诉你

“我的很大,你忍一下”,丁丁尺寸多大才正常?医生告诉你

痕迹娱乐
2021-07-21 17:04:13
7成喉癌与HPV有关,原因难以启齿,医生:3件事做好有助清病毒

7成喉癌与HPV有关,原因难以启齿,医生:3件事做好有助清病毒

贷叔说笑话
2021-07-23 18:01:53
绝望,在洪水退去后

绝望,在洪水退去后

辣笔小尖椒
2021-07-22 18:31:23
晚新闻|河北一学校133人被调查,副校长被拘留;明天,河北两地有雷阵雨

晚新闻|河北一学校133人被调查,副校长被拘留;明天,河北两地有雷阵雨

布欧小迪
2021-07-24 02:43:42
“昨天喝多了把这个扛回家了,现在醒了怎么办?”哈哈哈

“昨天喝多了把这个扛回家了,现在醒了怎么办?”哈哈哈

笑skr人
2021-07-23 03:39:57
疑似兰州大学现确诊病例已封校

疑似兰州大学现确诊病例已封校

民生资讯瞭望台
2021-07-23 20:49:17
工行、农行表态:7月25日起,ATM跨行取款手续费暂免

工行、农行表态:7月25日起,ATM跨行取款手续费暂免

红星新闻
2021-07-23 18:53:05
吴亦凡疑发布退圈声明后秒删!

吴亦凡疑发布退圈声明后秒删!

野火
2021-07-21 17:20:23
2021-07-24 07:58:44
量子位
量子位
追踪人工智能动态
5209文章数 117642关注度
往期回顾 全部

科技要闻

ASML CEO:对中国大陆市场只能“静观其变”

头条要闻

东京奥运会"低沉音乐+僵尸白服"引吐槽 网友:真吓着了

头条要闻

东京奥运会"低沉音乐+僵尸白服"引吐槽 网友:真吓着了

体育要闻

大坂直美点燃火炬 朱婷赵帅真是帅呆了

娱乐要闻

都美竹写手徐某:男人也可以帮助女人

财经要闻

汽车要闻

国内或名为新KX5 全新起亚Sportage实车亮相

态度原创

亲子
本地
时尚
旅游
房产

亲子要闻

常州三孩生育政策问卷调查:九成以上居民顾虑育儿时间精力

本地新闻

众志成城抢险抗涝 河南一定行

昨天LV舍弃吴亦凡 今天LVMH"吞食"了他的好兄弟

旅游要闻

入住率不足2%,悉尼豪华酒店变鬼楼?

房产要闻

上海限购升级!7月24日起房屋赠与也要符合限购条件!