网易首页 > 网易号 > 正文 申请入驻

刚刚拿下「中国AI最高奖」的语音技术,能给我们带来什么?

0
分享至

金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

  什么样的语音项目,能拿“中国AI最高奖”?

  不久前,中国唯一国家级的人工智能科技奖——吴文俊人工智能科学技术奖,公布了最新一届的获奖名单。

  而在人工智能自然科学奖的5个一等奖中,唯一一项语音相关的奖项,花落上海交通大学。这也是语音领域的研究成果第一次获得吴文俊人工智能科学技术奖的一等奖。

  获奖人分别为:

  • 钱彦旻,上海交通大学计算机科学与工程系副教授、思必驰上海交通大学智能人机交互联合实验室副主任;
  • 俞凯,上交大计算机系教授、思必驰首席科学家;
  • 谭天,上交大博士毕业、思必驰语音技术研发工程师;
  • 刘媛,上交大硕士毕业。

  不过稍微熟悉产业的盆友也知道,这个团队除了“上海交大”的底色,还都有独角兽思必驰的影子。

  团队获奖所凭借的技术成果,叫“鲁棒语音信号模式分析与识别的深度结构化建模理论与方法”。

  这到底是一项怎样的新技术?

  斩获”AI最高奖”的语音技术

  在语音分析与识别中,传统的用深度学习建模方式,主要是堆叠神经网络层数和神经元单元,或通过增加数据来提高性能。

  但这种方式的一个缺点,就是往往不具备可解释性。

  而钱彦旻团队的工作,便是将结构化的方法引入到模型设计和优化中,通过引入结构赋予神经网络更强的物理含义和参数解释,并利用人脑的听觉相关机理来指导这种结构的设计。这就会让其更具备可解释性,使得语音模型的优化目标更高效,最终提升语音信号分析与识别系统在各个场景下的鲁棒性。

  进一步而言,主要分为三个主攻方向,分别是从信道环境来做的差异化工作。

  在“信道”和“环境”方面,二者的研究往往是相伴相随,钱彦旻团队的研究集中在了对它们的表示与感知

  例如2016年和2018年发表在顶刊IEEE TASLP上的Very Deep Convolutional Neural Networks for Noise Robust Speech RecognitionAdaptive Very Deep Convolutional Residual Network for Noise Robust Speech Recognition,便让语音识别在噪声环境下的也具有较好的鲁棒性。

  钱彦旻团队首先在2016年的研究证明了极深卷积神经网络(VDCNN),具有优越的自主抗噪鲁棒性。

  然后在2018年,在以上这项研究基础上,提出了一种更先进的模型,称为极深卷积残差网络(VDCRN),并通过感知自适应技术,使得模型可以对环境变化做自动的调整。

  简单来说,这个模型结合了批处理归一化和残差学习,比刚才提到的VDCNN具有更强的鲁棒性

  而这项研究的重点集中在了因子感知训练(FAT)和聚类自适应训练(CAT)上。

  对于FAT来说,团队探索了一个统一的框架,如上图所示。

  至于CAT方面,则是提出了两种方案来构建规范模型,如下图所示。

  最后,为了在嘈杂场景下获得最佳的系统性能,还提出了一个完整的多系统融合框架。

  实验结果表明,新的VDCRN具有更强的鲁棒性,对该模型的自适应能进一步显著降低单词错误率。

  特别是在Aurora4上,仅通过改进声学建模,就达到了5.67%的新里程碑。

  ,在语音识别过程中,也是一个非常重要的因素之一。

  换言之 ,如何将一段语音中的人和人之间的区别,通过参数化的表示,在数学层面上展现出来。

  在这方面,钱彦旻团队也做了相应的工作,早在2015年便发表了题为Deep feature for text-dependent speaker verification的研究。

  值得注意的是,这项研究在2019年获得了语音领域权威期刊Speech Communication的最优论文奖。

  这项研究为了让深度学习模型更好地融入到“说话人”的验证过程中,提出了从深度学习模型中提取更有说话人鉴别能力的新方法。

  与传统的短时谱特征(例如MFCC、PLP)不同的是,钱彦旻团队采用了各种深度模型隐含层的输出作为深度特征,进行文本相关“说话人”验证。

  具体而言,一共包括四种类型的深度模型:

  • 深度受限玻尔兹曼机(deep RBM)
  • 语音判别深度神经网络(speech-discriminant DNN)
  • 说话人判别深度神经网络(speaker-discriminant DNN)
  • 多任务联合学习深度神经网络(multi-task joint-learned DNN)

  一旦深度特征被提取出来,它们可以在GMM-UBM框架或示性向量(如,i-vector)框架内使用。

  与此同时,团队还提出了“联合线性判别分析”和“概率线性判别分析”,作为基于示性向量深度特征的有效后端分类器。

  实验结果表明,无论是直接应用于GMM-UBM系统,还是作为示性向量使用,基于所提出的结构化深度模型的新表示特征方法与传统基线相比,都能获得显著的性能提升。

  当然,好的技术不能仅仅停留在实验室中的“结果数据”,更应该有落地,应当服务于人。

  如此技术,能给我们带来什么?

  这个拿了“AI最高奖”的语音团队,除了在学术界取得了成功之外,其实也是有实实在在的技术落地。

  团队成员的获奖成果均来自于他们在思必驰上海交大智能人机交互联合实验室中的校企联合研究工作,钱彦旻在联合实验室担任副主任一职。

  在量子位与钱彦旻交流过程中,他表示:

因为上交大与思必驰有联合实验室,所以会做学校研究到产业的成果应用转化。
这就使得我们在定义科学问题、研究方向的时候,会更加务实。

  具体而言,实验室会根据产品在现实生活中遇到问题,提炼出真实需要去解决的研究方向和问题。

  例如,在2019年1月23日晚,中央电视台《经典咏流传》第二季节目中,出现了一款“读诗成曲”的在线互动小工具。

  用户只需要朗读一段诗词,就可以听到用自己声音演唱的经典诗词唱段。

  这一技术采用的正是联合实验室提供的个性化歌声合成算法

  当然也有更加贴近生活的案例,例如车载系统

  作为思必驰重要合作伙伴,小鹏汽车P7进行了 “全场景语音”功能的升级。

  采用思必驰全链路语音交互技术,语音操控即可进行导航、拨打电话、音乐播放、控制空调及语音聊天,全双工语音交互,一次唤醒多轮对话,支持语义打断,打造“持续倾听 连续指令”的自由交互方式。

  我们所熟知的像长城哈弗系列、北汽X7、荣威RX5MAX等多款车型,也均在各自不同的智能系统中,采用了来自思必驰的语音技术。据悉,目前思必驰已与北汽、一汽、上汽、五菱、东风等企业建立了合作。

  更加贴近生活的智能家居方面 ,我们正在使用的各种产品中,也均有思必驰语音技术的身影。

  海信S7F社交电视走进客厅生活。

  该产品采用了思必驰TH1520芯片作为AI语音交互专用协处理器,配合思必驰线性四麦阵列前端信号处理算法及思必驰语音识别(ASR)、语音合成(TTS)等技术,实现语音交互。

  在语音芯片等领域,思必驰的语音技术也有布局。

  这也印证了钱彦旻在总结“基础原始创新实力、前沿创新能力”时的表述:

思必驰深耕于人机交互技术的研发,提供更加人性化的非配合式端到端人机对话式交互系统。
在鲁棒高效精准的语音识别与转写、个性化的语音合成和表达、精细化的富语言信息的分析与提取、场景上下文感知的对话交互、多模态的感知/识别/对话、声学场景的分析等方面,都有深入的探索和先进算法的落地。
目前,基于人机对话式交互系统,思必驰已经在智能车载前装/后装、智能家居、智能电子/穿戴、智慧政务/办公、智慧金融等领域进行了深入布局,并得到了广泛的应用。

  不难看出,思必驰上海交通大学智能人机交互联合实验室,拥有的不仅是中国“AI最高奖”语音方面的硬实力,更是将这种能力交付到了实际生活当中。

  但无论是哪一方面的成就,背后都离不开团队成员对语音技术的热爱与坚持。

  从懵懂入局,到深耕语音十余载

  钱彦旻,便是让团队走向中国AI语音技术巅峰的领军人物之一。

  钱彦旻是上海交通大学计算机科学与工程系副教授、博士生导师,同时也是思必驰上海交通大学智能人机交互联合实验室的副主任。

  博士毕业于清华大学,之后曾在英国剑桥大学工程系MIL机器智能实验室深造,做博士后研究,回国后在上海交通大学计算机系任副教授。目前在语音技术领域已经发表学术论文150余篇,并多次获得最优论文奖励。

  与此同时,他还是全球最流行的语音识别开源工具包Kaldi 13位创始人之一。

  但在量子位与钱彦旻的交流过程中却发现,钱彦旻在语音技术上的造诣与成就,并非一开始的兴趣使然。

  而关于钱彦旻与语音技术的故事,要从2007年开始讲起。

  那时的他刚刚开启博士生涯,至于专业方向的选择,则是由其在清华的导师刘加教授推荐。

  也就是在这时,便与语音技术有了初次的邂逅。

  而刚入局的钱彦旻,用他自己的话说便是“瞎折腾”,博士在读2年后,才慢慢地做到了独立探索和深入研究。

  也形成了适合自己的一套研究方法,可以对于一个语音技术的“点”,由浅入深,做比较深入、全面的研究。

  在博士毕业之后,也就是在上海交通大学和英国剑桥大学期间,对于钱彦旻个人来讲,是在语音技术多个领域中快速深入推进研究的一个阶段。从博士期间专攻语音识别一个方向,扩展到了语音分类、抗噪、感知、声纹、多模态等语音技术的多个方面。

  也就是在与语音技术一点一滴的接触过程当中,钱彦旻从一个“懵懂”的状态,逐步转变到了“热爱”。

  于是,从2007年算起,这一入局,便深耕了13年之久。

  在此过程中,除了刘教授之外,钱彦旻还提到了另外一个对他意义非凡的人,他便是Kaldi之父——Daniel Povey

  Daniel在钱彦旻读博士期间给予了非常大的帮助,细到会帮钱彦旻看到代码,指导他“将某个参数从1.0调到2.0试试”这种程度。

  甚至Daniel邀请钱彦旻出国一起参加Kaldi的开发,都是自掏腰包,极其慷慨的“包吃住”,为的就是共同钻研探讨语音技术。

  用钱彦旻的话来说:

他做人做事风格,人格的魅力,对科学的专注态度,也帮助我更加明确了研究后期的一些方向,坚定了自己的理想,也给予了我做这个方向的勇气和决心。

  ……

  而作为此次获得“AI最高奖”的语音团队,站在2021年的开始,钱彦旻也对语音技术将有的一个趋势做了预测。

  他认为深度学习在语音技术上的可解释学习还是不够,在这个过程当中具体都做了哪些事情还是不够清晰。

  而这也是钱彦旻团队能够获得此次奖项的主要原因,他们的研究让模型设计更具有物理含义,所达到的性能也更优。

  钱彦旻也谦虚地表示,他们的工作也只是对该方向的一个贡献,还需要科研人员持续、不断地深入研究。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中媒重磅警告:中国内地投资者“不可买卖”香港比特币现货ETF!

中媒重磅警告:中国内地投资者“不可买卖”香港比特币现货ETF!

FX168链界观察
2024-04-25 13:04:10
1972年,美核潜艇偷闯我国领海,毛主席一招,让其在海底憋7天7夜

1972年,美核潜艇偷闯我国领海,毛主席一招,让其在海底憋7天7夜

一往历史
2024-04-24 18:30:03
揭秘李晨与杨颖恋情曝光真实内幕

揭秘李晨与杨颖恋情曝光真实内幕

代军哥哥谈娱乐
2024-04-25 10:25:48
英国首相苏纳克把中国列为威权主义国家 中使馆驳斥

英国首相苏纳克把中国列为威权主义国家 中使馆驳斥

新京报
2024-04-25 11:28:13
雷军惨了!小米SU7卖了75723台,比遥遥领先更领先

雷军惨了!小米SU7卖了75723台,比遥遥领先更领先

科技女达人
2024-04-25 14:29:54
金价又跌了!连跌三日

金价又跌了!连跌三日

鲁中晨报
2024-04-25 15:21:04
25张难得一见的精彩照片,你没见过的世界,看后眼界都提高了

25张难得一见的精彩照片,你没见过的世界,看后眼界都提高了

农人老寓
2024-04-23 19:55:20
王心凌最厉害之处就是在低谷期买回了她所有的音乐版权了吧

王心凌最厉害之处就是在低谷期买回了她所有的音乐版权了吧

娱乐的小灶
2024-04-25 11:31:21
关注民生的煤气一词,竟成为敏感词语,实在想不明白,怎么会这样

关注民生的煤气一词,竟成为敏感词语,实在想不明白,怎么会这样

天闻地知
2024-04-24 14:06:59
广州离婚冷静期杀妻案凶手一审被判死刑,被害人家属:他问法官死刑是立即执行吗

广州离婚冷静期杀妻案凶手一审被判死刑,被害人家属:他问法官死刑是立即执行吗

潇湘晨报
2024-04-25 11:07:10
国内将逐渐停止“心脏支架”手术,做完人就废了?说说大实话

国内将逐渐停止“心脏支架”手术,做完人就废了?说说大实话

医学原创故事会
2024-04-24 22:44:08
比投资篮球成功!乔丹谈车队胜利:我太兴奋了,感觉像季后赛

比投资篮球成功!乔丹谈车队胜利:我太兴奋了,感觉像季后赛

懂球帝
2024-04-25 15:02:45
中方给布林肯安排的酒店,招牌上4个大字,希望美国能读懂

中方给布林肯安排的酒店,招牌上4个大字,希望美国能读懂

说天说地说实事
2024-04-25 09:47:40
小杨哥的“网红”人设,彻底崩塌了!

小杨哥的“网红”人设,彻底崩塌了!

金错刀
2024-04-23 16:59:41
他凭借一句“打败美帝野心狼”爆火,却移居美国,如今后悔了吗?

他凭借一句“打败美帝野心狼”爆火,却移居美国,如今后悔了吗?

冯律讲法
2024-04-23 08:00:10
葛斯齐再爆猛料!大S孩子学校家长集体怒揭大s真面目:经常爆粗口

葛斯齐再爆猛料!大S孩子学校家长集体怒揭大s真面目:经常爆粗口

小娱乐悠悠
2024-04-25 10:05:17
拜登慌了!韩国军方正式宣布,斯诺登果然没说谎,苹果的面具被撕开

拜登慌了!韩国军方正式宣布,斯诺登果然没说谎,苹果的面具被撕开

农人老寓
2024-04-25 04:11:56
67岁大姐:肥水不流外人田,和亲家公搭伙后,我的晚年过得很幸福

67岁大姐:肥水不流外人田,和亲家公搭伙后,我的晚年过得很幸福

惟来
2024-04-24 17:58:41
TikTok宣布自愿暂停TikTok Lite奖励系统,寻求解决欧盟担忧

TikTok宣布自愿暂停TikTok Lite奖励系统,寻求解决欧盟担忧

界面新闻
2024-04-25 07:18:34
范曾携爱妻外出游玩!86岁打扮时髦被搀扶,徐萌皮草外套近9万

范曾携爱妻外出游玩!86岁打扮时髦被搀扶,徐萌皮草外套近9万

听栀子说
2024-04-24 21:27:43
2024-04-25 20:28:49
量子位
量子位
追踪人工智能动态
9321文章数 175241关注度
往期回顾 全部

科技要闻

北京车展,被穿红衣服的他们占领

头条要闻

美学者:布林肯一年内二次访华 说明美国面临很多困难

头条要闻

美学者:布林肯一年内二次访华 说明美国面临很多困难

体育要闻

当胜利变成意外,就不要再提未来……

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

曙光已现?瑞银开始转而看好中国地产业

汽车要闻

全新哈弗H9亮相 大号方盒子硬派SUV入列

态度原创

亲子
手机
旅游
本地
公开课

亲子要闻

长白这家儿童乐园真的是太好了

手机要闻

外媒预计苹果iOS 18正式版9月中下旬发布 AI是一大看点

旅游要闻

京都热门景点一棵樱花树突然倒下 游客被砸成重伤

本地新闻

云游中国|苗族蜡染:九黎城的“潮”文化

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版