网易首页 > 网易号 > 正文 申请入驻

ACL 2022 | 字节AI Lab联合UCSB提出MOSST:基于单调切分的端到端同传

0
分享至

这篇文章给大家介绍ACL2022上的一篇研究流式语音翻译的工作,“Learning When to Translate for Streaming Speech”,主要是引入了一种单调切分模块(Monotonic Segmentation Module)用于语音翻译(Speech Translation),简称MoSST,作者来自字节跳动人工智能实验室和加州大学圣塔芭芭拉分校。

论文地址: https://arxiv.org/abs/2109.07368 代码地址: https://github.com/dqqcasia/mosst 火山翻译在线体验: http://translate.volcengine.cn/

一、研究背景和动机

随着信息技术的发展,流媒体和多媒体成为信息传递的主要媒介,逐渐应用在我们生活的方方面面。即时的信息传递需求也在日益增加。特别地,在跨国交流和文化传播场景中,为了消除语言沟通障碍,即时语音翻译发挥着重要作用,广泛应用于旅游、教育、医疗、电商、新闻播客等场景。国内很多公司都形成了比较完整的流式语音翻译的解决方案。流式语音翻译是指接收音频流的过程中,能够实时返回源语言音频对应的翻译结果。最被大众所熟知的应用形式是AI同传:在会议同传中,流式语音翻译技术通常会以流式输出的双语字幕的形式展示给观众

二、流式语音翻译面临的挑战

流式语音翻译技术(Simultaneous Speech Translation,简称SiST)需要同时权衡翻译质量翻译延迟。一方面,为了更好的用户体验,SiST追求较低延迟,这就需要尽可能早地开始翻译;另一方面,为了保证翻译的准确性,需要输入更多的上下文,这要求等待尽可能多的音频流。综上,SiST的目标是在满足一定延迟约束的情况下取得最好的翻译准确性。传统的SiST是由流式的语音识别和流式的机器翻译等多个模块串联而成的级联系统实现的。由于级联系统存在错误累积和局部优化等问题,端到端SiST逐渐受到了研究者的关注。

现有经典的端到端SiST工作是基于固定策略的wait-k训练:首先,SiST按固定步长接受音频流,直到K步;然后,SiST迭代地进行音频流的输入和翻译结果的输出,直到音频流结束或者翻译结束。

三、基于单调对齐的流式语音翻译

已有的SiST方法是基于固定步长读入音频流,会破坏音频边界,无法保证读入的语音信息是完整的。基于动态步长读入音频流会更适合流式的音频翻译任务。那么,如何找到合适的时刻来结束一次读入过程就是一个要解决的问题了。这篇工作引入了一种单调切分模块,能够检测音频流的边界,实现动态读入,如下图所示。

模型结构和细节

如下图所示,MoSST由声学编码器、单调切分模块以及Transformer组成。除了单调切分模块,MoSST的模型和经典的离线ST模型是完全一致的。

MoSST的单调切分模块是由连续整合发放[1]的工作启发得来的。具体地,单调切分模块利用整合发放神经元实现动态的读写策略。这种神经元有两种模式,整合模式和发放模式。在整合模式,神经元持续地接收信号以及积累信息,当接收到的信息超过了特定阈值,即进入发放模式,神经元会释放一个信号,例如尖峰状态等,这时的状态包含了上一个整合阶段积累的信息,然后神经元将会重置,重新进入整合模式,再次循环。

MoSST使用完整句子进行训练,另外,为了缓解ST (Streaming speech) 任务数据匮乏的问题,引入了预训练的声学模型进行初始化以及多任务学习策略。

实验结果和分析实验结果

  • 性能超过基线系统

我们与已有的SiST的工作,SimulST[2] , SimulSpeech[3]进行了性能比较。如下图可以看出,在延迟和BLEU的指标上,MoSST的性能显著优于基线系统。

  • 性能超过级联系统

我们和级联的流式语音翻译系统进行了比较,结果如下图。级联系统是由一个流式语音识别系统和流式机器翻译系统串联而成。可以看出,错误传播问题在级联的流式语音翻译任务中仍然比较严重。MoSST在翻译质量的指标上有较大优势。

  • 离线翻译性能提升

另外,MoSST因为采用整句训练的方式,也具备离线语音翻译的能力,我们在受限设置下对比了已有的离线模型的性能,结果如下图。这表明MoSST在离线场景也有不错的表现。

实验分析

  • 自适应策略和固定策略的比较

对于固定策略,步长的参数设置影响非常大。如下图所示,随着步长的增大,翻译准确率有显著提升,但是延迟指标也落入了比较大的区间。

自适应策略和固定策略的性能比较如下图所示。自适应策略能够动态地决定合适的步长,因此可以在翻译延迟和翻译准确性之间取得更好的平衡。

  • 消融实验

我们在离线翻译任务上进行了消融实验,结果如下图所示。可以看出,随着每个模块或者策略的去除,翻译准确性都有显著下降,音频预训练和单调切分模块的影响都比较大。

四、总结

端到端SiST是个更加有挑战性的问题,需要平衡翻译延迟和翻译准确性两个维度的指标。本文介绍的MoSST框架引入了一种单调切分模块动态地读取音频单元,实验结果证明了该方法的有效性。并且该方法具备在流式翻译和离线翻译两种场景应用的潜力。

References

[1] Linhao Dong and Bo Xu. 2020. CIF: continuous integrate-and-fire for end-to-end speech re cognition. In 2020 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2020, Barcelona, Spain, May 4-8, 2020, pages 6079–6083.

[2] Xutai Ma, Juan Pino, and Philipp Koehn. 2020. SimulMT to SimulST: Adapting simultaneous text translation to end-to-end simultaneous speech translation. In Proc. of AACL, pages 582–587.

[3] Yi Ren, Jinglin Liu, Xu Tan, Chen Zhang, Tao Qin, Zhou Zhao, and Tie-Yan Liu. 2020. SimulSpeech: End-to-end simultaneous speech to text translation. In Proc. of ACL, pages 3787–3796.

作 者: 董倩倩

Illustration by Elisabet Guba from icons8

-The End-

本周上新!

扫码观看!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
霍去病23岁死亡真相:遗体状如焚烧,汉武帝厚葬仪式难掩内心狠毒

霍去病23岁死亡真相:遗体状如焚烧,汉武帝厚葬仪式难掩内心狠毒

卡西莫多的故事
2025-11-27 09:45:11
“我真的一点声音没听见”,网约车司机在乘客走人后气懵:少看一眼,白跑半天车!

“我真的一点声音没听见”,网约车司机在乘客走人后气懵:少看一眼,白跑半天车!

用车指南
2026-05-25 10:01:30
黎家盈75岁父母来北京探望她,丈夫放弃香港事业,家人付出有多大

黎家盈75岁父母来北京探望她,丈夫放弃香港事业,家人付出有多大

云舟史策
2026-05-25 14:49:07
伊朗协议前景引爆贵金属市场行情!黄金大幅跳空高开 金价一度暴涨约70美元

伊朗协议前景引爆贵金属市场行情!黄金大幅跳空高开 金价一度暴涨约70美元

新浪财经
2026-05-25 10:14:45
何巫呷创造中国女5000米二十一年来最佳 突破王军霞奥运夺冠成绩

何巫呷创造中国女5000米二十一年来最佳 突破王军霞奥运夺冠成绩

威猛孟巍
2026-05-25 00:05:13
TA:对阵纽卡25分钟被换下,托迪博赛后和主帅努诺“决裂”

TA:对阵纽卡25分钟被换下,托迪博赛后和主帅努诺“决裂”

懂球帝
2026-05-25 02:51:20
一夜清零!重庆暴雨冲走8万心血,人在就不算输

一夜清零!重庆暴雨冲走8万心血,人在就不算输

观星赏月
2026-05-25 16:05:14
陪睡只是入门!认干爹、舔手指,背地里的阴暗面完全藏不住了...

陪睡只是入门!认干爹、舔手指,背地里的阴暗面完全藏不住了...

芳华青年
2026-05-18 13:07:54
美国至今搞不懂,一个没出过国的中国人,为何能设计出于敏构型?

美国至今搞不懂,一个没出过国的中国人,为何能设计出于敏构型?

慕名而来只为你
2026-05-23 03:48:06
屡禁不止的偷拍:你永远不知道,住过的酒店、民宿、商场试衣间,甚至厕所布下了多少摄像头,拍下了你多少画面,又卖给多少人“欣赏”。

屡禁不止的偷拍:你永远不知道,住过的酒店、民宿、商场试衣间,甚至厕所布下了多少摄像头,拍下了你多少画面,又卖给多少人“欣赏”。

贴小君
2026-05-26 00:09:51
RAV4荣放全系混动卖12.9万,丰田这把玩得有点狠

RAV4荣放全系混动卖12.9万,丰田这把玩得有点狠

侃故事的阿庆
2026-05-23 13:09:44
NBA官宣最佳阵容:亚历山大约基奇全票一阵 杜兰特小卡进二阵

NBA官宣最佳阵容:亚历山大约基奇全票一阵 杜兰特小卡进二阵

罗说NBA
2026-05-25 07:27:26
美预言家朱迪再爆猛料:美日中命运已定,此岛将首遭灾

美预言家朱迪再爆猛料:美日中命运已定,此岛将首遭灾

心灵短笛
2025-05-12 10:05:25
一不舒服就逃,你可能正在错过真正值得的人

一不舒服就逃,你可能正在错过真正值得的人

风里藏温柔啊
2026-05-24 01:17:36
亨德森安菲尔德告别仪式引发小蜜蜂球迷不满,被批“真丢人”

亨德森安菲尔德告别仪式引发小蜜蜂球迷不满,被批“真丢人”

懂球帝
2026-05-25 20:28:21
台湾省人均GDP四万美元,超过日韩,但为什么给人感觉比较落后

台湾省人均GDP四万美元,超过日韩,但为什么给人感觉比较落后

狐狸先森讲升学规划
2026-05-06 05:35:03
退休两年后,聂海胜近况曝光!现身神州23欢送仪式,低调似路人

退休两年后,聂海胜近况曝光!现身神州23欢送仪式,低调似路人

米果说识
2026-05-25 16:44:25
93年辽宁整箱77式手枪被盗,北京严令节前破案,凶手竟是守库武警

93年辽宁整箱77式手枪被盗,北京严令节前破案,凶手竟是守库武警

鉴史录
2026-05-24 14:07:32
法网首秀仅丢5局!西班牙又一红土天才崛起,一数据比肩德约

法网首秀仅丢5局!西班牙又一红土天才崛起,一数据比肩德约

全景体育V
2026-05-25 20:59:14
中国女排坏消息!吴梦洁训练受伤,将接受手术,亚锦赛恐难夺冠

中国女排坏消息!吴梦洁训练受伤,将接受手术,亚锦赛恐难夺冠

跑者排球视角
2026-05-25 17:57:40
2026-05-26 01:00:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2387文章数 596关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

特朗普强制要求中东多国与以建交 称美伊谈判进展顺利

头条要闻

特朗普强制要求中东多国与以建交 称美伊谈判进展顺利

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

数码
本地
手机
游戏
公开课

数码要闻

599元 荣耀Earbuds耳夹式耳机Pro发布:支持YOYO助手唤醒

本地新闻

用云锦的方式,打开江苏南京

手机要闻

华为nova16系列定档,预订已开启

这款20多年前的GBA神作居然是炒冷饭,而且至今好评难以超越?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版