同声传译(SI)是翻译行业中的一个大挑战,自动化系统在实现时面临诸多困难,包括翻译和转录质量不高、缺乏实时语音生成、多人发言时的混乱、以及长时间讲话时翻译语音过长等问题。字节推出的Seed LiveInterpret 2.0,是一种全新的同声传译系统,它通过端到端的技术提供高保真、超低延迟的语音到语音翻译,同时具备语音克隆的功能,能够解决以上种种难题。(链接在文章底部)
这个系统的核心是一个创新的双工语音理解与生成框架,帮助它在翻译准确性和延迟之间达到了非常理想的平衡。经过人工翻译员验证,Seed LiveInterpret 2.0在复杂场景中翻译的准确率超过70%。相比传统的商业同声传译解决方案,这个系统不仅在翻译质量上有显著提升,还将语音克隆的延迟从接近10秒降低到了3秒,减少了约70%,极大地提升了其在实际应用中的可用性。
01 技术原理
在一个多语言现场对话场景中,下图展示了两位人类发言人(SPK1和SPK2),分别用中文和英文进行交流。顶部部分显示了原始的发言和发言人的轮换。下方则可视化了Seed LiveInterpret 2.0的实时表现,执行同声语音翻译。耳朵图标表示系统正在持续监听每个发言人。翻译后的输出(英文或中文)出现在下方,水平间隔代表翻译的延迟。
系统会克隆每个发言人的声音,并将其翻译成另一种语言,同时保持相应的语调,通过不同颜色的条形图表示。这种布局突出了该系统的实时翻译能力,同时保持了跨语言的发言人身份。
模型引入了一种新颖的两阶段强化学习框架,采用统一的奖励设计,平衡了基于过程的细粒度反馈和基于结果的全局目标,使得模型能够在实时优化翻译质量和延迟之间取得平衡。
相比传统方法,该模型在传译准确性与语音延迟之间实现了更好的平衡,这得益于其全双工的语音理解和生成框架,实现了超低的语音延迟和高质量的传译。其能够在统一框架内无缝集成翻译、语音克隆和语音合成,解决了之前级联模型和端到端模型的关键局限性。
02 演示效果
出色的延迟与流畅度:平均语音到语音延迟为 2-3 秒,达到了与高水平人类同传相当的水准。
高保真的声音复刻:可实时复刻不同说话人的音色,准确保留身份特征以避免混淆。
精准的语境理解力:深度理解上下文与文化背景,实现中英复杂化(如绕口令、诗词、美食文化等)的自然互译。
https://seed.bytedance.com/zh/seed_liveinterpret
https://lf3-static.bytednsdoc.com/obj/eden-cn/bdeh7uhpsuht/Seed%20LiveInterpret%202.0.pdf欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.