网易首页 > 网易号 > 正文 申请入驻

字节大模型同传智能体,一出手就是媲美人类的同声传译水平

0
分享至

机器之心发布

机器之心编辑部

无论是语速超快、发音复杂的绕口令,还是精妙绝伦的文言文,又或是充满即兴和灵感的随意聊天,模型都能流畅自然地给出准确而地道的翻译结果。

近年来,人工智能(Aritificial Intelligence, AI),尤其是以大语言模型(Large Language Models, LLMs)为代表的 AI 正以惊人的速度发展,这些模型在多种自然语言处理任务中展现了卓越的能力。然而,尽管在许多领域取得了突破,代表着人类顶尖语言水平的同声传译(Simultaneous Interpretation, SI)依然是一个未被完全攻克的难题。

市面上传统的同声传译软件通常采用级联模型(cascaded model)的方法,即先进行自动语音识别(Automatic Speech Recognition, ASR),然后再进行机器翻译(Machine Translation, MT)。这种方法存在一个显著的问题 —— 错误传播。ASR 过程中的错误会直接影响到后续的翻译质量,导致严重的误差累积。此外,传统的同声传译系统由于受限于低延时的要求,通常只使用了性能较差的小模型,这在应对复杂多变的实际应用场景时存在瓶颈。

来自字节跳动 ByteDance Research 团队的研究人员推出了端到端同声传译智能体:Cross Language Agent - Simultaneous Interpretation, CLASI,其效果已接近专业人工水平的同声传译,展示了巨大的潜力和先进的技术能力。CLASI 采用了端到端的架构,规避了级联模型中错误传播的问题,依托于豆包基座大模型和豆包大模型语音组的语音理解能力,同时具备了从外部获取知识的能力,最终形成了足以媲美人类水平的同声传译系统。

  • 论文地址:https://byteresearchcla.github.io/clasi/technical_report.pdf
  • 展示页面:https://byteresearchcla.github.io/clasi/

效果展示

视频 Demo:首先用几则即兴视频来感受一下 CLASI 的效果,所有字幕均为实时录屏输出。我们可以看到,无论是语速超快、发音复杂的绕口令,还是精妙绝伦的文言文,又或是充满即兴和灵感的随意聊天,模型都能流畅自然地给出准确而地道的翻译结果。更不用说,CLASI 在其老本行 —— 会议场景翻译中表现得尤为出色。

即兴对话-星座

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927463&idx=1&sn=21471a5d179c548c2d0ed17c03406c04&chksm=84e43519b393bc0f32a783c3d986dac34c4397b7b5b345910595c8a2026f9906a7aea0dd8db0&token=1183058139&lang=zh_CN#rd

朗读-赤壁赋

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927463&idx=1&sn=21471a5d179c548c2d0ed17c03406c04&chksm=84e43519b393bc0f32a783c3d986dac34c4397b7b5b345910595c8a2026f9906a7aea0dd8db0&token=1183058139&lang=zh_CN#rd

绕口令

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927463&idx=1&sn=21471a5d179c548c2d0ed17c03406c04&chksm=84e43519b393bc0f32a783c3d986dac34c4397b7b5b345910595c8a2026f9906a7aea0dd8db0&token=1183058139&lang=zh_CN#rd

更多视频可点击文末链接进行查看

定量对比:研究人员分别在中英、英中翻译语向上,针对 4 个不同领域邀请专业的同传译员进行了人工评测,使用了与人工同传一致的评价指标:有效信息占比(百分制)。图中可以看到,CLASI 系统大幅领先所有商业系统和开源 SOTA 系统,并且在某些测试集上甚至达到或超过了人类同传水平(一般认为人类同传平均水平大概在 80%)。

系统架构

系统架构上,CLASI 采用了基于 LLM 智能体的架构(下图左),将同声传译定义为一系列简单且协调的操作,包括读入音频流,检索(可选),读取记忆体,更新记忆体,输出等。整个流程由大语言模型自主控制,从而在实时性和翻译质量之间达到了高效的平衡。该系统能够根据实际需求灵活调整各个环节的处理策略,确保在高效传递信息的同时,保持翻译内容的准确性和连贯性。CLASI 底层模型是一个 Encoder-conditioned LLM,在海量的无监督和有监督数据上进行了预训练。CLASI 模型的系统架构如下图所示。

图 1:图示展示了 CLASI 的整体操作流程。在步骤 1 中,CLASI 处理当前输入的音频数据。接下来检索器会被激活(可选),从用户自定义的知识库中获取相关信息。在这个示例中,使用知识库中的翻译对 “伊辛模型: Ising model” 能够帮助模型输出正确的译文。在步骤 3 中,CLASI 从上一轮的记忆体中加载转写(可选)和翻译。接下来(步骤 4 和步骤 5),CLASI 可能会启用思维链(CoT)来输出转写(可选)和翻译结果,然后更新其记忆体。最后,返回步骤 1 以处理下一轮的语音。

图 2:CLASI 的结构图。在第 r 轮中,CLASI 将当前音频流、前序的记忆体(r-1)和检索到的知识(如果有)作为输入。CLASI 根据给定的指令输出响应,然后更新记忆体。同时,CLASI 还会输出截止当前,最后一个语义片段的截止时间戳。对于给定的示例,短语 “就在” 之前的内容被认为是完整的语义片段,所以截止时间戳就在此短语之前。

实验结果

表 1:人工评测有效字段占比(Valid Information Proportion, VIP)中,CLASI 系统显著超过了其他所有竞品,并且在两个语向上均达到了 78% 以上的准确性。一般而言,可以认为人类同传的准确性在 70% 以上,理想情况下可以达到 95%,研究人员以 80% 的准确性作为高水平人类译员的平均标准。

示例分析

中翻英:

英翻中:

可以看到在多个方面,CLASI 的翻译均显著优于商用系统。

总结

来自字节跳动 ByteDance Research 团队的研究人员提出了基于豆包大模型的同传智能体:CLASI。得益于大规模预训练和模仿学习,在人工评估中,CLASI 的表现显著优于现有的自动同声传译系统的性能,几乎达到人类同传水平。

1. 研究人员提出了一种通过模仿专业人类译员的、数据驱动的读写策略。该策略无需复杂的人类预设计,即可轻松平衡翻译质量和延迟。与大多数商业系统在翻译过程中频繁重写输出以提高质量不同,该策略保证所有输出在保持高质量的同时是确定性的。

2. 人类译员一般需要预先准备同传内容,受此启发,研究人员引入了一种多模态检索增强生成(MM-RAG)过程,使 LLM 实时地具有领域特定的知识。所提出的模块在推理过程中以最小的计算开销进一步提高了翻译质量。

3. 研究人员与专业人类同传译员密切合作,制定了新的人工评估策略 “有效信息占比”(VIP),并公开了详细的指南。同时也发布了一个更接近现实场景的长语音翻译的多领域人工标注测试集。

更多视频观看:https://byteresearchcla.github.io/clasi/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这是一记响亮的耳光,更是一个危险的信号!

这是一记响亮的耳光,更是一个危险的信号!

胖胖说他不胖
2025-09-15 14:58:33
打脸了?2015年专家预测:一旦开放二胎,中国新生人口将会激增

打脸了?2015年专家预测:一旦开放二胎,中国新生人口将会激增

一针见娱
2025-09-14 21:44:59
俄罗斯议员:如果对华免签,将有大量中国男性涌入俄联邦找对象

俄罗斯议员:如果对华免签,将有大量中国男性涌入俄联邦找对象

头条爆料007
2025-09-16 05:46:15
莫言:女人接近男人,不过图这两样东西,那她也不缺一个祖宗供着

莫言:女人接近男人,不过图这两样东西,那她也不缺一个祖宗供着

诗词中国
2025-09-04 17:56:45
黄多多在纽约地铁被偶遇了,网友夸赞她很有气质,透着股清冷感

黄多多在纽约地铁被偶遇了,网友夸赞她很有气质,透着股清冷感

娱圈小愚
2025-09-16 08:59:12
重大转变:特朗普首次称普京为侵略者

重大转变:特朗普首次称普京为侵略者

微微热评
2025-09-15 21:43:30
霍华德:2020年夺冠非常艰难,我们只能和六个人一起庆祝

霍华德:2020年夺冠非常艰难,我们只能和六个人一起庆祝

雷速体育
2025-09-16 11:22:41
女子散步误踩氢氟酸后离世引热议!官方通报!事发原因正在调查!

女子散步误踩氢氟酸后离世引热议!官方通报!事发原因正在调查!

振华观史
2025-09-16 09:00:46
孩子升入初三才恍然大悟:限制小孩用不用电子设备,差距超乎想象

孩子升入初三才恍然大悟:限制小孩用不用电子设备,差距超乎想象

今天说故事
2025-09-15 18:20:00
俄无人机飞入罗马尼亚,特朗普向北约发出"最后通牒"

俄无人机飞入罗马尼亚,特朗普向北约发出"最后通牒"

山河路口
2025-09-14 17:40:24
后续!这就是西贝的真实水平,厨师不但会炒菜还会擦锅边灶台。

后续!这就是西贝的真实水平,厨师不但会炒菜还会擦锅边灶台。

花心电影
2025-09-16 11:03:21
一夜之间,成千上万的小餐饮老板,仿佛约好了一样,集体“醒”了

一夜之间,成千上万的小餐饮老板,仿佛约好了一样,集体“醒”了

阿伧说事
2025-09-15 15:25:30
超300万人抢 iPhone 17:是跟风还是刚需?看完这几点你就懂了

超300万人抢 iPhone 17:是跟风还是刚需?看完这几点你就懂了

大卫聊科技
2025-09-14 11:52:14
医生对你暗示过什么?网友:我两次做阴超都是遇到男医生

医生对你暗示过什么?网友:我两次做阴超都是遇到男医生

解读热点事件
2025-09-14 00:15:04
3亿汉人被300万八旗统治276年,为何不反抗?清朝只用了四招

3亿汉人被300万八旗统治276年,为何不反抗?清朝只用了四招

老达子
2025-09-14 06:50:03
中美谈判第四轮期间,中国甩出第二张王炸,特朗普这下真要破防了

中美谈判第四轮期间,中国甩出第二张王炸,特朗普这下真要破防了

南宫一二
2025-09-15 20:53:09
导演王全安当全剧组的面,掀开张雨绮衣服,一把拉下她肚兜红带子

导演王全安当全剧组的面,掀开张雨绮衣服,一把拉下她肚兜红带子

百态人间
2025-09-15 11:52:34
蛇为什么要进化成这么适合被吃?除了头和内脏,全身都是肌肉

蛇为什么要进化成这么适合被吃?除了头和内脏,全身都是肌肉

怪罗
2025-09-15 23:54:21
江苏一县政协副主席,任上被查

江苏一县政协副主席,任上被查

扬子晚报
2025-09-15 17:19:44
十分魔幻:当代美国的“极左”和“极右”,连希特勒看了都懵圈

十分魔幻:当代美国的“极左”和“极右”,连希特勒看了都懵圈

黄娜老师
2025-09-14 23:09:45
2025-09-16 14:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11300文章数 142449关注度
往期回顾 全部

科技要闻

理想i6定档9月26日发布,定位纯电五座SUV

头条要闻

欧盟交易员绝望:现在中国能卖10公斤锗都谢天谢地了

头条要闻

欧盟交易员绝望:现在中国能卖10公斤锗都谢天谢地了

体育要闻

乌姆蒂蒂,为世界杯冠军赔上职业生涯

娱乐要闻

宋祖英事业巅峰隐退?李谷一道破原因

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

优质智能体验/1.5T增程 别克至境L7正式亮相

态度原创

健康
时尚
亲子
数码
教育

内分泌科专家破解身高八大谣言

2025秋冬靴子八大流行趋势!

亲子要闻

萌娃教妈妈如何正确夸她,哎呦~谁家的大美女这么美呀?

数码要闻

AMD宣布终止AMDVLK驱动!转向全力支持RADV

教育要闻

26考研,到底要考多少分才能上岸?

无障碍浏览 进入关怀版