网易首页 > 网易号 > 正文 申请入驻

字节大模型同传智能体,一出手就是媲美人类的同声传译水平

0
分享至

机器之心发布

机器之心编辑部

无论是语速超快、发音复杂的绕口令,还是精妙绝伦的文言文,又或是充满即兴和灵感的随意聊天,模型都能流畅自然地给出准确而地道的翻译结果。

近年来,人工智能(Aritificial Intelligence, AI),尤其是以大语言模型(Large Language Models, LLMs)为代表的 AI 正以惊人的速度发展,这些模型在多种自然语言处理任务中展现了卓越的能力。然而,尽管在许多领域取得了突破,代表着人类顶尖语言水平的同声传译(Simultaneous Interpretation, SI)依然是一个未被完全攻克的难题。

市面上传统的同声传译软件通常采用级联模型(cascaded model)的方法,即先进行自动语音识别(Automatic Speech Recognition, ASR),然后再进行机器翻译(Machine Translation, MT)。这种方法存在一个显著的问题 —— 错误传播。ASR 过程中的错误会直接影响到后续的翻译质量,导致严重的误差累积。此外,传统的同声传译系统由于受限于低延时的要求,通常只使用了性能较差的小模型,这在应对复杂多变的实际应用场景时存在瓶颈。

来自字节跳动 ByteDance Research 团队的研究人员推出了端到端同声传译智能体:Cross Language Agent - Simultaneous Interpretation, CLASI,其效果已接近专业人工水平的同声传译,展示了巨大的潜力和先进的技术能力。CLASI 采用了端到端的架构,规避了级联模型中错误传播的问题,依托于豆包基座大模型和豆包大模型语音组的语音理解能力,同时具备了从外部获取知识的能力,最终形成了足以媲美人类水平的同声传译系统。

  • 论文地址:https://byteresearchcla.github.io/clasi/technical_report.pdf
  • 展示页面:https://byteresearchcla.github.io/clasi/

效果展示

视频 Demo:首先用几则即兴视频来感受一下 CLASI 的效果,所有字幕均为实时录屏输出。我们可以看到,无论是语速超快、发音复杂的绕口令,还是精妙绝伦的文言文,又或是充满即兴和灵感的随意聊天,模型都能流畅自然地给出准确而地道的翻译结果。更不用说,CLASI 在其老本行 —— 会议场景翻译中表现得尤为出色。

即兴对话-星座

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927463&idx=1&sn=21471a5d179c548c2d0ed17c03406c04&chksm=84e43519b393bc0f32a783c3d986dac34c4397b7b5b345910595c8a2026f9906a7aea0dd8db0&token=1183058139&lang=zh_CN#rd

朗读-赤壁赋

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927463&idx=1&sn=21471a5d179c548c2d0ed17c03406c04&chksm=84e43519b393bc0f32a783c3d986dac34c4397b7b5b345910595c8a2026f9906a7aea0dd8db0&token=1183058139&lang=zh_CN#rd

绕口令

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927463&idx=1&sn=21471a5d179c548c2d0ed17c03406c04&chksm=84e43519b393bc0f32a783c3d986dac34c4397b7b5b345910595c8a2026f9906a7aea0dd8db0&token=1183058139&lang=zh_CN#rd

更多视频可点击文末链接进行查看

定量对比:研究人员分别在中英、英中翻译语向上,针对 4 个不同领域邀请专业的同传译员进行了人工评测,使用了与人工同传一致的评价指标:有效信息占比(百分制)。图中可以看到,CLASI 系统大幅领先所有商业系统和开源 SOTA 系统,并且在某些测试集上甚至达到或超过了人类同传水平(一般认为人类同传平均水平大概在 80%)。

系统架构

系统架构上,CLASI 采用了基于 LLM 智能体的架构(下图左),将同声传译定义为一系列简单且协调的操作,包括读入音频流,检索(可选),读取记忆体,更新记忆体,输出等。整个流程由大语言模型自主控制,从而在实时性和翻译质量之间达到了高效的平衡。该系统能够根据实际需求灵活调整各个环节的处理策略,确保在高效传递信息的同时,保持翻译内容的准确性和连贯性。CLASI 底层模型是一个 Encoder-conditioned LLM,在海量的无监督和有监督数据上进行了预训练。CLASI 模型的系统架构如下图所示。

图 1:图示展示了 CLASI 的整体操作流程。在步骤 1 中,CLASI 处理当前输入的音频数据。接下来检索器会被激活(可选),从用户自定义的知识库中获取相关信息。在这个示例中,使用知识库中的翻译对 “伊辛模型: Ising model” 能够帮助模型输出正确的译文。在步骤 3 中,CLASI 从上一轮的记忆体中加载转写(可选)和翻译。接下来(步骤 4 和步骤 5),CLASI 可能会启用思维链(CoT)来输出转写(可选)和翻译结果,然后更新其记忆体。最后,返回步骤 1 以处理下一轮的语音。

图 2:CLASI 的结构图。在第 r 轮中,CLASI 将当前音频流、前序的记忆体(r-1)和检索到的知识(如果有)作为输入。CLASI 根据给定的指令输出响应,然后更新记忆体。同时,CLASI 还会输出截止当前,最后一个语义片段的截止时间戳。对于给定的示例,短语 “就在” 之前的内容被认为是完整的语义片段,所以截止时间戳就在此短语之前。

实验结果

表 1:人工评测有效字段占比(Valid Information Proportion, VIP)中,CLASI 系统显著超过了其他所有竞品,并且在两个语向上均达到了 78% 以上的准确性。一般而言,可以认为人类同传的准确性在 70% 以上,理想情况下可以达到 95%,研究人员以 80% 的准确性作为高水平人类译员的平均标准。

示例分析

中翻英:

英翻中:

可以看到在多个方面,CLASI 的翻译均显著优于商用系统。

总结

来自字节跳动 ByteDance Research 团队的研究人员提出了基于豆包大模型的同传智能体:CLASI。得益于大规模预训练和模仿学习,在人工评估中,CLASI 的表现显著优于现有的自动同声传译系统的性能,几乎达到人类同传水平。

1. 研究人员提出了一种通过模仿专业人类译员的、数据驱动的读写策略。该策略无需复杂的人类预设计,即可轻松平衡翻译质量和延迟。与大多数商业系统在翻译过程中频繁重写输出以提高质量不同,该策略保证所有输出在保持高质量的同时是确定性的。

2. 人类译员一般需要预先准备同传内容,受此启发,研究人员引入了一种多模态检索增强生成(MM-RAG)过程,使 LLM 实时地具有领域特定的知识。所提出的模块在推理过程中以最小的计算开销进一步提高了翻译质量。

3. 研究人员与专业人类同传译员密切合作,制定了新的人工评估策略 “有效信息占比”(VIP),并公开了详细的指南。同时也发布了一个更接近现实场景的长语音翻译的多领域人工标注测试集。

更多视频观看:https://byteresearchcla.github.io/clasi/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外媒:中国驳斥马斯克说法!

外媒:中国驳斥马斯克说法!

电动知家
2026-01-24 15:33:08
龚琳娜也没想到,离婚15个月后,两个混血儿子已经开始为她争光了

龚琳娜也没想到,离婚15个月后,两个混血儿子已经开始为她争光了

阿纂看事
2026-01-23 09:33:52
黄仁勋亲自给大家发橘子和红包,保镖时刻警惕,丝毫不敢懈怠

黄仁勋亲自给大家发橘子和红包,保镖时刻警惕,丝毫不敢懈怠

映射生活的身影
2026-01-25 17:17:07
羽球最新战报!3国夺4金,陈雨菲破荒,1强队冲3冠,日本女双退赛

羽球最新战报!3国夺4金,陈雨菲破荒,1强队冲3冠,日本女双退赛

刘姚尧的文字城堡
2026-01-25 17:24:52
今年收益新高了

今年收益新高了

十锤星人
2026-01-24 20:06:21
李湘被禁关5天后,家境被扒底朝天,父母身份曝光,果然不简单

李湘被禁关5天后,家境被扒底朝天,父母身份曝光,果然不简单

兴史兴谈
2026-01-24 20:37:41
滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

滚出去!中国不是“捡破烂”的:日本混不下去,就想回中方捞金?

趣文说娱
2026-01-21 18:20:43
真相大白!门将李昊为何扑不住日本队的进球?3方面原因揭晓答案

真相大白!门将李昊为何扑不住日本队的进球?3方面原因揭晓答案

曹说体育
2026-01-25 13:10:51
澳网神剧本:4届大满贯冠军退赛!王欣瑜创历史,1/8决赛对阵如下

澳网神剧本:4届大满贯冠军退赛!王欣瑜创历史,1/8决赛对阵如下

侃球熊弟
2026-01-24 20:42:43
随着拜仁1-2,多特蒙德3-0,德甲最新积分榜出炉:争冠悬念再起

随着拜仁1-2,多特蒙德3-0,德甲最新积分榜出炉:争冠悬念再起

侧身凌空斩
2026-01-25 07:00:32
脊柱断裂、前夫已死,63岁韦唯近况曝光,已然走上一条上坡路

脊柱断裂、前夫已死,63岁韦唯近况曝光,已然走上一条上坡路

深度解析热点
2026-01-25 01:28:29
市占率全球第一,社保基金重仓潜伏的10家太空光伏领域龙头公司!

市占率全球第一,社保基金重仓潜伏的10家太空光伏领域龙头公司!

娱乐八卦木木子
2026-01-25 10:37:09
刘亦菲现身哈尔滨,带火了“东北姨太风”:上半身打麻将,下半身跳芭蕾,美到落泪!

刘亦菲现身哈尔滨,带火了“东北姨太风”:上半身打麻将,下半身跳芭蕾,美到落泪!

黎兜兜
2026-01-24 21:21:05
悲催!27岁女子猝死,家中除了直播的衣服,就全是外卖和奶茶口袋

悲催!27岁女子猝死,家中除了直播的衣服,就全是外卖和奶茶口袋

火山诗话
2026-01-24 10:49:32
陈道明戳破养老真相:所谓养老,不过是清醒时自渡,糊涂前自在

陈道明戳破养老真相:所谓养老,不过是清醒时自渡,糊涂前自在

青苹果sht
2026-01-20 05:51:45
迈阿密国际新年首战惨败,梅西踢了63分钟

迈阿密国际新年首战惨败,梅西踢了63分钟

星耀国际足坛
2026-01-25 12:08:07
贝克汉姆14岁女儿家庭风波中首次发声,大布被曝,只想跟妹妹联系

贝克汉姆14岁女儿家庭风波中首次发声,大布被曝,只想跟妹妹联系

译言
2026-01-25 06:53:17
确实改了!博主在探西贝后发现菜品降价,上菜速度也变慢了

确实改了!博主在探西贝后发现菜品降价,上菜速度也变慢了

映射生活的身影
2026-01-25 17:51:07
2026年是一个大坎,有些地方要尽量少去

2026年是一个大坎,有些地方要尽量少去

郁郁乎文
2026-01-21 13:15:54
400亿!恒大“东方威尼斯”,10万人疯抢到无人问津!彻底凉了?

400亿!恒大“东方威尼斯”,10万人疯抢到无人问津!彻底凉了?

GA环球建筑
2026-01-24 18:20:09
2026-01-25 20:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

教育
亲子
时尚
房产
本地

教育要闻

牢A的讲述,让陪读妈妈、女留学生,以及这类家庭都出一身冷汗!

亲子要闻

心理学家研究表明,给孩子买的玩具太多,娃容易变得更笨

2025年度榜单|| 真金白银票选出来的“真爱”,今天破价1.6折!

房产要闻

正式官宣!三亚又一所名校要来了!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

无障碍浏览 进入关怀版