网易首页 > 网易号 > 正文 申请入驻

刚刚,字节掏出AI同传模型王炸,2秒延迟,0样本复刻你的声音,一手实测来了

0
分享至

智东西7月24日报道,今日,字节跳动Seed团队正式推出端到端同声传译模型Seed LiveInterpret 2.0

这是首个翻译准确率、语音延迟与声音复刻三方面同时逼近专业同传表现的产品级中英语音同传系统。

在中英互译任务中,Seed LiveInterpret 2.0已达到业界最优水平(SOTA),其译文质量、响应速度与音色还原能力,在多项主客观评测中均表现突出。

该系统采用全双工语音理解与生成框架,支持“边听边说”的实时传译语音延迟最低可至2到3秒。同时,它具备0样本声音复刻能力,无需预录音,即可用说话者的音色“说出”外语。

当前,Seed LiveInterpret 2.0已通过火山引擎开放试用,用户可登录控制台体验语音模型“Doubao-同声传译2.0”。

此外,Ola Friend耳机也计划于8月底接入该系统,成为首个支持其语音同传能力的硬件设备。

技术报告与体验指路:

技术报告:
http://arxiv.org/pdf/2507.17527

项目主页:
https://seed.bytedance.com/seed_liveinterpret

体验链接:登录火山引擎后,选择语音模型“Doubao-同声传译2.0”
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI

一、全双工语音生成框架,实现真正“边听边说”

字节Seed团队曾在2024年推出初代模型CLASI,解决了文本同传的时延与专业性问题,但仍不支持语音输出

时隔一年,团队在模型结构、语音生成与训练策略上持续优化,最终推出Seed LiveInterpret 2.0,首次实现“边听边说”的语音到语音同传。

Seed LiveInterpret 2.0引入了双通路(duplex)语音理解与生成架构,这一端到端方案减少了中间环节,在处理效率和翻译准确率上表现更优。系统能边接收源语言语音输入,边生成目标语言语音输出,且可实时处理多人说话场景

▲Seed LiveInterpret 2.0的双通路(duplex)语音理解与生成架构(图源:字节跳动Seed)

尤其值得注意的是,相比传统同传系统需等待语音识别完成再生成译文,Seed LiveInterpret 2.0可在听音过程中同步生成目标语音,实现平均约2.5秒内完成首个译句输出(FLAL),显著接近人类同传表现。

▲图为语音到语音同传任务中,Seed LiveInterpret 2.0与主流系统在翻译质量与延迟表现上的对比。(图源:技术报告)

实测结果显示,其语音翻译延迟可低至2到3秒,相比传统机器同传系统平均减少了超过60%的等待时间,实现真正的“边听边说”。

二、强化学习上场,翻译更智能、延迟再压缩

尽管早期版本Seed LiveInterpret 1.0在文本同传已有不俗表现,但如何兼顾音频输出的节奏感与准确度,始终是AI同传系统的关键难题。

为此,字节Seed团队引入强化学习机制,在延迟、译文准确率和节奏控制上进行联合建模优化。

据技术报告描述,团队设计了融合单步反馈与全局反馈的双重奖励机制,分别用于保障片段级语义一致性和整体译文的逻辑连贯性。

在训练方法上,团队采用了两阶段流程:先通过单步奖励预热模型,学习人类译员的翻译策略,再利用全局奖励机制优化模型对整体语义与响应延迟的控制。

这一机制显著降低了模型生成输出的滞后时间。如在长文本中译英任务中,经过RL优化后的Seed LiveInterpret 2.0将音输出延迟从3.90秒降至2.37秒翻译质量得分也从75.1提升至79.5

▲图为RealSI长文本同传基准下的系统性能对比(图源:技术报告)

模型还具备自适应节奏控制能力,能够根据语音输入的清晰度与表达节奏,智能调整输出时机与语速。

在长时间演讲等场景中,系统会主动保持译文与源语的节奏一致,避免“跟不上讲话节奏”或“提前结束”等不同步问题。

三、0样本声音复刻,译音既准又像“你”

Seed LiveInterpret 2.0引入“0样本声音复刻”能力,只需实时采样对话语音,系统便能学习并克隆用户的音色特征,以“原声”输出目标语种译文。这一能力在真实会议、演讲、跨语种沟通中极具实用价值,不仅降低理解门槛,也增强语义情绪的传达。

在多轮语音评测中,Seed LiveInterpret 2.0是唯一支持“中英双向语音到语音同传+声音克隆”的系统,其SVIP(语音译文有效信息比例)在zh-en方向达到67.8在en-zh方向达到64.7,音质、节奏、语调高度拟人。

▲图为语音到语音同传任务中,Seed LiveInterpret 2.0与主流系统在SVIP(语音译文有效信息比例)上的对比。(图源:技术报告)

得益于Seed LiveInterpret 2.0的声音复刻能力,用户在与不同语言背景的人交流时,依然能用自己的音色输出外语译文,在提升识别度的同时,也增强了交流的亲和力。

智东西第一时间进行了试用,在“同声传译”的过程中,系统对英文语音的翻译响应较快,音色复刻也具备一定相似度,能听出说话者的语气。

但整体仍存在一定延时感,特别在语速变化或语句较长时更为明显。

四、专业评测验证:翻译准确率达74.8分

为评估系统性能,字节Seed团队基于中英双向RealSI标准数据集,邀请专业同传译员团队进行人工打分。

结果显示,在语音到语音翻译任务中,其译音质量得分达66.3,显著超过同类系统。在语音到文本的中英互译任务中,Seed LiveInterpret 2.0的平均翻译质量得分为74.8(满分100),相比第二名系统高出58%

▲图示为语音到文本(S2T)和语音到语音(S2S)同传任务中,人工评测的翻译质量与响应效率结果。其中部分商业翻译系统以字母代称。(图源:字节跳动Seed)

同时,在延迟方面,语音到文本场景中平均输出首字延迟仅为2.21秒,语音到语音场景延迟为2.53秒,展现了质量与速度的良好平衡。

系统在BLEURT、COMET等客观翻译指标上同样表现领先,且为唯一支持“声音复刻”的评测系统。

在标准化测试中,Seed LiveInterpret 2.0在中译英(zh-en)与英译中(en-zh)任务中均取得了最高的BLEURT和COMET得分,同时在延迟指标AL(Average Lagging)、LAAL和FLAL上展现出良好平衡。

尤其在语音到语音(S2S)任务中,Seed LiveInterpret 2.0在zh-en方向取得60.7/83.6的得分,在en-zh方向取得57.6/83.5的得分,并以2.17秒的FLAL达成最低延迟,整体表现领先同类系统。

▲图示为客观测评集的测评成绩,由于业界适合同传场景的高质量公开测试数据较少,字节Seed团队整合了公开数据与内部数据集进行测试。(图源:字节跳动Seed)

结语:语言不再隔阂,AI真正走上同传舞台

从延迟、译准率到音色复刻,Seed LiveInterpret 2.0已让AI在同传这条“最难登顶”的语言技术路径上迈出了关键一步。技术侧依托多模态训练与强化学习策略,产品层面则已具备跨语言实时演讲、跨境会议、教育直播等落地能力。

尽管目前仍仅支持中英互译,但这套端到端同传框架的可扩展性,为后续多语种拓展、情绪模仿和更多交互形式的翻译任务奠定了基础。

当“听懂你说什么”与“像你说出来”同时成为可能,语言AI正在告别辅助工具的角色,真正走向人与人沟通的前台舞台。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国女篮公布热身赛14人名单:张子宇王思雨加入 李月汝韩旭缺席

中国女篮公布热身赛14人名单:张子宇王思雨加入 李月汝韩旭缺席

醉卧浮生
2026-02-03 11:53:17
中国有色金属工业协会:研究将贸易量大、容易变现的铜精矿纳入储备范围

中国有色金属工业协会:研究将贸易量大、容易变现的铜精矿纳入储备范围

财联社
2026-02-03 14:18:07
这是我今年听到过的对炒股最透彻的理解,就5句话

这是我今年听到过的对炒股最透彻的理解,就5句话

流苏晚晴
2026-02-03 18:19:34
TA:雅凯的防守风格十分激进且富有侵略性,擅长空中对抗

TA:雅凯的防守风格十分激进且富有侵略性,擅长空中对抗

懂球帝
2026-02-03 19:03:12
莫迪:感谢特朗普

莫迪:感谢特朗普

极目新闻
2026-02-03 15:01:30
具俊晔穿27年前大S送的旧物露面!悲痛吐现况「想你想到快死了」逼哭万人

具俊晔穿27年前大S送的旧物露面!悲痛吐现况「想你想到快死了」逼哭万人

ETtoday星光云
2026-02-02 22:22:03
海上金矿南极磷虾:储量10亿吨,全球疯狂捕捞,中国或成最大黑马

海上金矿南极磷虾:储量10亿吨,全球疯狂捕捞,中国或成最大黑马

肖兹探秘说
2026-01-31 12:49:39
中方已做好最坏打算!黄岩岛发生激烈对峙,美媒:轰6和055都到了

中方已做好最坏打算!黄岩岛发生激烈对峙,美媒:轰6和055都到了

史智文道
2026-02-03 09:31:33
港口非抢不可,第三国接手中资港口,李嘉诚不再沉默,中方亮剑

港口非抢不可,第三国接手中资港口,李嘉诚不再沉默,中方亮剑

井普椿的独白
2026-02-03 18:37:16
大清名将海兰察:生吃动物,只喜胖妇,行军中直接用水牛解压

大清名将海兰察:生吃动物,只喜胖妇,行军中直接用水牛解压

铭记历史呀
2026-01-26 19:56:20
高铁站分别后儿子在母亲后面狂追,妈妈感动不已以为儿子舍不得自己,儿子回复:妈妈送错站口了

高铁站分别后儿子在母亲后面狂追,妈妈感动不已以为儿子舍不得自己,儿子回复:妈妈送错站口了

黄河新闻网吕梁频道
2026-02-02 11:55:53
我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

三农老历
2026-01-30 11:25:43
全新宝马X5领衔 宝马2026巴黎车展阵容公布

全新宝马X5领衔 宝马2026巴黎车展阵容公布

车质网
2026-02-03 09:01:48
巴基斯坦军方激战两天两夜,大批叛军就地伏诛,这场大捷前所未有

巴基斯坦军方激战两天两夜,大批叛军就地伏诛,这场大捷前所未有

起喜电影
2026-02-03 18:24:48
告别哈梅内伊时代!伊朗权力交接打响,伊朗下一位掌舵人是谁?

告别哈梅内伊时代!伊朗权力交接打响,伊朗下一位掌舵人是谁?

知识TNT
2026-02-03 15:15:37
朝鲜600毫米火箭炮量产后,韩国慌了:中国仓库里万枚红旗-2,改装后能打多远?

朝鲜600毫米火箭炮量产后,韩国慌了:中国仓库里万枚红旗-2,改装后能打多远?

荷兰豆爱健康
2026-02-03 06:32:02
砸铁饭碗了!近300人的公务员群组,交流如何在服务期内“脱身”

砸铁饭碗了!近300人的公务员群组,交流如何在服务期内“脱身”

火山诗话
2026-02-02 11:31:05
71:29!美国投票结果出来了,特朗普态度转变,奥巴马或面临逮捕

71:29!美国投票结果出来了,特朗普态度转变,奥巴马或面临逮捕

生活魔术专家
2026-02-03 14:16:52
别白跑!北京多家冰场提前关闭

别白跑!北京多家冰场提前关闭

北青网-北京青年报
2026-02-03 10:54:05
四川省纪委监委:2人被通报

四川省纪委监委:2人被通报

人民资讯
2026-02-03 12:50:08
2026-02-03 19:47:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11175文章数 116956关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

浙江一对夫妻"网购娃娃菜中毒":合谋意图骗赔

头条要闻

浙江一对夫妻"网购娃娃菜中毒":合谋意图骗赔

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

小S致词:感谢具俊晔陪伴大S的最后3年

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

时尚
手机
游戏
旅游
房产

冬天还是“羽绒服”最保暖!看看这些穿搭,简单舒适又不老气

手机要闻

掌机电池“缩水”背后,官方补偿了一台新机

真血脉压制?BLG双杀WBG,小虎关键失误被冲,网友:跟我黑铁一样

旅游要闻

从工业小岛到二次元胜地,复兴岛再续五年“痛岛”之约,欢迎广大漫迷登岛!

房产要闻

大盘最低杀到8000+/㎡!海口59盘,最新房价曝光!

无障碍浏览 进入关怀版