网易首页 > 网易号 > 正文 申请入驻

刚刚,字节掏出AI同传模型王炸,2秒延迟,0样本复刻你的声音,一手实测来了

0
分享至

智东西7月24日报道,今日,字节跳动Seed团队正式推出端到端同声传译模型Seed LiveInterpret 2.0

这是首个翻译准确率、语音延迟与声音复刻三方面同时逼近专业同传表现的产品级中英语音同传系统。

在中英互译任务中,Seed LiveInterpret 2.0已达到业界最优水平(SOTA),其译文质量、响应速度与音色还原能力,在多项主客观评测中均表现突出。

该系统采用全双工语音理解与生成框架,支持“边听边说”的实时传译语音延迟最低可至2到3秒。同时,它具备0样本声音复刻能力,无需预录音,即可用说话者的音色“说出”外语。

当前,Seed LiveInterpret 2.0已通过火山引擎开放试用,用户可登录控制台体验语音模型“Doubao-同声传译2.0”。

此外,Ola Friend耳机也计划于8月底接入该系统,成为首个支持其语音同传能力的硬件设备。

技术报告与体验指路:

技术报告:
http://arxiv.org/pdf/2507.17527

项目主页:
https://seed.bytedance.com/seed_liveinterpret

体验链接:登录火山引擎后,选择语音模型“Doubao-同声传译2.0”
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI

一、全双工语音生成框架,实现真正“边听边说”

字节Seed团队曾在2024年推出初代模型CLASI,解决了文本同传的时延与专业性问题,但仍不支持语音输出

时隔一年,团队在模型结构、语音生成与训练策略上持续优化,最终推出Seed LiveInterpret 2.0,首次实现“边听边说”的语音到语音同传。

Seed LiveInterpret 2.0引入了双通路(duplex)语音理解与生成架构,这一端到端方案减少了中间环节,在处理效率和翻译准确率上表现更优。系统能边接收源语言语音输入,边生成目标语言语音输出,且可实时处理多人说话场景

▲Seed LiveInterpret 2.0的双通路(duplex)语音理解与生成架构(图源:字节跳动Seed)

尤其值得注意的是,相比传统同传系统需等待语音识别完成再生成译文,Seed LiveInterpret 2.0可在听音过程中同步生成目标语音,实现平均约2.5秒内完成首个译句输出(FLAL),显著接近人类同传表现。

▲图为语音到语音同传任务中,Seed LiveInterpret 2.0与主流系统在翻译质量与延迟表现上的对比。(图源:技术报告)

实测结果显示,其语音翻译延迟可低至2到3秒,相比传统机器同传系统平均减少了超过60%的等待时间,实现真正的“边听边说”。

二、强化学习上场,翻译更智能、延迟再压缩

尽管早期版本Seed LiveInterpret 1.0在文本同传已有不俗表现,但如何兼顾音频输出的节奏感与准确度,始终是AI同传系统的关键难题。

为此,字节Seed团队引入强化学习机制,在延迟、译文准确率和节奏控制上进行联合建模优化。

据技术报告描述,团队设计了融合单步反馈与全局反馈的双重奖励机制,分别用于保障片段级语义一致性和整体译文的逻辑连贯性。

在训练方法上,团队采用了两阶段流程:先通过单步奖励预热模型,学习人类译员的翻译策略,再利用全局奖励机制优化模型对整体语义与响应延迟的控制。

这一机制显著降低了模型生成输出的滞后时间。如在长文本中译英任务中,经过RL优化后的Seed LiveInterpret 2.0将音输出延迟从3.90秒降至2.37秒翻译质量得分也从75.1提升至79.5

▲图为RealSI长文本同传基准下的系统性能对比(图源:技术报告)

模型还具备自适应节奏控制能力,能够根据语音输入的清晰度与表达节奏,智能调整输出时机与语速。

在长时间演讲等场景中,系统会主动保持译文与源语的节奏一致,避免“跟不上讲话节奏”或“提前结束”等不同步问题。

三、0样本声音复刻,译音既准又像“你”

Seed LiveInterpret 2.0引入“0样本声音复刻”能力,只需实时采样对话语音,系统便能学习并克隆用户的音色特征,以“原声”输出目标语种译文。这一能力在真实会议、演讲、跨语种沟通中极具实用价值,不仅降低理解门槛,也增强语义情绪的传达。

在多轮语音评测中,Seed LiveInterpret 2.0是唯一支持“中英双向语音到语音同传+声音克隆”的系统,其SVIP(语音译文有效信息比例)在zh-en方向达到67.8在en-zh方向达到64.7,音质、节奏、语调高度拟人。

▲图为语音到语音同传任务中,Seed LiveInterpret 2.0与主流系统在SVIP(语音译文有效信息比例)上的对比。(图源:技术报告)

得益于Seed LiveInterpret 2.0的声音复刻能力,用户在与不同语言背景的人交流时,依然能用自己的音色输出外语译文,在提升识别度的同时,也增强了交流的亲和力。

智东西第一时间进行了试用,在“同声传译”的过程中,系统对英文语音的翻译响应较快,音色复刻也具备一定相似度,能听出说话者的语气。

但整体仍存在一定延时感,特别在语速变化或语句较长时更为明显。

四、专业评测验证:翻译准确率达74.8分

为评估系统性能,字节Seed团队基于中英双向RealSI标准数据集,邀请专业同传译员团队进行人工打分。

结果显示,在语音到语音翻译任务中,其译音质量得分达66.3,显著超过同类系统。在语音到文本的中英互译任务中,Seed LiveInterpret 2.0的平均翻译质量得分为74.8(满分100),相比第二名系统高出58%

▲图示为语音到文本(S2T)和语音到语音(S2S)同传任务中,人工评测的翻译质量与响应效率结果。其中部分商业翻译系统以字母代称。(图源:字节跳动Seed)

同时,在延迟方面,语音到文本场景中平均输出首字延迟仅为2.21秒,语音到语音场景延迟为2.53秒,展现了质量与速度的良好平衡。

系统在BLEURT、COMET等客观翻译指标上同样表现领先,且为唯一支持“声音复刻”的评测系统。

在标准化测试中,Seed LiveInterpret 2.0在中译英(zh-en)与英译中(en-zh)任务中均取得了最高的BLEURT和COMET得分,同时在延迟指标AL(Average Lagging)、LAAL和FLAL上展现出良好平衡。

尤其在语音到语音(S2S)任务中,Seed LiveInterpret 2.0在zh-en方向取得60.7/83.6的得分,在en-zh方向取得57.6/83.5的得分,并以2.17秒的FLAL达成最低延迟,整体表现领先同类系统。

▲图示为客观测评集的测评成绩,由于业界适合同传场景的高质量公开测试数据较少,字节Seed团队整合了公开数据与内部数据集进行测试。(图源:字节跳动Seed)

结语:语言不再隔阂,AI真正走上同传舞台

从延迟、译准率到音色复刻,Seed LiveInterpret 2.0已让AI在同传这条“最难登顶”的语言技术路径上迈出了关键一步。技术侧依托多模态训练与强化学习策略,产品层面则已具备跨语言实时演讲、跨境会议、教育直播等落地能力。

尽管目前仍仅支持中英互译,但这套端到端同传框架的可扩展性,为后续多语种拓展、情绪模仿和更多交互形式的翻译任务奠定了基础。

当“听懂你说什么”与“像你说出来”同时成为可能,语言AI正在告别辅助工具的角色,真正走向人与人沟通的前台舞台。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泰国外长:准备商讨将中国游客免签期限从60天缩短至30天

泰国外长:准备商讨将中国游客免签期限从60天缩短至30天

天气观察站
2026-05-10 13:35:41
曼联欲打包签莱斯特城两大英小妖!蓝狐跌入英甲,拉爵趁机刮彩票

曼联欲打包签莱斯特城两大英小妖!蓝狐跌入英甲,拉爵趁机刮彩票

罗米的曼联博客
2026-05-10 11:35:24
巴西免签了,但你可能根本去不了

巴西免签了,但你可能根本去不了

BT财经
2026-05-08 08:24:02
1天涨粉10万的博士爸爸:这代孩子的“前额叶损伤”,可以这么养

1天涨粉10万的博士爸爸:这代孩子的“前额叶损伤”,可以这么养

新东方
2026-05-06 17:46:49
高认知的穷鬼,为何是人间最大的悲哀?

高认知的穷鬼,为何是人间最大的悲哀?

土家铁拳
2026-05-03 09:21:35
一旦装上心脏支架,还能活多少年?医生不再隐瞒,说出了实话

一旦装上心脏支架,还能活多少年?医生不再隐瞒,说出了实话

医学原创故事会
2026-05-01 23:20:56
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
3-0!神锋两场连轰3脚世界波 13.1亿豪门5轮4胜 争冠形势再生变

3-0!神锋两场连轰3脚世界波 13.1亿豪门5轮4胜 争冠形势再生变

狍子歪解体坛
2026-05-10 02:24:36
“求是”文章不足以改变对房地产的预期

“求是”文章不足以改变对房地产的预期

科学发掘
2026-05-10 06:31:04
一个手握千亿男装帝国的富二代,为什么突然疯了呢?

一个手握千亿男装帝国的富二代,为什么突然疯了呢?

流苏晚晴
2026-05-09 19:01:09
宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

快科技
2026-05-09 20:16:11
碾压赵心童!吴宜泽夺冠72小时狂捞金,6大巨星齐聚广州蹭热度

碾压赵心童!吴宜泽夺冠72小时狂捞金,6大巨星齐聚广州蹭热度

宝哥精彩赛事
2026-05-10 13:37:41
美国务卿:美国主张维持台湾现状

美国务卿:美国主张维持台湾现状

俄罗斯卫星通讯社
2026-05-09 15:12:07
国际足联终于慌了!紧急出炉新方案,世界杯版权将迎来重大转机

国际足联终于慌了!紧急出炉新方案,世界杯版权将迎来重大转机

芳芳历史烩
2026-05-10 04:21:10
中国唯一纯正雅利安后裔——塔吉克族, 他们是怎么来到中国的?

中国唯一纯正雅利安后裔——塔吉克族, 他们是怎么来到中国的?

生活新鲜市
2026-05-09 20:27:57
16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

16岁女生玩秋千坠亡后续:多视角曝光,死因非没绑紧,细节披露

李晚书
2026-05-06 13:21:59
委内瑞拉的转身:当反美口号输给了石油工人的饭碗

委内瑞拉的转身:当反美口号输给了石油工人的饭碗

民间胡扯老哥
2026-05-05 06:15:03
河南一景区“攻城送蒜薹”玩梗成真:把参演游客的枷锁换成了“蒜薹花环”,演完可带走

河南一景区“攻城送蒜薹”玩梗成真:把参演游客的枷锁换成了“蒜薹花环”,演完可带走

扬子晚报
2026-05-08 20:46:07
77岁港星在东莞租房养老,35平米月租1300,无儿无女靠老本度日

77岁港星在东莞租房养老,35平米月租1300,无儿无女靠老本度日

喜欢历史的阿繁
2026-05-10 00:04:45
徐帆回应离婚9个月后,冯小刚和其前任同聚,和养女关系引争议

徐帆回应离婚9个月后,冯小刚和其前任同聚,和养女关系引争议

乐悠悠娱乐
2026-05-10 12:00:32
2026-05-10 14:51:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11795文章数 117070关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

中国在德7名精英组群性侵女性手段残忍 群主哈工大毕业

头条要闻

中国在德7名精英组群性侵女性手段残忍 群主哈工大毕业

体育要闻

詹姆斯生涯第6次0-3困境:今年会被横扫吗

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

艺术
数码
本地
公开课
军事航空

艺术要闻

毛主席83岁时写给华国锋的6字真相令人震惊!

数码要闻

铭瑄新板,小身材大能量?

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版