AI配音首次保留原声情绪，90+语种自然呈现|翻译|口型|ai配音|dubbing

AI配音首次保留原声情绪，90+语种自然呈现

2026-05-29 06:09:18　来源: 灰度测试中

北京举报

分享至

今天，ElevenLabs正式发布了全新的AI配音模型Dubbing v2，一个从设计思路上就把“情感迁移”当作核心任务的产品。以往任何AI配音都绕不开一个尴尬：翻译准了，语气却丢了，听起来就像两个没有关系的人在不同语言里各说各的。但Dubbing v2直接让原说话人的情绪、节奏、停顿，甚至那些微妙的犹豫和重音，跨语言穿了过去。

之所以能做到这一点，是因为它没有走传统转录→翻译→合成语音的老路。传统方案最大的问题是只依赖文字脚本，就算翻译精准，生成的音频也容易丢掉真人说话时才有的那种起伏。Dubbing v2的训练条件直接锚定原始音频中的表演特征——包括语调、速度、能量和情感意图。它不是把文本转成语音，而是让同一个人的“说话方式”在另一种语言里重新长出来。用研发团队的话来说，这是第一次让翻译后的语音听上去就像是原作者本人说的。

支撑这种体验的，是模型的同步感知翻译系统。不同语言在表达同一个意思时，语序、断句、节奏完全不同，如果只做字面对应，口型同步和自然度就无从谈起。Dubbing v2会自动调整译文的措辞来适配口语表达，同时让声音的起止点、节奏变化与原片对齐。这种自动对齐能力把后期手动微调的需求降到了很低，最终成品听起来更像是专业水准的人工配音。

成本是另一个被改写的变量。行业内，专业的配音制作每分钟动辄数百美元，而且需要协调译员、声优、剪辑师和音频工程师一整套流程。Dubbing v2把这条流水线自动化了，创作者和企业不用再搭建复杂的工作流，也不需要同时管理多个供应商，就能产出高质量的多语种内容。

针对创作者端，用途被设计得相当直接：在ElevenCreative平台上，YouTube视频和其他内容可以一键本地化。视频在保留创作者本人独特语气的条件下，对不同语言的观众来说同样自然，这让全球分发省掉了重复拍摄和后期的大笔时间。配合这次发布，ElevenLabs同步启动了创作者配音合作伙伴计划，符合条件的创作者可以申请获得Dubbing v2的折扣使用权限。

营销团队的应用场景也一并被考虑进来。广告、产品视频和品牌内容在面向不同市场时，不必重新制作母版去适应当地语言，而是可以借助Dubbing v2保持一致的传播冲击力和表达风格。这样一来，国际化的本地营销就能以更快的方式落地，同时不必在情绪传递上打折扣。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.