今天,ElevenLabs正式发布了全新的AI配音模型Dubbing v2,一个从设计思路上就把“情感迁移”当作核心任务的产品。以往任何AI配音都绕不开一个尴尬:翻译准了,语气却丢了,听起来就像两个没有关系的人在不同语言里各说各的。但Dubbing v2直接让原说话人的情绪、节奏、停顿,甚至那些微妙的犹豫和重音,跨语言穿了过去。
之所以能做到这一点,是因为它没有走传统转录→翻译→合成语音的老路。传统方案最大的问题是只依赖文字脚本,就算翻译精准,生成的音频也容易丢掉真人说话时才有的那种起伏。Dubbing v2的训练条件直接锚定原始音频中的表演特征——包括语调、速度、能量和情感意图。它不是把文本转成语音,而是让同一个人的“说话方式”在另一种语言里重新长出来。用研发团队的话来说,这是第一次让翻译后的语音听上去就像是原作者本人说的。
支撑这种体验的,是模型的同步感知翻译系统。不同语言在表达同一个意思时,语序、断句、节奏完全不同,如果只做字面对应,口型同步和自然度就无从谈起。Dubbing v2会自动调整译文的措辞来适配口语表达,同时让声音的起止点、节奏变化与原片对齐。这种自动对齐能力把后期手动微调的需求降到了很低,最终成品听起来更像是专业水准的人工配音。
成本是另一个被改写的变量。行业内,专业的配音制作每分钟动辄数百美元,而且需要协调译员、声优、剪辑师和音频工程师一整套流程。Dubbing v2把这条流水线自动化了,创作者和企业不用再搭建复杂的工作流,也不需要同时管理多个供应商,就能产出高质量的多语种内容。
针对创作者端,用途被设计得相当直接:在ElevenCreative平台上,YouTube视频和其他内容可以一键本地化。视频在保留创作者本人独特语气的条件下,对不同语言的观众来说同样自然,这让全球分发省掉了重复拍摄和后期的大笔时间。配合这次发布,ElevenLabs同步启动了创作者配音合作伙伴计划,符合条件的创作者可以申请获得Dubbing v2的折扣使用权限。
营销团队的应用场景也一并被考虑进来。广告、产品视频和品牌内容在面向不同市场时,不必重新制作母版去适应当地语言,而是可以借助Dubbing v2保持一致的传播冲击力和表达风格。这样一来,国际化的本地营销就能以更快的方式落地,同时不必在情绪传递上打折扣。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.