网易首页 > 网易号 > 正文 申请入驻

终于找到免费开源TTS模型,克隆声音不要钱,本地电脑也能跑

0
分享至


这是苍何的第 556 篇原创!

大家好,我是苍何。

前几天夜深人静的时候,在油管上又刷到我喜欢的博主更新了视频。


声音太好听了,当时有点儿激动,没忍住,花了些时间,把娜娜住进了我的 WeSight。

现在,我只要在 WeSight 中开启任务,WeSight 的桌宠就能播放娜娜的声音,实时播报任务完成情况。实时告诉我她在做什么,发送任务后,我再也不用盯着了。

比如简单任务,娜娜会说她开始想一下,然后查看结果,最后还带着开心情绪的语气告诉我任务完成啦:

再比如在 WeSight 中调 Claude Code 来 Coding,更有意思,哈哈哈。

这个感觉还挺棒的,特别是夜深人静 vibe coding,感觉就没那么孤独了,而且也能有暖心提醒,可以专心去做其他事情了。

最为 plus 的是,你甚至可以自定义本地 TTS 模型,实现 token 自由的来享受。

本地 TTS 模型我用的 Confucius4-TTS。只有 1.3B 大小,无需参考文本可以无约束声音克隆,很适合本地部署。


现在,你只需要在 WeSight 中开启桌面宠物(在设置-通用-桌面宠物)。


然后开启自定义音色,为每一个宠物自定义你喜欢的音色。


目前支持 2 种模式,你可以配置 MiniMax 的 API 也可以选择共用 WeSight 中 MiniMax 的 API key,也可以自定义 API,甚至可以选择本地的 TTS 配置。

还可以上传一个参考音频,几秒钟快速复刻一个还原度很高的音色。


比如我上传了一段娜娜口播的音频,点击「开始复刻」,就能在 WeSight 的桌宠中使用该音色。也就是文章一开始的那 2 个视频。


说实话,一开始选择本地部署 TTS,除了想节省 token,也是想着好好利用一些公司里的 dgx spark。

也做了一番调研,太大参数的本地肯定搞不了,太小的,不少效果又不行,在确认技术选型之前,我还是对 Confucius 4-TTS 对做很多的测试验证。你看:


这个视频大家都有印象吧,我想复刻小女孩的声音

我本地 mac 通过 Remotion 远程连接到 dgx 主机,dgx 本地部署了 Confucius 4-TTS 开源模型,负责将声音进行复刻。


然后给到我复刻后的音频:

我闲的无聊,把这个配音,放到原视频中去,挺有意思,哈哈哈。

我老婆看我瞎倒腾啥,也想来玩下,她先录了个音,这是原始音频:

好,我现在用她的音色, 经过我本地的 Confucius 4-TTS 模型复刻,来一口地道的英语给小橘子讲讲三字经吧。

还不过瘾,我直接让她来个日语介绍下武汉。

感觉还挺相似的你别说,语调和情绪都还挺到位,不大像是本地模型能跑出来的。

Confucius 4-TTS 一共支持 14 种语言,中文、英文、日语、韩语、德语、法语、西班牙语、印尼语、意大利语、泰语、葡萄牙语、俄语、马来语、越南语,说后面还会持续增加。


这个是我喜欢的博主娜娜的原声,我试了把她复刻为不同的语言。

先来一个卢森堡语的带货口播:


再来一个韩国口音的带货口播:


是不是很 nice,我感觉这个对出海跨境电商和内容创作真的有用,不用自己再找人录不同语种的口播了。

然后我还把我自己的声音克隆了,复刻后,我直接让自己来给大家播放个 AI 早报:

平时高德导航我都是开的小团团语音包,我还蛮想复刻一个小团团音色的,于是我随便录了一段音频,不过车里声音有些吵。

可能是杂音噪音问题,复刻出来的效果没达到我的要求。

大家在使用 Confucius 4-TTS 模型本地复刻的时候,一定要录制干净没有杂音的纯声,这样出来的效果会好一些。

本地部署最大的好处就是省 Token,其实部署起来也不麻烦,甚至,你在自己的 Mac 都能跑的起来。

首先,你需要把开源代码拉到本地来。

●●●git clone https://github.com/netease-youdao/Confucius4-TTS.gitcd Confucius4-TTS

然后构建 conda 环境,如果你已经有了就可以不用再新构建了,只需要激活启动下。

●●●conda create -n confuciustts python=3.10 -yconda activate confuciustts

conda 环境简单理解就是给这个项目单独开一个「房间」,装它自己需要的依赖,不会跟你电脑上其他项目打架。

接下来就可以安装依赖:

●●●pip install -r requirements.txt

这里时间会比较久,按照要求来安装依赖就好了。

搞定后,你可以执行以下代码测试,注意修改自己的音频参考文件:

●●●python example.py \    --prompt_wav path/to/reference.wav \    --text "Hello, this is a test of zero-shot voice cloning." \    --lang en \    --out output.wav \    --config config/inference_config.yaml

当然也可以不在 dgx 上直接测试,可以通过 Tailscale 在 mac 上远程执行测试。

最后用 fastAPI,将模型服务封装出去给到 WeSight 使用,就算是完成了。

我看了下 Confucius 4-TTS 的技术架构,是「语音编码器 + LLM」架构,通过两阶段 Text 2 Semantic(文本→语义 Token)+ Semantic 2 Acoustic(语义 Token→梅尔频谱图)。

然后使用 BigVGAN 声码器输出最终音频。


说实话,本地部署 TTS,可以不用考虑成本的使用,这一点还挺舒服的。

而且 Confucius 4-TTS 只有 1.3 B,本地就能跑,Apache 2.0 协议,商用也没问题,这对个人开发者和内容创作者来说,真的太友好了。

如果你也想让自己的 Agent 「开口说话」,强烈建议去试试。当然也可以使用 WeSight 来体验哦。

稍微留意了下 Confucius 4-TTS 居然又是有道开源的,还记得WeSight其实是站在有道开源的 LobsterAI 做的二开。

有道的 AI 现在现在越来越有一种「闷声干大事」的感觉了。不搞发布会刷存在感,就是一个接一个往外丢开源项目,TTS、Agent 框架、多模态,全都 Apache 2.0,拿来就能用。

好啦,觉得有用的话,点个赞吧,你们的支持是我持续折腾的最大动力。

你最想复刻谁的声音?评论区聊聊。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贝克汉姆14岁的女儿小七怎么如此成熟了,好像少妇

贝克汉姆14岁的女儿小七怎么如此成熟了,好像少妇

西楼知趣杂谈
2026-06-13 19:52:21
王忠林,新职明确

王忠林,新职明确

新京报
2026-06-26 19:46:14
不止今年,往后的钱只会越来越难挣

不止今年,往后的钱只会越来越难挣

细说职场
2026-06-27 15:50:30
别再关注韩红了,冯小刚的《抓特务》,问题超乎你的想象!

别再关注韩红了,冯小刚的《抓特务》,问题超乎你的想象!

青橘罐头
2026-06-27 09:29:46
追觅办公区空荡荡,员工离职内幕被扒,俞浩近况曝光,遭网友打脸

追觅办公区空荡荡,员工离职内幕被扒,俞浩近况曝光,遭网友打脸

谭谈社会
2026-06-28 00:11:35
硬刚!博主说张雪820不配跟R9比,张雪直接甩100台车对赌

硬刚!博主说张雪820不配跟R9比,张雪直接甩100台车对赌

大厂编外实习生
2026-06-28 00:59:43
图赫尔疯了!英格兰死保巴萨 8000 万水货,曼联大将被他无视了!

图赫尔疯了!英格兰死保巴萨 8000 万水货,曼联大将被他无视了!

奶盖熊本熊
2026-06-28 02:13:36
中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

细说职场
2026-06-27 17:50:24
终于有经济学家批评体制内退休金太高、加剧代际矛盾,评论区炸锅

终于有经济学家批评体制内退休金太高、加剧代际矛盾,评论区炸锅

慧翔百科
2026-06-23 08:47:02
世界杯G组5-1、1-1战罢:伊朗失绝杀,韩国跌第八

世界杯G组5-1、1-1战罢:伊朗失绝杀,韩国跌第八

小七七体育解说
2026-06-27 14:35:18
意难平!庞峥麟无缘12人大名单,球迷惋惜:热身赛高光不该被辜负

意难平!庞峥麟无缘12人大名单,球迷惋惜:热身赛高光不该被辜负

小兰看体育
2026-06-27 11:10:24
世界杯夺冠概率出炉:阿根廷23%力压法国,谁能抢走梅西的最后一块拼图?

世界杯夺冠概率出炉:阿根廷23%力压法国,谁能抢走梅西的最后一块拼图?

坠入温柔晚风
2026-06-28 00:13:45
长期吃这种水果,可以延寿45%?Nature:是真的,而且它还能抗癌

长期吃这种水果,可以延寿45%?Nature:是真的,而且它还能抗癌

凤凰卫视
2026-06-25 18:14:11
上海飞旧金山航班闹事后续!涉事女子真容流出,知情人曝更多细节

上海飞旧金山航班闹事后续!涉事女子真容流出,知情人曝更多细节

无月可归辛
2026-06-27 19:26:19
日本没料到,美国也没想到,如今的中国广东省,已成了全球焦点

日本没料到,美国也没想到,如今的中国广东省,已成了全球焦点

混沌录
2026-06-27 17:07:33
西班牙1-0绝杀乌拉圭,这一脚踢碎了韩国人的“地狱剧本”

西班牙1-0绝杀乌拉圭,这一脚踢碎了韩国人的“地狱剧本”

带你逛体坛
2026-06-27 15:00:22
黎笋长子:父亲下定决心对华开战前确认三件事,缺其一便不会打仗

黎笋长子:父亲下定决心对华开战前确认三件事,缺其一便不会打仗

唠叨说历史
2026-06-18 16:19:19
首战踢了62分钟就被废!安帅用一场大胜证明,这中锋真配不上巴西队

首战踢了62分钟就被废!安帅用一场大胜证明,这中锋真配不上巴西队

海阔山遥YAO
2026-06-27 15:41:16
大学专业死亡潮来临,正准备报志愿的高考生傻眼了

大学专业死亡潮来临,正准备报志愿的高考生傻眼了

果壳
2026-06-26 16:19:44
悉尼妹的无删减影片,太生猛了

悉尼妹的无删减影片,太生猛了

i书与房
2026-06-27 16:27:57
2026-06-28 02:44:49
苍何
苍何
前大厂工程师,努力分享AI干货知识
129文章数 157关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

亲子
艺术
游戏
教育
公开课

亲子要闻

北京幼儿园入园人数5年减少93195人,降幅42%

艺术要闻

看完他的局部,我原谅了整个世界的不完美

《GTA6》PC版遥遥无期!销量太低不备重视?

教育要闻

教学校长邢金涛做客新京报直播间,分享从639分到692分的真实复读案例

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版