本地AI把文档变播客，作者亲测：省钱还好玩|引擎|电子书|安全卫士

本地AI把文档变播客，作者亲测：省钱还好玩

2026-05-18 01:57:20　来源: 灰度测试中

北京举报

分享至

我最近在折腾本地大语言模型，搭配一堆免费开源工具，发现这套组合对效率提升确实有帮助。不管是精准的文字识别，还是帮我把大段代码按正确缩进重写，自己部署的模型处理日常任务意外地顺手。开源生态里还藏着不少冷门AI工具，用对场景的话，生产力能翻几倍。

举个例子，开发者DrewThomasson做的Ebook2Audiobook项目。这工具能调动我的显卡跑语音合成，随便什么文档——小到一张便签，大到整本电子书——都能转成播客。它替代不了传统电子书，但作为研究辅助工具，我最近用得挺频繁。

我没给ChatGPT、Perplexity、Gemini或Claude掏过钱，全靠本地模型搞定需求。既然本地能跑通，就没必要依赖云端服务。Ebook2Audiobook整条语音合成流水线都在本地完成，网页界面操作起来也不复杂。跟那些需要订阅费、还得担心API额度用光的云方案比，这工具完全免费，数据也不会流出我的网络，不用担心被拿去做训练。

部署门槛不算高。我在Windows上建了个文件夹，然后跑这条Docker命令：docker run -v "./ebooks:/app/ebooks" -v "./audiobooks:/app/audiobooks" -v "./models:/app/models" -v "./voices:/app/voices" -v "./tmp:/app/tmp" --gpus all --rm -it -p 7860:7860 athomasson2/ebook2audiobook:cu130。机器配的是RTX 3080 Ti，CUDA版本的镜像直接识别了显卡。

网页界面省了不少事，不用敲长命令去切换语音引擎或模型预设。XTTS引擎自带一批音频预设，包括游戏角色声音，也支持从HuggingFace导入自定义模型。我选了《艾尔登法环》里"百智爵士"基甸·奥夫尼尔的声线，从DrewThomasson的HuggingFace库下了语音样本，扔了篇自己以前写的文章当输入。显卡几秒后就跑起来了，900词左右的文章，2到3分钟生成了一段6分钟的音频，内容是"百智爵士"絮叨怎么把树莓派做成随身Linux服务器。

正经说，音质不算差。技术词汇偶尔会翻车，比如终端命令和技术缩写，但整体能听。开源工具做到这程度，够用了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.