浏览器自带的语音合成有多难听,用过的人都知道。同一个句子,Chrome和Safari读出来完全是两种生物,一个像客服机器人,一个像上世纪GPS导航。开发者Mati受不了这个,干脆自己搭了一套——每天自动生成一句日常英语,用Google Cloud的神经网络语音朗读,再让用户跟读打分。
整套方案的技术选型很有意思。后端用Gemma 4 31B生成句子,Prompt卡得很死:必须美式英语、10到14个词、自然口语而非课本句式、读起来要有节奏感。输出格式强制JSON,不给模型任何发挥空间。音频走Google Cloud Text-to-Speech的Neural2-F女声,免费额度够个人项目折腾。关键是这个语音跨浏览器一致,终于不用听Safari的机械音了。
![]()
发音评分这块更有门道。浏览器原生的Speech-to-Text现在加了LLM层,会"猜"你没说清楚的部分——这对聊天够用,对练发音是灾难。Mati的方案是直接调Whisper或Wav2Vec 2.0的原始模型,只做纯语音转文字,不做语义补全。你说成什么样就转什么样,错得明显才能被系统抓出来。
整个流程自动化:定时任务每天跑两句——生成句子、合成音频、部署更新。前端从CDN拉静态HTML,音频base64预加载,用户点播放就是本地缓存。没有实时推理成本,没有复杂状态管理。
这个项目最反直觉的点在于:用大模型生成内容,但把大模型从实时链路里踢出去了。句子是预生成的,语音是预合成的,用户交互环节只剩播放和录音比对。算力花在刀刃上,体验反而更轻量。
语言学习App的赛道很挤,但大多数在做"更智能的陪练"。Mati的方向是"更可控的材料"——每天一句,质量稳定,不让你陷入选择困难。技术栈全是现成的API,核心工作量在Prompt工程和流程编排。这种"用重算力做轻产品"的思路,可能是个人开发者最现实的突围路径。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.