一个用JavaScript练口语的冷门思路|浏览器

一个用JavaScript练口语的冷门思路

2026-05-12 06:56:16　来源: 闪存猎手

北京举报

分享至

浏览器自带的语音合成有多难听，用过的人都知道。同一个句子，Chrome和Safari读出来完全是两种生物，一个像客服机器人，一个像上世纪GPS导航。开发者Mati受不了这个，干脆自己搭了一套——每天自动生成一句日常英语，用Google Cloud的神经网络语音朗读，再让用户跟读打分。

整套方案的技术选型很有意思。后端用Gemma 4 31B生成句子，Prompt卡得很死：必须美式英语、10到14个词、自然口语而非课本句式、读起来要有节奏感。输出格式强制JSON，不给模型任何发挥空间。音频走Google Cloud Text-to-Speech的Neural2-F女声，免费额度够个人项目折腾。关键是这个语音跨浏览器一致，终于不用听Safari的机械音了。

发音评分这块更有门道。浏览器原生的Speech-to-Text现在加了LLM层，会"猜"你没说清楚的部分——这对聊天够用，对练发音是灾难。Mati的方案是直接调Whisper或Wav2Vec 2.0的原始模型，只做纯语音转文字，不做语义补全。你说成什么样就转什么样，错得明显才能被系统抓出来。

整个流程自动化：定时任务每天跑两句——生成句子、合成音频、部署更新。前端从CDN拉静态HTML，音频base64预加载，用户点播放就是本地缓存。没有实时推理成本，没有复杂状态管理。

这个项目最反直觉的点在于：用大模型生成内容，但把大模型从实时链路里踢出去了。句子是预生成的，语音是预合成的，用户交互环节只剩播放和录音比对。算力花在刀刃上，体验反而更轻量。

语言学习App的赛道很挤，但大多数在做"更智能的陪练"。Mati的方向是"更可控的材料"——每天一句，质量稳定，不让你陷入选择困难。技术栈全是现成的API，核心工作量在Prompt工程和流程编排。这种"用重算力做轻产品"的思路，可能是个人开发者最现实的突围路径。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.