语音输入比打字快——但这从来不是真正的问题。真正难的是结构。一边说话一边把思路理清楚,还要说得连贯,这件事出奇地困难。Gemini 这样的 AI 助手早就支持语音输入了,但转录出来的东西往往是一堆没结构的噪音,整理它们花的时间比省下来的还多。
这就是我想为自己解决的问题。
![]()
我想要一种方式:可以自由地说话——像脑暴那样倾泻想法——然后让 AI 实时把它转成干净、有结构的 Markdown。不用编辑,不用打字,不用切换上下文。只管大声想,就能拿到一份文档。
结果就是我做的 Speech-to-Markdown(stmd)工具,内建在 TaskSquad 里。
开始录音时,stmd 会用 Whisper 模型在本地转录你的语音(模型是动态下载的,我用的是 large 版本)。转录内容会被缓冲、聚合,然后分块发送给你选择的模型。你可以随时暂停录音,想好了再继续。
你可以把它接到:
我现在主要用 Claude Code 作为主框架,也 extensively 测试过 Gemma 4 with oMLX——两者速度差不多,都挺好用。
stmd 有两种模式:追加(append)和编辑(edit)。
追加模式——每一段说的话会被清理后追加到现有 Markdown 文档里。适合脑暴出第一稿。
编辑模式——你说的话变成编辑指令。不是加内容,而是让智能体修改已有内容。说"把开头改短点"或者"替换第二个 bullet",完全不需要键盘。
所有原始转录和生成的 Markdown 文件都保存在你的 .tsq 文件夹里。用哪个模型完全由你决定——没有任何锁定。
如果你是那种思考速度比打字快的开发者,可以试试看。
模板功能让你能快速回答常见问题,或者存一些片段重复使用。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.