AI 语音输入法，难道不是炒冷饭吗？|翻译|键盘|词库|颜文字|快捷键|用户完成语音

AI 语音输入法，难道不是炒冷饭吗？

2025-12-10 11:12:18　来源: 一泽Eze

浙江举报

分享至

输入法，绝对是科技圈最古早的赛道之一。

所以看到智谱的 AI 输入法「小凹」时，我的第一反应确实是

—— 都 2025 年了，还做语音输入法？

毕竟从名声在外的讯飞，

再到微信内置的语音转文字功能，这个领域早已是红海中的红海。

带着“这大概率是炒冷饭”的预期，我实测了两周智谱 AI 输入法，和你聊聊我的真实感受。

先给总体评价，我真的很喜欢这个语音输入：

1.识别率高，中英混输不错，哪怕是用气声说话，也能准确识别
2.能够把口语转为专业/日常等风格，还支持自定义转写人设，扩展各类高级用法
3.任何界面一键唤起，不用换掉在用的输入法
4.更入口级的 Agent 产品雏形，还能语音调用翻译、改写、代码解释等 AI 功能

不内卷输入法的存量市场，我感觉它在尝试解决另一个问题：

如何让人类通过“随意的口头表达”，输出精准的意图，甚至更方便地调用 Agent 功能。

以下是我的实测报告与产品思考。

小凹，到底长什么样？

在聊深度观点和高级用法前，先了解一下这是一款什么样的产品：

小凹不像搜狗 or 微信输入，在用的时候，你不需要替换当前在用的输入法。

它更像是一个挂在系统上的全局 AI 扩展：

我们可以在任何界面，按下全局快捷键（默认是 Fn，可以自定义），唤起语音输入功能：

在出现「开始说话」浮窗后，直接说话，就能语音输入。

小凹会先调用语音转文字模型（用的是智谱的 GLM-ASR，这两天开源），实时转写听到的内容。

当用户松开录音快捷键后，则会继续调用 LLM 模型，自动结合输入法的人设 Prompt，对输入内容进行精简 / 润色 / 扩写等各种 AI 处理。

除此以外，如果说话以“小凹……”开头，还能调动类似 AI 助手式的响应功能。

可让 AI 直接输出用户问题的回答，完成主题写作（比如，语音要求小凹写一份 ChatGPT 的退款邮件 ⬇️ ）

其价值，远不止语音转文字

半年前，我也为一家 AI 产品做了语音听写的方案：

同样也是 ASR 模型转写 + 大语言模型改写（纠错、去口水话），转写成功率远超同期的大厂 AI 助手、语音服务。

但可惜，完全没想到还能封装出这样一套，格外有新意的 AI 语音输入产品。

所以看到智谱做的小凹后，我是真的非常 respect

1️⃣ 不光偷懒，更能保留意图的完整性

首先，语音输入不只是偷懒的方法，也能更好地保留意图表达的完整性。

我们在键盘输入时，为了省力，潜意识里会压缩信息，把脑海中丰富的背景、情绪、细节，删减成干瘪的关键信息。

以日常与同事沟通为例，我们来看一个典型的「想法-文字表达」信息折损过程：

本来已经在脑子里明确了的要求，反而因为键盘输入的偷懒，变得重新模糊。

我们 Prompt AI 时也是同理。

很多用户会在打字中，尽可能希望偷懒，用最少的词句来压缩需求的表达，却往往丢失了很多必要的意图与信息。

而语音输入时，情况就会好得多。

虽然我们会口述很多重复的、过于细节的语句，但至少讲出了更多有价值的 Context。

小凹凭借全局一键唤起输入的交互，恰恰能有效为我们在微信、AI Chat、Office 等场景中，提供更加低成本的完整表达意图的工具。

2️⃣ 设定输入法人设，多风格改写输出

另一个比较好的设计在于：

小凹在输出时，并不是原封不动地把我的“碎碎念”转成文字，而是让 LLM 模型做了后处理，支持多种不同的输出人设。

官方预置了一些不同的人设 Prompt。

在语音输入前，可以选择符合场景的人设，即可实现风格化的自动改写输出。

默认风格偏向在遵循原话的基础上，仅对原文进行去水：

原话：呃呃，明天下午三点，啊算了算了，后天下午三点提醒我去车站
输出：明天下午三点，算了，后天下午三点提醒我去车站

自动翻译则更加直接，能把所有语音自动转译为指定的语言，非常适合跨语言线上交流场景：

输出：Tomorrow at 3 PM, no wait, remind me to go to the station the day after tomorrow at 3 PM

甚至还有更有用的命令行场景风格：

当口述“帮我查一下百度官网的连通性”时，就会自动输出 ping baidu.com 等对应的命令行指令（不用去网络搜对应的教程了）

另外，还预置了：

面向老板：能以专业、稳重且结果导向的方式改写表述，突出结论
面对同事：保持友好又专业，强调协作与清晰沟通，避免居高临下

还有更多其他风格，就不在此一一演示了。

3️⃣ 自定义输入法人设，比如让你的语音自带颜文字效果

在 ASR 环节后置 LLM 模型改写环节，确实是很有创新性的设计。

除了官方提供的输入法人设外，还能自定义自己想要的人设 Prompt。那就能衍生出很多有意思的社区自发玩法了。

我写了两种人设，在此分享语音转写的效果，以及开放 Prompt 原文，方便你的体验。

1）颜文字风格，自动变可爱

早在内测时期，我就向智谱的朋友推荐了一个玩法，叫做「颜文字」，

可以根据你说话里的语气和含义，在转写的文字中添加颜文字，自动变可爱 ⬇️

实际录音转写过程也非常丝滑：

用的是这段 Prompt，你也可以在「小凹-人设」创建一个新的人设试试：

语气温柔、体贴，表达理解与关心，避免生硬或命令式说法。当文字的语义有强烈的语气倾向时，添加颜文字提升表达效果


 # Rules
1. 保持用户原句文字完全不变。
2. 根据句中的【情绪关键字】在句尾追加最匹配的颜文字。
3. 若句子包含“会议、报告、审批”等严肃词汇，绝对不加颜文字。

2）让 AI 根据你的口述，自动写专业 Prompt

如果我们把脑洞开的再大一点，其实小凹甚至还能帮我们做到更多自己不会的专业操作。

比如，把自己的口述需求，自动转写为专业的结构化 Prompt。

以经典场景为例，用户只需要口述：“帮我创作一个小红书文案”，AI 语音输入法就自动能将其扩展为专业「小红书文案专家」的结构化 Prompt。

相较以往需要先拿着 meta-prompt，到另一个 LLM 窗口生成 Prompt 模板，「语音-自动转写专业 Prompt」这套自动输入法人设转写方案，明显自然顺滑许多。

对了，这是我测试「结构化提示词专家」的输入法人设 Prompt，也供你参考发散更多的使用创意：

将用户输入，转化为逻辑严密、符合 **[结构化模板]** 的专业 Prompt。

 ## Rules
1. **补全逻辑**：根据用户模糊的指令，自动推导背景、目标与限制条件。
2. **结构输出**：严格按照下方 Markdown 模板输出，禁止普通文本回复。
3. **极简主义**：提示词内容需精炼有效，无废话。

 ## Workflow Template
请按照此格式输出：

 ```markdown
# Role: [角色名称]

 ## Background
[任务背景与核心价值]

 ## Goals
1. [关键目标1]
2. [关键目标2]

 ## Constraints
- [核心限制条件]
- [风格/格式要求]

 ## Workflow
1. [步骤1]
2. [步骤2]
3. [步骤3]
```

当前版本的小凹，对复杂指令的遵循性不算特别稳定（大概是 Agent 封装问题），在写这类不太像“语音转文字”的提示时，需要把人设设定的更加指向明确、有力。

这才是 AI 输入法的“自定义人设”功能的真正想象力之处。

它不仅仅是给语音转文字加了个“转写滤镜”。

结合 AI 的知识与理解能力，人类能以最自然的表达方式（口语），把脑子里的想法倒出来。

剩下的——那些如何让表达更得体、逻辑更严密、让指令更专业精准的表述工程，都交给 AI 去扩充与转译。

这正是人与 AI 共处新模式的意义之一。

4️⃣ 桌面 Agent 雏形，说话即指令

除了能完美承担「语音输入」与「风格化转译」的角色外，小凹还能承担 AI Chat 类助手的辅助问答能力。

一方面，可以直接问答：

你可以直接以“小凹……”开头，直接向 AI 输入法提问，就能让 AI 在光标处输出与问题对应的结果。

例如：

自动写邮件：如上文写 ChatGPT 的退款邮件的案例
数学计算： “小凹，3.6 × 1024 等于多少”

另一方面，还能识读并加工光标选中的内容，改英文、总结要点、扩写、换风格都 ok 没问题：

光是这些操作，就已经足以代替一大部分通用 AI 助手、文档类 Copilot 产品的功能价值。

而与用户原始意图最近的语音输入入口，结合智谱刚开源的 AutoGLM，很难不会幻想一个更有想象空间的 AI 产品故事：

只需张口说话，就能唤起 AI Agent，自动使用浏览器访问网络信息，代理操作电脑上软件应用，读写本地文件。

AI 语音输入可以不局限在「输入法」的基础功能，更是直连用户意图与 Agent 行动的交互桥梁。

聪明的“非零和竞争”产品设计

正如上文所言，当前第一版本的小凹，并不是一个完整的输入法，而是一个用快捷键，就能唤起语音转文字的全局 AI 扩展。

而这个设计有着极大的优势：

用户迁移意愿 = 新产品价值 - 迁移成本

输入法市场竞争惨烈，受限于使用习惯与词库，用户更换成本极高。

但它的对手不是搜狗、微信输入法。而是输入法内部的语音输入功能，那些你用了两次就觉得“还是打字吧”的鸡肋语音按钮。

基于 GLM-ASR 模型与 LLM 的语义转写能力，小凹在语音输入成功率上，尤其是中英混输、专业术语输入，体感实测超过了我用过的其他所有输入法。

GLM-ASR 正是智谱 AI 输入法背后的语音转文字模型，Nano 版参数量 1.5B，开源 SOTA，能在本地提供高精度的语音转写能力，目前已开源。

甚至还支持在安静场合下的「气声、耳语」级低声的准确输入，结合人设风格化处理、AI 问答能力，相较传统语音输入算得上体验的跨越式进步。

最后，「坦白」一下：这篇文章的初稿，3/4 的内容都是我靠“小凹”说出来的。

全文 4000 字左右，语音输入 2636 字。小凹显示节省了 1 小时——估算挺准，甚至保守了。

更重要的，语音写作帮我抓住了打字时必然流失的细节：

思考产品形态时的兴奋点
测试气声、成功率时的微妙感受

这些在打字时可能因为“懒得敲下来”or“过度修饰”而流失的观察，都能在语音更省力地记录下来。

说话是“思考”，打字是“推敲”，这个区别才是核心。

两周前我乍看 AI 语音输入，以为只是语音输入法的炒冷饭。

现在才发现，它尝试弥补人类想法与表达的鸿沟，让表达回归人类最自然的形态：先倾倒，再整理；AI 负责整理，人负责倾倒。

技术隐入背景，人的意图流畅流动。

我也希望明年开始，能有更多这样的 AI 产品。

对了，如果你想体验智谱 AI 输入法，这是我的邀请码

https://autoglm.zhipuai.cn/autotyper

邀请码：AHVZ5BG4

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.