输入法,绝对是科技圈最古早的赛道之一。
所以看到智谱的 AI 输入法「小凹」时,我的第一反应确实是
—— 都 2025 年了,还做 语 音 输 入 法 ?
![]()
毕竟从名声在外的讯飞,
再到微信内置的语音转文字功能,这个领域早已是红海中的红海。
带着“这大概率是炒冷饭”的预期,我实测了两周智谱 AI 输入法,和你聊聊我的真实感受。
![]()
先给总体评价,我真的很喜欢这个语音输入:
- 1.识别率高,中英混输不错,哪怕是用气声说话,也能准确识别
- 2.能够把口语转为专业/日常等风格,还支持自定义转写人设,扩展各类高级用法
- 3.任何界面一键唤起,不用换掉在用的输入法
- 4.更入口级的 Agent 产品雏形,还能语音调用翻译、改写、代码解释等 AI 功能
不内卷输入法的存量市场,我感觉它在尝试解决另一个问题:
如何让人类通过“随意的口头表达”,输出精准的意图,甚至更方便地调用 Agent 功能。
以下是我的实测报告与产品思考。
![]()
小凹,到底长什么样?
在聊深度观点和高级用法前,先了解一下这是一款什么样的产品:
小凹不像搜狗 or 微信输入,在用的时候,你不需要替换当前在用的输入法。
它更像是一个挂在系统上的全局 AI 扩展:
我们可以在任何界面,按下全局快捷键(默认是 Fn,可以自定义),唤起语音输入功能:
在出现「开始说话」浮窗后,直接说话,就能语音输入。
![]()
小凹会先调用语音转文字模型(用的是智谱的 GLM-ASR,这两天开源),实时转写听到的内容。
当用户松开录音快捷键后,则会继续调用 LLM 模型,自动结合输入法的人设 Prompt,对输入内容进行精简 / 润色 / 扩写等各种 AI 处理。
除此以外,如果说话以“小凹……”开头,还能调动类似 AI 助手式的响应功能。
可让 AI 直接输出用户问题的回答,完成主题写作(比如,语音要求小凹写一份 ChatGPT 的退款邮件 ⬇️ )
其价值,远不止语音转文字
半年前,我也为一家 AI 产品做了语音听写的方案:
同样也是 ASR 模型转写 + 大语言模型改写(纠错、去口水话),转写成功率远超同期的大厂 AI 助手、语音服务。
但可惜,完全没想到还能封装出这样一套,格外有新意的 AI 语音输入产品。
所以看到智谱做的小凹后,我是真的非常 respect
1️⃣ 不光偷懒,更能保留意图的完整性
首先,语音输入不只是偷懒的方法,也能更好地保留意图表达的完整性。
我们在键盘输入时,为了省力,潜意识里会压缩信息,把脑海中丰富的背景、情绪、细节,删减成干瘪的关键信息。
以日常与同事沟通为例,我们来看一个典型的「想法-文字表达」信息折损过程:
![]()
本来已经在脑子里明确了的要求,反而因为键盘输入的偷懒,变得重新模糊。
我们 Prompt AI 时也是同理。
很多用户会在打字中,尽可能希望偷懒,用最少的词句来压缩需求的表达,却往往丢失了很多必要的意图与信息。
而语音输入时,情况就会好得多。
虽然我们会口述很多重复的、过于细节的语句,但至少讲出了更多有价值的 Context。
小凹凭借全局一键唤起输入的交互,恰恰能有效为我们在微信、AI Chat、Office 等场景中,提供更加低成本的完整表达意图的工具。
2️⃣ 设定输入法人设,多风格改写输出
另一个比较好的设计在于:
小凹在输出时,并不是原封不动地把我的“碎碎念”转成文字,而是让 LLM 模型做了后处理,支持多种不同的输出人设。
![]()
官方预置了一些不同的人设 Prompt。
在语音输入前,可以选择符合场景的人设,即可实现风格化的自动改写输出。
默认风格偏向在遵循原话的基础上,仅对原文进行去水:
- 原话:呃呃,明天下午三点,啊算了算了,后天下午三点提醒我去车站
- 输出:明天下午三点,算了,后天下午三点提醒我去车站
自动翻译则更加直接,能把所有语音自动转译为指定的语言,非常适合跨语言线上交流场景:
- 输出:Tomorrow at 3 PM, no wait, remind me to go to the station the day after tomorrow at 3 PM
甚至还有更有用的命令行场景风格:
![]()
当口述“帮我查一下百度官网的连通性”时,就会自动输出 ping baidu.com 等对应的命令行指令(不用去网络搜对应的教程了)
另外,还预置了:
- 面向老板:能以专业、稳重且结果导向的方式改写表述,突出结论
- 面对同事:保持友好又专业,强调协作与清晰沟通,避免居高临下
![]()
还有更多其他风格,就不在此一一演示了。
3️⃣ 自定义输入法人设,比如让你的语音自带颜文字效果
在 ASR 环节后置 LLM 模型改写环节,确实是很有创新性的设计。
除了官方提供的输入法人设外,还能自定义自己想要的人设 Prompt。那就能衍生出很多有意思的社区自发玩法了。
我写了两种人设,在此分享语音转写的效果,以及开放 Prompt 原文,方便你的体验。
1)颜文字风格,自动变可爱
早在内测时期,我就向智谱的朋友推荐了一个玩法,叫做「颜文字」,
可以根据你说话里的语气和含义,在转写的文字中添加颜文字,自动变可爱 ⬇️
![]()
实际录音转写过程也非常丝滑:
用的是这段 Prompt,你也可以在「小凹-人设」创建一个新的人设试试:
语气温柔、体贴,表达理解与关心,避免生硬或命令式说法。当文字的语义有强烈的语气倾向时,添加颜文字提升表达效果# Rules
1. 保持用户原句文字完全不变。
2. 根据句中的【情绪关键字】在句尾追加最匹配的颜文字。
3. 若句子包含“会议、报告、审批”等严肃词汇,绝对不加颜文字。
![]()
2)让 AI 根据你的口述,自动写专业 Prompt
如果我们把脑洞开的再大一点,其实小凹甚至还能帮我们做到更多自己不会的专业操作。
比如,把自己的口述需求,自动转写为专业的结构化 Prompt。
以经典场景为例,用户只需要口述:“帮我创作一个小红书文案”,AI 语音输入法就自动能将其扩展为专业「小红书文案专家」的结构化 Prompt。
相较以往需要先拿着 meta-prompt,到另一个 LLM 窗口生成 Prompt 模板,「语音-自动转写专业 Prompt」这套自动输入法人设转写方案,明显自然顺滑许多。
对了,这是我测试「结构化提示词专家」的输入法人设 Prompt,也供你参考发散更多的使用创意:
将用户输入,转化为逻辑严密、符合 **[结构化模板]** 的专业 Prompt。
## Rules
1. **补全逻辑**:根据用户模糊的指令,自动推导背景、目标与限制条件。
2. **结构输出**:严格按照下方 Markdown 模板输出,禁止普通文本回复。
3. **极简主义**:提示词内容需精炼有效,无废话。
## Workflow Template
请按照此格式输出:
```markdown
# Role: [角色名称]
## Background
[任务背景与核心价值]
## Goals
1. [关键目标1]
2. [关键目标2]
## Constraints
- [核心限制条件]
- [风格/格式要求]## Workflow
1. [步骤1]
2. [步骤2]
3. [步骤3]
```
当前版本的小凹,对复杂指令的遵循性不算特别稳定(大概是 Agent 封装问题),在写这类不太像“语音转文字”的提示时,需要把人设设定的更加指向明确、有力。
这才是 AI 输入法的“自定义人设”功能的真正想象力之处。
它不仅仅是给语音转文字加了个“转写滤镜”。
结合 AI 的知识与理解能力,人类能以最自然的表达方式(口语),把脑子里的想法倒出来。
剩下的——那些如何让表达更得体、逻辑更严密、让指令更专业精准的表述工程,都交给 AI 去扩充与转译。
这正是人与 AI 共处新模式的意义之一。
4️⃣ 桌面 Agent 雏形,说话即指令
除了能完美承担「语音输入」与「风格化转译」的角色外,小凹还能承担 AI Chat 类助手的辅助问答能力。
一方面,可以直接问答:
你可以直接以“小凹……”开头,直接向 AI 输入法提问,就能让 AI 在光标处输出与问题对应的结果。
例如:
- 自动写邮件:如上文写 ChatGPT 的退款邮件的案例
- 数学计算: “小凹,3.6 × 1024 等于多少”
另一方面,还能识读并加工光标选中的内容,改英文、总结要点、扩写、换风格都 ok 没问题:
光是这些操作,就已经足以代替一大部分通用 AI 助手、文档类 Copilot 产品的功能价值。
而与用户原始意图最近的语音输入入口,结合智谱刚开源的 AutoGLM,很难不会幻想一个更有想象空间的 AI 产品故事:
只需张口说话,就能唤起 AI Agent,自动使用浏览器访问网络信息,代理操作电脑上软件应用,读写本地文件。
AI 语音输入可以不局限在「输入法」的基础功能,更是直连用户意图与 Agent 行动的交互桥梁。
聪明的“非零和竞争”产品设计
正如上文所言,当前第一版本的小凹,并不是一个完整的输入法,而是一个用快捷键,就能唤起语音转文字的全局 AI 扩展。
而这个设计有着极大的优势:
用户迁移意愿 = 新产品价值 - 迁移成本
输入法市场竞争惨烈,受限于使用习惯与词库,用户更换成本极高。
但它的对手不是搜狗、微信输入法。而是输入法内部的语音输入功能,那些你用了两次就觉得“还是打字吧”的鸡肋语音按钮。
基于 GLM-ASR 模型与 LLM 的语义转写能力,小凹在语音输入成功率上,尤其是中英混输、专业术语输入,体感实测超过了我用过的其他所有输入法。
![]()
GLM-ASR 正是智谱 AI 输入法背后的语音转文字模型,Nano 版参数量 1.5B,开源 SOTA,能在本地提供高精度的语音转写能力,目前已开源。
甚至还支持在安静场合下的「气声、耳语」级低声的准确输入,结合人设风格化处理、AI 问答能力,相较传统语音输入算得上体验的跨越式进步。
最后,「坦白」一下:这篇文章的初稿,3/4 的内容都是我靠“小凹”说出来的。
![]()
![]()
全文 4000 字左右,语音输入 2636 字。小凹显示节省了 1 小时——估算挺准,甚至保守了。
更重要的,语音写作帮我抓住了打字时必然流失的细节:
- 思考产品形态时的兴奋点
- 测试气声、成功率时的微妙感受
这些在打字时可能因为“懒得敲下来”or“过度修饰”而流失的观察,都能在语音更省力地记录下来。
![]()
说话是“思考”,打字是“推敲”,这个区别才是核心。
两周前我乍看 AI 语音输入,以为只是语音输入法的炒冷饭。
现在才发现,它尝试弥补人类想法与表达的鸿沟,让表达回归人类最自然的形态:先倾倒,再整理;AI 负责整理,人负责倾倒。
技术隐入背景,人的意图流畅流动。
我也希望明年开始,能有更多这样的 AI 产品。
对了,如果你想体验智谱 AI 输入法,这是我的邀请码
https://autoglm.zhipuai.cn/autotyper
邀请码:AHVZ5BG4
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.