网易首页 > 网易号 > 正文 申请入驻

AI 语音输入法,难道不是炒冷饭吗?

0
分享至

输入法,绝对是科技圈最古早的赛道之一。

所以看到智谱的 AI 输入法「小凹」时,我的第一反应确实是

—— 都 2025 年了,还做 语 音 输 入 法 ?

毕竟从名声在外的讯飞,

再到微信内置的语音转文字功能,这个领域早已是红海中的红海。

带着“这大概率是炒冷饭”的预期,我实测了两周智谱 AI 输入法,和你聊聊我的真实感受。

先给总体评价,我真的很喜欢这个语音输入:


  1. 1.识别率高,中英混输不错,哪怕是用气声说话,也能准确识别
  2. 2.能够把口语转为专业/日常等风格,还支持自定义转写人设,扩展各类高级用法
  3. 3.任何界面一键唤起,不用换掉在用的输入法
  4. 4.更入口级的 Agent 产品雏形,还能语音调用翻译、改写、代码解释等 AI 功能

不内卷输入法的存量市场,我感觉它在尝试解决另一个问题:

如何让人类通过“随意的口头表达”,输出精准的意图,甚至更方便地调用 Agent 功能。

以下是我的实测报告与产品思考。

小凹,到底长什么样?

在聊深度观点和高级用法前,先了解一下这是一款什么样的产品:

小凹不像搜狗 or 微信输入,在用的时候,你不需要替换当前在用的输入法。

它更像是一个挂在系统上的全局 AI 扩展:

我们可以在任何界面,按下全局快捷键(默认是 Fn,可以自定义),唤起语音输入功能:

在出现「开始说话」浮窗后,直接说话,就能语音输入。

小凹会先调用语音转文字模型(用的是智谱的 GLM-ASR,这两天开源),实时转写听到的内容。

当用户松开录音快捷键后,则会继续调用 LLM 模型,自动结合输入法的人设 Prompt,对输入内容进行精简 / 润色 / 扩写等各种 AI 处理。

除此以外,如果说话以“小凹……”开头,还能调动类似 AI 助手式的响应功能。

可让 AI 直接输出用户问题的回答,完成主题写作(比如,语音要求小凹写一份 ChatGPT 的退款邮件 ⬇️ )

其价值,远不止语音转文字

半年前,我也为一家 AI 产品做了语音听写的方案:

同样也是 ASR 模型转写 + 大语言模型改写(纠错、去口水话),转写成功率远超同期的大厂 AI 助手、语音服务。

但可惜,完全没想到还能封装出这样一套,格外有新意的 AI 语音输入产品。

所以看到智谱做的小凹后,我是真的非常 respect

1️⃣ 不光偷懒,更能保留意图的完整性

首先,语音输入不只是偷懒的方法,也能更好地保留意图表达的完整性。

我们在键盘输入时,为了省力,潜意识里会压缩信息,把脑海中丰富的背景、情绪、细节,删减成干瘪的关键信息。

以日常与同事沟通为例,我们来看一个典型的「想法-文字表达」信息折损过程:

本来已经在脑子里明确了的要求,反而因为键盘输入的偷懒,变得重新模糊。

我们 Prompt AI 时也是同理。

很多用户会在打字中,尽可能希望偷懒,用最少的词句来压缩需求的表达,却往往丢失了很多必要的意图与信息。

而语音输入时,情况就会好得多。

虽然我们会口述很多重复的、过于细节的语句,但至少讲出了更多有价值的 Context。

小凹凭借全局一键唤起输入的交互,恰恰能有效为我们在微信、AI Chat、Office 等场景中,提供更加低成本的完整表达意图的工具。

2️⃣ 设定输入法人设,多风格改写输出

另一个比较好的设计在于:

小凹在输出时,并不是原封不动地把我的“碎碎念”转成文字,而是让 LLM 模型做了后处理,支持多种不同的输出人设。

官方预置了一些不同的人设 Prompt。

在语音输入前,可以选择符合场景的人设,即可实现风格化的自动改写输出。

默认风格偏向在遵循原话的基础上,仅对原文进行去水:


  • 原话:呃呃,明天下午三点,啊算了算了,后天下午三点提醒我去车站
  • 输出:明天下午三点,算了,后天下午三点提醒我去车站

自动翻译则更加直接,能把所有语音自动转译为指定的语言,非常适合跨语言线上交流场景:


  • 输出:Tomorrow at 3 PM, no wait, remind me to go to the station the day after tomorrow at 3 PM

甚至还有更有用的命令行场景风格:

当口述“帮我查一下百度官网的连通性”时,就会自动输出 ping baidu.com 等对应的命令行指令(不用去网络搜对应的教程了)

另外,还预置了:


  • 面向老板:能以专业、稳重且结果导向的方式改写表述,突出结论
  • 面对同事:保持友好又专业,强调协作与清晰沟通,避免居高临下

还有更多其他风格,就不在此一一演示了。

3️⃣ 自定义输入法人设,比如让你的语音自带颜文字效果

在 ASR 环节后置 LLM 模型改写环节,确实是很有创新性的设计。

除了官方提供的输入法人设外,还能自定义自己想要的人设 Prompt。那就能衍生出很多有意思的社区自发玩法了。

我写了两种人设,在此分享语音转写的效果,以及开放 Prompt 原文,方便你的体验。

1)颜文字风格,自动变可爱

早在内测时期,我就向智谱的朋友推荐了一个玩法,叫做「颜文字」,

可以根据你说话里的语气和含义,在转写的文字中添加颜文字,自动变可爱 ⬇️

实际录音转写过程也非常丝滑:

用的是这段 Prompt,你也可以在「小凹-人设」创建一个新的人设试试:

语气温柔、体贴,表达理解与关心,避免生硬或命令式说法。当文字的语义有强烈的语气倾向时,添加颜文字提升表达效果


# Rules
1. 保持用户原句文字完全不变。
2. 根据句中的【情绪关键字】在句尾追加最匹配的颜文字。
3. 若句子包含“会议、报告、审批”等严肃词汇,绝对不加颜文字。

2)让 AI 根据你的口述,自动写专业 Prompt

如果我们把脑洞开的再大一点,其实小凹甚至还能帮我们做到更多自己不会的专业操作。

比如,把自己的口述需求,自动转写为专业的结构化 Prompt。

以经典场景为例,用户只需要口述:“帮我创作一个小红书文案”,AI 语音输入法就自动能将其扩展为专业「小红书文案专家」的结构化 Prompt。

相较以往需要先拿着 meta-prompt,到另一个 LLM 窗口生成 Prompt 模板,「语音-自动转写专业 Prompt」这套自动输入法人设转写方案,明显自然顺滑许多。

对了,这是我测试「结构化提示词专家」的输入法人设 Prompt,也供你参考发散更多的使用创意:

将用户输入,转化为逻辑严密、符合 **[结构化模板]** 的专业 Prompt。

## Rules
1. **补全逻辑**:根据用户模糊的指令,自动推导背景、目标与限制条件。
2. **结构输出**:严格按照下方 Markdown 模板输出,禁止普通文本回复。
3. **极简主义**:提示词内容需精炼有效,无废话。

## Workflow Template
请按照此格式输出:

```markdown
# Role: [角色名称]

## Background
[任务背景与核心价值]

## Goals
1. [关键目标1]
2. [关键目标2]

## Constraints
- [核心限制条件]
- [风格/格式要求]

## Workflow
1. [步骤1]
2. [步骤2]
3. [步骤3]
```

当前版本的小凹,对复杂指令的遵循性不算特别稳定(大概是 Agent 封装问题),在写这类不太像“语音转文字”的提示时,需要把人设设定的更加指向明确、有力。

这才是 AI 输入法的“自定义人设”功能的真正想象力之处。

它不仅仅是给语音转文字加了个“转写滤镜”。

结合 AI 的知识与理解能力,人类能以最自然的表达方式(口语),把脑子里的想法倒出来。

剩下的——那些如何让表达更得体、逻辑更严密、让指令更专业精准的表述工程,都交给 AI 去扩充与转译。

这正是人与 AI 共处新模式的意义之一。

4️⃣ 桌面 Agent 雏形,说话即指令

除了能完美承担「语音输入」与「风格化转译」的角色外,小凹还能承担 AI Chat 类助手的辅助问答能力。

一方面,可以直接问答:

你可以直接以“小凹……”开头,直接向 AI 输入法提问,就能让 AI 在光标处输出与问题对应的结果。

例如:


  • 自动写邮件:如上文写 ChatGPT 的退款邮件的案例
  • 数学计算: “小凹,3.6 × 1024 等于多少”

另一方面,还能识读并加工光标选中的内容,改英文、总结要点、扩写、换风格都 ok 没问题:

光是这些操作,就已经足以代替一大部分通用 AI 助手、文档类 Copilot 产品的功能价值。

而与用户原始意图最近的语音输入入口,结合智谱刚开源的 AutoGLM,很难不会幻想一个更有想象空间的 AI 产品故事:

只需张口说话,就能唤起 AI Agent,自动使用浏览器访问网络信息,代理操作电脑上软件应用,读写本地文件。

AI 语音输入可以不局限在「输入法」的基础功能,更是直连用户意图与 Agent 行动的交互桥梁。

聪明的“非零和竞争”产品设计

正如上文所言,当前第一版本的小凹,并不是一个完整的输入法,而是一个用快捷键,就能唤起语音转文字的全局 AI 扩展。

而这个设计有着极大的优势:

用户迁移意愿 = 新产品价值 - 迁移成本

输入法市场竞争惨烈,受限于使用习惯与词库,用户更换成本极高。

但它的对手不是搜狗、微信输入法。而是输入法内部的语音输入功能,那些你用了两次就觉得“还是打字吧”的鸡肋语音按钮。

基于 GLM-ASR 模型与 LLM 的语义转写能力,小凹在语音输入成功率上,尤其是中英混输、专业术语输入,体感实测超过了我用过的其他所有输入法。

GLM-ASR 正是智谱 AI 输入法背后的语音转文字模型,Nano 版参数量 1.5B,开源 SOTA,能在本地提供高精度的语音转写能力,目前已开源。

甚至还支持在安静场合下的「气声、耳语」级低声的准确输入,结合人设风格化处理、AI 问答能力,相较传统语音输入算得上体验的跨越式进步。

最后,「坦白」一下:这篇文章的初稿,3/4 的内容都是我靠“小凹”说出来的。

全文 4000 字左右,语音输入 2636 字。小凹显示节省了 1 小时——估算挺准,甚至保守了。

更重要的,语音写作帮我抓住了打字时必然流失的细节:


  • 思考产品形态时的兴奋点
  • 测试气声、成功率时的微妙感受

这些在打字时可能因为“懒得敲下来”or“过度修饰”而流失的观察,都能在语音更省力地记录下来。

说话是“思考”,打字是“推敲”,这个区别才是核心。

两周前我乍看 AI 语音输入,以为只是语音输入法的炒冷饭。

现在才发现,它尝试弥补人类想法与表达的鸿沟,让表达回归人类最自然的形态:先倾倒,再整理;AI 负责整理,人负责倾倒。

技术隐入背景,人的意图流畅流动。

我也希望明年开始,能有更多这样的 AI 产品。

对了,如果你想体验智谱 AI 输入法,这是我的邀请码

https://autoglm.zhipuai.cn/autotyper

邀请码:AHVZ5BG4

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
24小时内,俄伊各出一个大消息!特朗普再不找中国,就来不及了!

24小时内,俄伊各出一个大消息!特朗普再不找中国,就来不及了!

史料布籍
2026-07-04 15:50:19
脑筋一转结果拉了坨大的,网友:怎么也想不明白鸡怎么只有两条腿

脑筋一转结果拉了坨大的,网友:怎么也想不明白鸡怎么只有两条腿

兰妮搞笑分享
2026-07-02 14:55:40
香港政府发文,43岁徐子淇再破"天花板",让香港阔太圈沉默了

香港政府发文,43岁徐子淇再破"天花板",让香港阔太圈沉默了

论事的老枢
2026-07-04 07:25:25
美英法德对大陆海警船赴台湾岛以东海域开展执法巡查表达所谓“关切”,国台办驳斥

美英法德对大陆海警船赴台湾岛以东海域开展执法巡查表达所谓“关切”,国台办驳斥

环球网资讯
2026-07-02 10:55:38
NBA球员总薪资榜单!!前十出炉!

NBA球员总薪资榜单!!前十出炉!

柚子说球
2026-07-05 07:34:52
是怎么发现家里那位又“恋爱”了?网友:有一天串台了,叫我丫头

是怎么发现家里那位又“恋爱”了?网友:有一天串台了,叫我丫头

另子维爱读史
2026-07-03 20:19:49
哈里王子独自回英,想去母亲戴安娜墓地,妻儿安保却遭王室拒绝

哈里王子独自回英,想去母亲戴安娜墓地,妻儿安保却遭王室拒绝

译言
2026-07-05 09:31:38
3年半老鼠仓赚了7.5万,准百亿基金经理的亏本买卖:罚没42万

3年半老鼠仓赚了7.5万,准百亿基金经理的亏本买卖:罚没42万

财联社
2026-07-04 16:56:04
巴西能否冲破欧洲魔咒?英格兰复仇地狱球场?世界杯1/8决赛前瞻

巴西能否冲破欧洲魔咒?英格兰复仇地狱球场?世界杯1/8决赛前瞻

世界BALL
2026-07-05 07:45:20
黄鳝主要吃什么长大,最大能长多大?为何说抓到三斤大黄鳝吃不得

黄鳝主要吃什么长大,最大能长多大?为何说抓到三斤大黄鳝吃不得

农夫也疯狂
2026-07-02 15:22:13
14球对70球,15球对19球!大罗彻底沦为笑话,被姆巴佩全面碾压!

14球对70球,15球对19球!大罗彻底沦为笑话,被姆巴佩全面碾压!

陌识
2026-07-05 07:18:08
记者丨莱奥6000-7000万,福法纳2000-2500万

记者丨莱奥6000-7000万,福法纳2000-2500万

米兰圈
2026-07-05 09:36:28
西媒:维尼修斯训练迟到,队友掌声嘘声齐送

西媒:维尼修斯训练迟到,队友掌声嘘声齐送

懂球帝
2026-07-05 00:38:14
中国包裹暴跌50%!欧盟3欧“反羊毛税”开征,Temu、Shein在希腊被踩刹车

中国包裹暴跌50%!欧盟3欧“反羊毛税”开征,Temu、Shein在希腊被踩刹车

以希腊之名
2026-07-03 16:59:52
两性心理学:中年男人爱到深处,不是每天联系,而是给你这些“底牌”

两性心理学:中年男人爱到深处,不是每天联系,而是给你这些“底牌”

心理观察局
2026-07-05 09:18:13
爱情岛新主持回应争议:不惧分享观点,致力人性化岛民

爱情岛新主持回应争议:不惧分享观点,致力人性化岛民

追星雷达站
2026-07-03 01:11:57
联盟多位高管:火箭队将在杜兰特合同到期前交易他,活塞队将追求

联盟多位高管:火箭队将在杜兰特合同到期前交易他,活塞队将追求

好火子
2026-07-04 23:59:32
随着法国1-0巴拉圭,摩洛哥3-0加拿大,世界杯首场8强战+时间确定

随着法国1-0巴拉圭,摩洛哥3-0加拿大,世界杯首场8强战+时间确定

球场没跑道
2026-07-05 07:08:21
为了赚8800泰铢,一名泰航空姐的人生,在机场X光机前彻底改变

为了赚8800泰铢,一名泰航空姐的人生,在机场X光机前彻底改变

曼谷陈大叔
2026-07-02 03:40:50
他从朝鲜回来无职务,授衔时得知自己是海南军区司令,怀疑听错了

他从朝鲜回来无职务,授衔时得知自己是海南军区司令,怀疑听错了

史之韵
2026-06-14 00:48:49
2026-07-05 10:15:00
一泽Eze
一泽Eze
AI 产品,提示工程师 ? 探索AI应用边界,寻找人与AI共处的答案
52文章数 3关注度
往期回顾 全部

科技要闻

年费7.5万美元,美国富裕家庭把孩子送进AI学校

头条要闻

姆巴佩被巴拉圭队球员出拳击倒 进球后用不屑表情回应

头条要闻

姆巴佩被巴拉圭队球员出拳击倒 进球后用不屑表情回应

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
艺术
本地
数码
公开课

家居要闻

传奇筑 日常诗

艺术要闻

八大山人迷之印章 你认得几个?

本地新闻

国内足球之旅?这座小城给你高分答案

数码要闻

五种款式,三星Galaxy Watch 9/Ultra 2手表默认表盘抢先看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版