网易首页 > 网易号 > 正文 申请入驻

说话比打字快3倍,用AI的方式正在被重写

0
分享至

作者声明:该图片由AI生成
(世界模型工场关注AI圈内部消息,交流八卦请添加作者微信:lovelisa1005,获取更多一手消息)
导语:大多数人脑子比手快,人说话的速度大约是打字的三倍。
越来越多的办公室里,声音不再来自键盘的咔嗒声,而是人对着屏幕低声说话。

有人在向AI口述一份产品需求,有人在用语音给AI布置今天的任务清单,有人告诉AI把40分钟的会议提炼重点。

这不是2030年的科幻画面。

在硅谷YC的共享空间,在上海漕河泾的创业楼层,一批早期AI用户正在用这种方式工作。

其实语音交互不是新鲜事。

Siri诞生近15年,智能音箱也火过一阵,前两次都没能真正改变人们的工作方式。

但这一次,真的不一样了。


办公场景正在改变

先讲一个真实的例子。

在「十字路口」播客的一期节目中,Moxt联合创始人张昊然,描述了他是怎么准备播客访谈的。

“我按了一下语音对AI说:‘我要见十字路口的Koji,你先去网上找一下这人。他想了解Moxt,我要跟他做一个播客,你觉得怎么介绍比较好?聊哪些话题他会比较有兴趣?你先起草一个文档给我。’”

这是直接用语音下达了一个包含多层任务的复杂指令。

AI自己去搜索、理解、整理,输出一个结构化的初稿。

这种工作方式在创业圈和科技博主中蔓延得很快。

他们的反馈几乎一致:效果超出预期。

一个反复被提到的感受是,切换到语音之后,想法变多了。

张昊然还谈到了,他们团队现在怎么开会。

“以前的协作模式是发文档、写评论、再找你聊”,但现在的一对一会议是这样开的:

AI先起草一份文档,两个人开口聊,AI全程录音,聊完之后文档已经自动更新。

这不只是AI把录音转成文字那么简单。

他提到一个细节:现在去找AI说话,完全不需要解释"Moxt是什么""对方是谁"。

AI已经掌握了足够的背景,自己去查,不需要被喂上下文。

这才是这套工作方式真正改变的东西。

AI从一个被动响应的工具,变成了一个持续在场、随时可以接话的参与者。

更极端的变化发生在程序员那里。

2025年初,Andrej Karpathy提了一个概念叫 “Vibe Coding”,开发者可以用语音指挥Claude Code或Cursor这类AI编程工具,直接用嘴写代码。

具体来说,程序员一边看着屏幕上的代码,一边说“把那个报错的函数重写一下,加个异常处理”,AI来改,开发者几乎不用碰键盘。

连写代码这个最依赖键盘、最需要精确输入的工作,都在被语音渗透。

这说明语音作为生产力入口这件事,不只适用于某个特定场景,它在全面泛化。


这次语音真的可以了?

TechCrunch近期对这类工具做了横评,Wispr Flow这类AI语音输入产品正在快速扩散。

Wispr上线10个月,全球下载量超过250万次。

信号很明确,语音输入正在从一个奇怪的习惯,变成一个可以被认真对待的产品品类。

底层逻辑很简单。

大多数人脑子比手快,人说话的速度大约是打字的三倍。

过去脑子里想好的东西,得通过键盘一个字一个字敲出来。你得想清楚再打,打慢了思路就断了,打快了又容易出错。

但语音没有这个问题,想到什么说什么。

一旦习惯了用思考的速度来输出,再回去打字就会觉得很慢。

值得关注的是,这并不是人类第一次做语音交互。语音助手都死过两次了,为什么这一次就可行呢?

回看早期的Siri,技术目标很简单,把人说的话转成文字。

但转成文字之后,得到的是一堆口语化的、跳跃的、充满"呃""然后""就是说"的原始文本,没有人愿意用这个东西干活。

再看后来的Alexa、Google Assistant、Siri进化版,目标升级了,不只是听懂字,还要执行指令。

"帮我设个闹钟""今天天气怎么样",这类事它们确实能做。

但稍微复杂一点,比如"帮我把上午的会议内容整理一下,发给项目组",就彻底歇菜了。

两次失败,表面看是技术不够成熟,本质是同一个问题:

语音产生的是混乱的原材料,过去没有任何东西能处理混乱。

但大模型出现之后,改变了这一切。

你可以说得很乱,AI大模型也能理解你要什么。

模糊的指令、跳跃的逻辑、没说完的半句话、口语里的大量废话,AI都能处理。

这让过去二十年语音产品失败的逻辑,一夜之间全部成立了。


语音交互正在成为趋势

在语音交互领域,技术和产品端正在触碰更底层的东西。

第一个变化来自交互模式。

Thinking Machines最近发布的interaction models,展示了一种更激进的方向。

传统语音交互是回合制:你说完,AI处理,再回你,但这不像真实的对话。

在真实对话里,对方会在你说话的时候打断、接话,会在你停顿的瞬间接上去。

Thinking Machines的方案是实时流式交互:AI边听、边思考、边回应,端到端延迟被压缩到0.4秒以内。

人类对话里自然停顿的间隔大约是0.2秒,0.4秒已经接近真实对话的节奏了。

这意味着,回合制这个语音交互模式,可能比我们想象的更快成为历史。

当AI能真正"插嘴",语音Agent就不再是一个等你说完才开始工作的工具,而是一个真正在场的协作者。

语音Agent,正在从Demo变成可以上线的产品。

另一个信号来自基础设施层。

过去,语音Agent是展示品。

在发布会上听起来很酷,真正要集成进产品里,延迟、稳定性、中断处理全都是问题。

目前,OpenAI 的 Realtime API、AssemblyAI的Voice Agent API、Inworld等平台,开始把语音识别、语音合成、模型推理、打断处理、工具调用,收进更统一的接口里。

开发者用一个API就可以构建生产级语音Agent,整个技术栈可以直接上线。

这意味着语音应用开发的门槛越来越低,接下来可能会快速冒出一批此前不敢想的产品形态。

第三个变化来自入口之争。

Google在2026 Android Show I/O Edition活动中,已经把Gemini听写集成进了Gboard键盘。

这个动作看起来平淡,但对Wispr Flow这类创业公司来说是一个危险信号。

因为入口之争一旦打到操作系统层,规则就变了。

把这几件事放在一起看,能看到一条清晰的脉络:

技术侧,延迟在压缩,实时交互正在从研究变成产品;

基础设施侧,语音Agent从Demo走向可上线;

平台侧,大厂开始把语音输入当作操作系统级功能来卡位。

这是整个行业在同一个时间窗口里,朝同一个方向移动。


语音的阻力

技术能解决问题,但不等于一切。现实中被低估的阻力,往往来自人性。

脱口秀演员鸟鸟讲过一个段子,她说即便被老鼠咬了,都很难立刻喊人来救。

"如果没有人救,我只是可能会死;可是一旦有人救,我还得跟他打招呼"。

全场笑成一片,因为那种感受太真实了。

这就是i人面对语音输入的处境。不是不想说,是开口这件事本身有成本。

打字有草稿感,写错了能删,想清楚再发,没人看见你的过程,但说话没有这个缓冲。

开放办公室让这件事更尴尬。

你对着屏幕低声布置任务,旁边同事的耳朵已经竖起来了。

被听见,才是真正的障碍,噪音是次要的。

所以Wispr这类工具推出的“低声也能识别”功能,某种意义上是在帮社恐续命,你小声嘟囔也能识别。

这解决的不是技术问题,是心理门槛。

这大概是语音输入普及路上最荒诞、也最真实的注脚:

技术已经准备好了,但人还没准备好。

长期来看,即便语音成为新的交互方式,也不会替代打字,但语音的普及会制造效率分化。

那些已经在用语音工作的人,开会有记录,口述有文档,脑子里一闪而过的想法有地方落,他们的想法就更有可能被AI捕捉到。

这才是语音成为生产力入口真正的含义。

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
返回美国途中,特朗普正式回应对台军售问题,非常不一般

返回美国途中,特朗普正式回应对台军售问题,非常不一般

kio鱼
2026-05-15 23:43:30
3天让一众美国高官开了眼界,鲁比奥惊叹:中国军力不愧世界第二

3天让一众美国高官开了眼界,鲁比奥惊叹:中国军力不愧世界第二

未来展望
2026-05-15 22:59:27
外交部宣布:尼安蒂将访华

外交部宣布:尼安蒂将访华

鲁中晨报
2026-05-15 17:06:04
停更3年,千万粉丝网红改名宣布回归,4小时涨粉240万

停更3年,千万粉丝网红改名宣布回归,4小时涨粉240万

天津生活通
2026-05-14 10:34:09
全球媒体聚焦 | 外媒:美国总统特朗普结束访华 中美向世界传递“稳定预期”

全球媒体聚焦 | 外媒:美国总统特朗普结束访华 中美向世界传递“稳定预期”

中国网
2026-05-15 20:22:05
日本突发强震

日本突发强震

鲁中晨报
2026-05-15 20:14:30
“兰州瓜农刺死城管案”终审维持原判,当事人:考虑申诉

“兰州瓜农刺死城管案”终审维持原判,当事人:考虑申诉

新京报
2026-05-15 20:10:21
歌手温岚被紧急送入ICU,主办方宣布多场演出延期

歌手温岚被紧急送入ICU,主办方宣布多场演出延期

红星新闻
2026-05-15 16:35:31
华为突然宣布:5月15日,Mate80全系正式官降

华为突然宣布:5月15日,Mate80全系正式官降

科技堡垒
2026-05-15 11:44:35
为什么每次完事了都是进口农产品?

为什么每次完事了都是进口农产品?

多村来信
2026-05-15 19:02:51
曝央视与国际足联谈判成功!7.4亿买下世界杯转播权 1天内签约

曝央视与国际足联谈判成功!7.4亿买下世界杯转播权 1天内签约

念洲
2026-05-15 07:46:29
人民大会堂国宴服务员惊艳刷屏:相貌大方,气质端庄,太美了!

人民大会堂国宴服务员惊艳刷屏:相貌大方,气质端庄,太美了!

手工制作阿歼
2026-05-16 00:11:27
“童鞋界爱马仕”被曝成本仅37.8元?泰兰尼斯广告翻车,网友:三观真的歪到离谱

“童鞋界爱马仕”被曝成本仅37.8元?泰兰尼斯广告翻车,网友:三观真的歪到离谱

北京商报
2026-05-15 19:23:20
雷老板昨夜吃大席,股票今天遇大跌

雷老板昨夜吃大席,股票今天遇大跌

不主流讲话
2026-05-15 16:10:40
14岁男孩上午被银环蛇咬伤 出现手脚麻痹 眼睛模糊误认为是近视 淡定上完上午课程后才就医

14岁男孩上午被银环蛇咬伤 出现手脚麻痹 眼睛模糊误认为是近视 淡定上完上午课程后才就医

闪电新闻
2026-05-15 12:33:44
心理学上有一个说法叫稀缺心态:如果你发现一个人很“抠”,那“抠”只会是他身上最小的问题。你还是赶紧跑路要紧

心理学上有一个说法叫稀缺心态:如果你发现一个人很“抠”,那“抠”只会是他身上最小的问题。你还是赶紧跑路要紧

心理观察局
2026-05-14 09:29:44
支付宝回应184万元莫名被扣:涉事账户存与他人共用嫌疑,不排除涉嫌违法犯罪可能

支付宝回应184万元莫名被扣:涉事账户存与他人共用嫌疑,不排除涉嫌违法犯罪可能

北京商报
2026-05-15 09:45:04
中美这场举世瞩目的会晤,释放了哪些重要信号?

中美这场举世瞩目的会晤,释放了哪些重要信号?

补壹刀
2026-05-15 14:03:13
没给日本的,中方都给了特朗普,还有一个重要承诺,日媒:凭什么

没给日本的,中方都给了特朗普,还有一个重要承诺,日媒:凭什么

兰妮搞笑分享
2026-05-16 01:16:20
央视以1.1亿拿下世界杯版权,赚了还是赔了?

央视以1.1亿拿下世界杯版权,赚了还是赔了?

雨秋闲话
2026-05-15 15:41:49
2026-05-16 02:43:00
呼呼历史论
呼呼历史论
分享有趣的历史
630文章数 17023关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

旅游
亲子
教育
时尚
本地

旅游要闻

藏在沈阳闹市的金色秘境!2 万㎡油菜花全开,地铁直达还免费

亲子要闻

孕妇补钙怕刺激怎么选?液体钙无添加配方实测,蓝帽认证更靠谱

教育要闻

2027英国留学费用+排名+雅思要求一篇看懂

顶级团队拍出来的作品不如素人,问题出在哪儿了?

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版