网易首页 > 网易号 > 正文 申请入驻

微软最新突破:AI语音助手终于学会边思考边说话了!

0
分享至

这项由微软亚洲研究院和台湾大学联合完成的研究发表于2025年7月,研究团队包括蒋程瀚、王小飞、李林杰等多位学者。这一开创性成果通过论文《STITCH: 同步思考与对话的分块推理语音模型》向学界公开,感兴趣的读者可以通过论文编号arXiv:2507.15375获取完整研究资料,项目演示页面可访问https://d223302.github.io/STITCH。

人类在对话时有一个很自然的能力:我们可以一边说话,一边在脑海里思考接下来要说什么。比如你在解数学题的时候,嘴里可能在说"首先我们需要计算这个值",但大脑已经在琢磨后面几步的计算过程了。然而,现有的AI语音助手却做不到这一点——它们要么像背书一样直接回答,要么需要先完整地"想"完整个答案再开口说话,这就像一个人必须把整篇演讲稿在心里默念完才能开始讲话一样。

微软研究团队注意到了这个问题。现在的语音大模型虽然能够听懂人话并用语音回答,但它们缺少人类那种内在的思考过程。当你问它一个复杂的数学题时,它往往会立即给出答案,没有展现出推理和思考的过程。更糟糕的是,如果让AI先进行完整的思考再回答,用户就得等很长时间才能听到回应,这在实际对话中是不可接受的。

为了解决这个问题,研究团队开发了一个叫做STITCH的新系统,这个名字代表"同步思考与对话的分块推理"。这个系统的巧妙之处在于,它利用了一个简单但重要的时间差:当AI生成一小段语音并播放给用户听的时候,播放这段音频需要的时间(比如2秒)远比AI生成对应文字内容的时间(可能只需要0.5秒)要长得多。那么剩下的1.5秒时间里,AI能做什么呢?STITCH的答案是:思考!

这就像一个经验丰富的播音员,当他在播报第一条新闻的时候,眼睛已经在浏览第二条新闻的内容,脑子里在组织第三条新闻的语言。STITCH让AI学会了类似的多线程处理能力。

一、让AI学会分段思考

STITCH系统的核心创新在于将AI的思考过程切分成小块,就像把一个大蛋糕切成许多小片一样。传统的AI要么完全不思考就回答,要么必须把整个思考过程完成后才开始说话。而STITCH采用了第三种方式:思考一小段、说一小段、再思考一小段、再说一小段。

为了更好地理解这个过程,可以把它想象成一个厨师在直播做菜。传统的AI就像一个厨师要么不准备就开始做菜(结果可能一团糟),要么把所有准备工作都做完才开始直播(观众等得不耐烦)。而STITCH就像一个聪明的厨师,一边做菜一边介绍,同时脑子里还在想接下来的步骤。

具体来说,当用户提出一个数学问题时,STITCH会先进行一小段推理(比如100个思考步骤),然后说出一小段回答,在播放这段回答的过程中,它又开始下一轮的推理。这样循环下去,直到完整地回答了用户的问题。

研究团队设计了两个版本的STITCH。第一个版本叫STITCH-R(R代表推理优先),它会先思考一小段再开口说话,所以第一次响应会有一点延迟。第二个版本叫STITCH-S(S代表说话优先),它会立即开始回答,然后在说话的过程中进行思考,这样就完全没有额外的延迟了。

二、技术实现的巧思

要让这个系统工作起来,研究团队需要解决几个技术挑战。首先是如何训练AI学会这种"边说边想"的能力。他们采用了一个很聪明的方法:把原本完整的推理过程打碎,然后重新组合成交替的形式。

比如原本的训练数据可能是这样的:完整推理过程 + 完整回答。现在他们把它改造成:推理片段1 + 回答片段1 + 推理片段2 + 回答片段2 + 推理片段3 + 回答片段3...

这就像把一本书的章节重新排列:原来是"思考篇"全部写完再写"行动篇",现在改成"思考1 + 行动1 + 思考2 + 行动2..."的形式。AI通过学习这种新的模式,掌握了在说话和思考之间切换的能力。

为了确保系统的时间同步,研究团队还精确计算了各种时间参数。他们发现,在A100-80G这样的GPU上,AI每秒能够生成大约80个词汇单元。而播放26个语音单元(大约对应13个文字词汇)需要约2秒时间。这意味着在播放语音的2秒内,AI可以生成160个词汇单元,减去必需的39个词汇单元用于下一段话的准备,还剩余121个词汇单元的"思考时间"。研究团队保守地将每次思考设定为100个词汇单元,确保系统的稳定运行。

三、实验验证与效果评估

为了验证STITCH的效果,研究团队进行了大量实验。他们使用了多种数学推理数据集,包括AddSub、MultiArith、SinglEq、SVAMP和GSM8K,这些都是评估AI数学能力的标准测试。结果显示,STITCH在数学推理任务上的表现显著超越了不进行推理的基准模型。

在最具挑战性的GSM8K数学题目中,STITCH-S的准确率达到了56.72%,而不进行推理的基准模型只有35.73%,提升幅度接近60%。这个结果特别令人鼓舞,因为STITCH-S的响应延迟与基准模型完全相同,也就是说,在不增加任何等待时间的情况下,获得了显著的性能提升。

更有趣的是,研究团队还测试了STITCH在非数学任务上的表现,比如知识问答和日常对话。结果发现,即使在不需要复杂推理的任务上,STITCH的表现也与基准模型相当,并没有因为增加了推理过程而变差。这说明这种"边想边说"的能力不会干扰AI在简单任务上的表现。

研究团队还进行了一个有趣的实验:测试STITCH能否在推理过程中调整思考的"深度"。他们发现,可以在不重新训练模型的情况下,调整每次思考的词汇数量(从60到100个词汇单元)。当思考时间减少时,性能会有所下降,但仍然比完全不思考的模型要好很多。这种灵活性对实际应用很有价值,因为不同的硬件条件可能需要不同的配置。

四、质量评估与用户体验

除了客观的准确率测试,研究团队还评估了STITCH生成语音的质量。他们使用了UTMOSv2这个专门评估语音质量的工具,发现STITCH生成的语音在感知质量上与基准模型没有差别,都维持在3分以上的良好水平(满分5分)。同时,通过GPT-4o评估文本的流畅度,STITCH的表现也很理想,说明这种"切块"的思考和表达方式并没有影响语言的自然度。

从用户体验的角度来看,STITCH带来了质的提升。以往用户向AI提问复杂问题时,要么得到一个快速但可能错误的答案,要么需要等待很长时间才能得到经过深思熟虑的回答。STITCH找到了这两者之间的平衡点:用户几乎不需要额外等待,就能获得经过推理的、更加准确的答案。

五、技术细节与创新突破

STITCH的训练过程采用了GLM-4-Voice-9B作为基础模型,这是一个已经具备语音理解和生成能力的大型AI系统。研究团队在此基础上增加了推理能力,使用了大约40万个训练样本,涵盖了日常对话、数学推理和知识问答三类任务。

在具体的实现中,系统使用了特殊的标记符号来区分不同类型的内容。推理内容被[SOPR](开始部分推理)和[EOPR](结束部分推理)标记包围,当整个推理完成时会出现[EOR](结束推理)标记。这些标记就像交通信号灯一样,告诉AI什么时候应该思考,什么时候应该说话。

研究团队还探索了使用外部模型来辅助推理的可能性。他们发现,可以用其他专门的推理模型(如GPT-4、Llama系列模型)来生成推理内容,然后让STITCH基于这些推理来组织回答。这种方式在某些情况下能进一步提升回答的质量,特别是当推理辅助模型比STITCH本身更强大时。

六、实际应用场景与意义

STITCH的突破性意义不仅仅在于技术本身,更在于它为AI助手的实际应用开辟了新的可能性。在教育场景中,一个能够展现推理过程的AI老师可以更好地帮助学生理解问题的解决思路。学生不仅能得到正确答案,还能观察到AI是如何一步步分析和推理的,这对培养学生的思维能力很有价值。

在客户服务领域,STITCH技术能够让AI客服在处理复杂问题时表现得更像人类专家。当客户提出一个涉及多个环节的问题时,AI可以一边分析情况一边与客户沟通,而不是让客户干等或给出草率的回答。

对于需要实时交互的应用场景,比如智能汽车的语音助手或家庭智能设备,STITCH技术能够在不影响响应速度的前提下提供更可靠的服务。司机在驾驶过程中询问复杂的导航或计算问题时,能够快速得到经过推理的准确回答,而不会影响行车安全。

七、局限性与未来发展

虽然STITCH取得了显著进展,但研究团队也坦诚地指出了当前系统的局限性。首先,系统的推理能力仍然受到基础模型能力的限制。虽然STITCH改进了推理的组织方式,但如果基础模型本身在某个领域的知识有限,STITCH也无法创造出不存在的知识。

其次,当前的实现主要针对数学推理等相对结构化的问题。对于更加开放性的创意任务或情感理解任务,STITCH的优势可能没有那么明显。这是因为这些任务的推理过程往往更加灵活和非线性,不太适合分块处理。

在技术层面,STITCH对硬件性能有一定要求。虽然研究团队已经优化了时间配置,但在性能较低的设备上,可能需要进一步调整推理块的大小,这可能会影响推理的深度和准确性。

未来的发展方向包括几个方面。研究团队正在探索如何让STITCH适应更多类型的任务,特别是那些需要创造性思维的任务。他们也在研究如何动态调整推理的深度,根据问题的复杂程度自动决定需要多少思考时间。

另一个有趣的发展方向是多模态推理。目前STITCH主要处理语音和文字,未来可能扩展到图像、视频等其他模态,让AI能够在处理多媒体内容时也展现出类似的同步思考能力。

八、对AI发展的启示

STITCH的成功揭示了AI系统设计中一个重要的原则:模仿人类认知过程的自然节奏往往能带来更好的用户体验。人类的思维本身就是多线程的——我们可以一边说话一边思考,一边听别人说话一边准备自己的回应。AI系统如果能够捕捉到这种自然的认知流程,就能提供更加流畅和智能的交互体验。

这项研究也说明了在AI系统优化中,时间维度的重要性经常被忽视。很多AI研究专注于提高模型的准确性或减少计算量,但较少考虑如何优化时间的使用效率。STITCH通过巧妙地利用语音播放的时间间隙,在不增加总体延迟的情况下显著提升了系统性能,这种"时间套利"的思路值得在其他AI应用中借鉴。

从更广泛的角度来看,STITCH代表了AI系统从"单步处理"向"流水线处理"的演进。就像现代工厂的生产线一样,不同的处理步骤可以同时进行,而不必等待前一个步骤完全结束。这种并行化的思维方式可能会成为未来AI系统设计的重要范式。

归根结底,STITCH的价值不仅在于技术创新,更在于它让AI助手变得更像一个真正的对话伙伴。当AI能够展现出思考的过程,能够在交流中体现出智慧的深度,人机交互就会变得更加自然和富有意义。虽然我们还没有达到科幻电影中那种完美的AI伙伴,但STITCH无疑是朝着这个方向迈出的重要一步。

研究团队在论文中还提到,他们已经将相关代码和演示系统开放给学术界和开发者社区,希望更多的研究者能够基于这项工作进行进一步的创新。这种开放的态度也体现了现代AI研究的协作精神,通过分享和合作,加速整个领域的发展进程。

对于普通用户来说,STITCH技术的普及意味着我们即将迎来一个新的AI交互时代。不久的将来,当你向手机或智能音箱提出复杂问题时,你会发现它们的回答不仅更加准确,而且响应速度依然很快。这种技术进步最终会让AI助手从简单的工具变成真正的智能伙伴,能够陪伴我们思考、学习和解决问题。

Q&A

Q1:STITCH是什么?它和普通AI语音助手有什么区别? A:STITCH是微软开发的一种新型AI语音技术,让AI能够像人类一样边说话边思考。普通AI要么直接回答(可能不够准确),要么先想完再说(用户等待时间长)。而STITCH能在播放语音的同时进行推理思考,既保证了回答质量又不增加等待时间。

Q2:这项技术会让AI变得更聪明吗? A:是的,特别是在需要推理的任务上。实验显示,STITCH在数学题上的准确率比普通AI提高了近60%,而且响应速度没有变慢。它让AI能够展现思考过程,回答更加深思熟虑。

Q3:普通人什么时候能用上这种技术? A:目前STITCH还处于研究阶段,研究团队已经开放了技术资料和演示系统。虽然还没有商业化产品,但考虑到微软等大公司的推广能力,预计在不久的将来就会集成到实际的AI助手产品中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
划清界限!高云翔憔悴发声撇清张婉婷,不留情面,一句话暗含深意

划清界限!高云翔憔悴发声撇清张婉婷,不留情面,一句话暗含深意

阿握聊事
2026-04-24 00:23:37
芯片松绑4个月,中国一块也没买,中国不急美国急,形势反转了

芯片松绑4个月,中国一块也没买,中国不急美国急,形势反转了

王新喜
2026-04-23 20:37:56
车评人和媒体痛骂的特斯拉,3月销量第一

车评人和媒体痛骂的特斯拉,3月销量第一

难得君
2026-04-23 13:01:29
王大陆因涉黑讨债被判6个月,牵扯逃兵役伤人案,女友也一同获刑

王大陆因涉黑讨债被判6个月,牵扯逃兵役伤人案,女友也一同获刑

橙星文娱
2026-04-23 14:16:49
我在日本生活了15年,娶过三任妻子,日本女人大多数都很物质

我在日本生活了15年,娶过三任妻子,日本女人大多数都很物质

千秋文化
2026-04-22 20:21:49
首轮G2打完,这2支球队最有冠军相,火箭伪强队,3支球队基本出局

首轮G2打完,这2支球队最有冠军相,火箭伪强队,3支球队基本出局

毒舌NBA
2026-04-23 12:58:11
CBA季后赛又临时改赛制?球迷怒喷:若去年如此,广厦早被淘汰了

CBA季后赛又临时改赛制?球迷怒喷:若去年如此,广厦早被淘汰了

弄月公子
2026-04-23 19:29:40
华谊兄弟被申请强制清算

华谊兄弟被申请强制清算

红星新闻
2026-04-23 16:31:18
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
惯子如杀子!孩子这4种表现说明已经被惯坏了,再不改就来不及了

惯子如杀子!孩子这4种表现说明已经被惯坏了,再不改就来不及了

新东方家庭教育
2026-04-22 16:10:46
蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

趣文说娱
2026-04-23 19:52:36
破例接机!中方强势降临中东,伊朗导弹下饺子,美霸权迎来终局?

破例接机!中方强势降临中东,伊朗导弹下饺子,美霸权迎来终局?

未来展望
2026-04-23 18:24:29
美国女游客在印度民宿遭老板下药,员工趁机性侵,被限制求救3天

美国女游客在印度民宿遭老板下药,员工趁机性侵,被限制求救3天

小鱼爱鱼乐
2026-04-23 22:07:16
狂胜23分!成雷霆最惧怕的对手,2换1交易大赚,你们真的要冲冠

狂胜23分!成雷霆最惧怕的对手,2换1交易大赚,你们真的要冲冠

篮球扫地僧
2026-04-24 06:53:02
伊朗用血泪给中国换来了教训:最大的敌人,并不是美国和以色列

伊朗用血泪给中国换来了教训:最大的敌人,并不是美国和以色列

墨印斋
2026-04-23 15:42:00
张婉婷疑曾介入高云翔董璇婚姻,怀了对方的孩子,也太狗血了

张婉婷疑曾介入高云翔董璇婚姻,怀了对方的孩子,也太狗血了

话娱论影
2026-04-23 09:58:53
吃相越来越难看,终于引起公愤了!

吃相越来越难看,终于引起公愤了!

胖胖说他不胖
2026-04-23 09:00:33
余疯子把全新一代问界M9系列武装到牙齿 问界M9 28万辆开创28项第一

余疯子把全新一代问界M9系列武装到牙齿 问界M9 28万辆开创28项第一

Thurman在昆明
2026-04-23 21:40:01
行长束行农带着他的美女下属爆赚数千万

行长束行农带着他的美女下属爆赚数千万

资本董事局
2026-04-22 19:48:19
爱奇艺AI电影涉嫌抄袭漫威,LOGO忘了抠?网友:真是离谱!

爱奇艺AI电影涉嫌抄袭漫威,LOGO忘了抠?网友:真是离谱!

品牌新
2026-04-23 11:18:09
2026-04-24 07:35:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17960文章数 49700关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

特朗普:不急于结束与伊朗战争 可伊朗没时间了

头条要闻

特朗普:不急于结束与伊朗战争 可伊朗没时间了

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

普华永道赔偿10亿 恒大股东见到"回头钱"

汽车要闻

预售30.29万起 岚图泰山X8配896线激光雷达

态度原创

本地
亲子
数码
公开课
军事航空

本地新闻

SAGA GIRLS 2026女团选秀

亲子要闻

新华读报|打乒乓球有助提高儿童注意力

数码要闻

电脑彻底装不起了!CPU涨价20%起步:9700X涨幅逼近60%

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

人民海军成立77周年 主力舰艇亮相上海

无障碍浏览 进入关怀版