微软最新突破：AI语音助手终于学会边思考边说话了！|推理|数学|人机交互|知名企业|stitch|语音助手功能

分享至

这项由微软亚洲研究院和台湾大学联合完成的研究发表于2025年7月，研究团队包括蒋程瀚、王小飞、李林杰等多位学者。这一开创性成果通过论文《STITCH: 同步思考与对话的分块推理语音模型》向学界公开，感兴趣的读者可以通过论文编号arXiv:2507.15375获取完整研究资料，项目演示页面可访问https://d223302.github.io/STITCH。

人类在对话时有一个很自然的能力：我们可以一边说话，一边在脑海里思考接下来要说什么。比如你在解数学题的时候，嘴里可能在说"首先我们需要计算这个值"，但大脑已经在琢磨后面几步的计算过程了。然而，现有的AI语音助手却做不到这一点——它们要么像背书一样直接回答，要么需要先完整地"想"完整个答案再开口说话，这就像一个人必须把整篇演讲稿在心里默念完才能开始讲话一样。

微软研究团队注意到了这个问题。现在的语音大模型虽然能够听懂人话并用语音回答，但它们缺少人类那种内在的思考过程。当你问它一个复杂的数学题时，它往往会立即给出答案，没有展现出推理和思考的过程。更糟糕的是，如果让AI先进行完整的思考再回答，用户就得等很长时间才能听到回应，这在实际对话中是不可接受的。

为了解决这个问题，研究团队开发了一个叫做STITCH的新系统，这个名字代表"同步思考与对话的分块推理"。这个系统的巧妙之处在于，它利用了一个简单但重要的时间差：当AI生成一小段语音并播放给用户听的时候，播放这段音频需要的时间（比如2秒）远比AI生成对应文字内容的时间（可能只需要0.5秒）要长得多。那么剩下的1.5秒时间里，AI能做什么呢？STITCH的答案是：思考！

这就像一个经验丰富的播音员，当他在播报第一条新闻的时候，眼睛已经在浏览第二条新闻的内容，脑子里在组织第三条新闻的语言。STITCH让AI学会了类似的多线程处理能力。

一、让AI学会分段思考

STITCH系统的核心创新在于将AI的思考过程切分成小块，就像把一个大蛋糕切成许多小片一样。传统的AI要么完全不思考就回答，要么必须把整个思考过程完成后才开始说话。而STITCH采用了第三种方式：思考一小段、说一小段、再思考一小段、再说一小段。

为了更好地理解这个过程，可以把它想象成一个厨师在直播做菜。传统的AI就像一个厨师要么不准备就开始做菜（结果可能一团糟），要么把所有准备工作都做完才开始直播（观众等得不耐烦）。而STITCH就像一个聪明的厨师，一边做菜一边介绍，同时脑子里还在想接下来的步骤。

具体来说，当用户提出一个数学问题时，STITCH会先进行一小段推理（比如100个思考步骤），然后说出一小段回答，在播放这段回答的过程中，它又开始下一轮的推理。这样循环下去，直到完整地回答了用户的问题。

研究团队设计了两个版本的STITCH。第一个版本叫STITCH-R（R代表推理优先），它会先思考一小段再开口说话，所以第一次响应会有一点延迟。第二个版本叫STITCH-S（S代表说话优先），它会立即开始回答，然后在说话的过程中进行思考，这样就完全没有额外的延迟了。

二、技术实现的巧思

要让这个系统工作起来，研究团队需要解决几个技术挑战。首先是如何训练AI学会这种"边说边想"的能力。他们采用了一个很聪明的方法：把原本完整的推理过程打碎，然后重新组合成交替的形式。

比如原本的训练数据可能是这样的：完整推理过程 + 完整回答。现在他们把它改造成：推理片段1 + 回答片段1 + 推理片段2 + 回答片段2 + 推理片段3 + 回答片段3...

这就像把一本书的章节重新排列：原来是"思考篇"全部写完再写"行动篇"，现在改成"思考1 + 行动1 + 思考2 + 行动2..."的形式。AI通过学习这种新的模式，掌握了在说话和思考之间切换的能力。

为了确保系统的时间同步，研究团队还精确计算了各种时间参数。他们发现，在A100-80G这样的GPU上，AI每秒能够生成大约80个词汇单元。而播放26个语音单元（大约对应13个文字词汇）需要约2秒时间。这意味着在播放语音的2秒内，AI可以生成160个词汇单元，减去必需的39个词汇单元用于下一段话的准备，还剩余121个词汇单元的"思考时间"。研究团队保守地将每次思考设定为100个词汇单元，确保系统的稳定运行。

三、实验验证与效果评估

为了验证STITCH的效果，研究团队进行了大量实验。他们使用了多种数学推理数据集，包括AddSub、MultiArith、SinglEq、SVAMP和GSM8K，这些都是评估AI数学能力的标准测试。结果显示，STITCH在数学推理任务上的表现显著超越了不进行推理的基准模型。

在最具挑战性的GSM8K数学题目中，STITCH-S的准确率达到了56.72%，而不进行推理的基准模型只有35.73%，提升幅度接近60%。这个结果特别令人鼓舞，因为STITCH-S的响应延迟与基准模型完全相同，也就是说，在不增加任何等待时间的情况下，获得了显著的性能提升。

更有趣的是，研究团队还测试了STITCH在非数学任务上的表现，比如知识问答和日常对话。结果发现，即使在不需要复杂推理的任务上，STITCH的表现也与基准模型相当，并没有因为增加了推理过程而变差。这说明这种"边想边说"的能力不会干扰AI在简单任务上的表现。

研究团队还进行了一个有趣的实验：测试STITCH能否在推理过程中调整思考的"深度"。他们发现，可以在不重新训练模型的情况下，调整每次思考的词汇数量（从60到100个词汇单元）。当思考时间减少时，性能会有所下降，但仍然比完全不思考的模型要好很多。这种灵活性对实际应用很有价值，因为不同的硬件条件可能需要不同的配置。

四、质量评估与用户体验

除了客观的准确率测试，研究团队还评估了STITCH生成语音的质量。他们使用了UTMOSv2这个专门评估语音质量的工具，发现STITCH生成的语音在感知质量上与基准模型没有差别，都维持在3分以上的良好水平（满分5分）。同时，通过GPT-4o评估文本的流畅度，STITCH的表现也很理想，说明这种"切块"的思考和表达方式并没有影响语言的自然度。

从用户体验的角度来看，STITCH带来了质的提升。以往用户向AI提问复杂问题时，要么得到一个快速但可能错误的答案，要么需要等待很长时间才能得到经过深思熟虑的回答。STITCH找到了这两者之间的平衡点：用户几乎不需要额外等待，就能获得经过推理的、更加准确的答案。

五、技术细节与创新突破

STITCH的训练过程采用了GLM-4-Voice-9B作为基础模型，这是一个已经具备语音理解和生成能力的大型AI系统。研究团队在此基础上增加了推理能力，使用了大约40万个训练样本，涵盖了日常对话、数学推理和知识问答三类任务。

在具体的实现中，系统使用了特殊的标记符号来区分不同类型的内容。推理内容被[SOPR]（开始部分推理）和[EOPR]（结束部分推理）标记包围，当整个推理完成时会出现[EOR]（结束推理）标记。这些标记就像交通信号灯一样，告诉AI什么时候应该思考，什么时候应该说话。

研究团队还探索了使用外部模型来辅助推理的可能性。他们发现，可以用其他专门的推理模型（如GPT-4、Llama系列模型）来生成推理内容，然后让STITCH基于这些推理来组织回答。这种方式在某些情况下能进一步提升回答的质量，特别是当推理辅助模型比STITCH本身更强大时。

六、实际应用场景与意义

STITCH的突破性意义不仅仅在于技术本身，更在于它为AI助手的实际应用开辟了新的可能性。在教育场景中，一个能够展现推理过程的AI老师可以更好地帮助学生理解问题的解决思路。学生不仅能得到正确答案，还能观察到AI是如何一步步分析和推理的，这对培养学生的思维能力很有价值。

在客户服务领域，STITCH技术能够让AI客服在处理复杂问题时表现得更像人类专家。当客户提出一个涉及多个环节的问题时，AI可以一边分析情况一边与客户沟通，而不是让客户干等或给出草率的回答。

对于需要实时交互的应用场景，比如智能汽车的语音助手或家庭智能设备，STITCH技术能够在不影响响应速度的前提下提供更可靠的服务。司机在驾驶过程中询问复杂的导航或计算问题时，能够快速得到经过推理的准确回答，而不会影响行车安全。

七、局限性与未来发展

虽然STITCH取得了显著进展，但研究团队也坦诚地指出了当前系统的局限性。首先，系统的推理能力仍然受到基础模型能力的限制。虽然STITCH改进了推理的组织方式，但如果基础模型本身在某个领域的知识有限，STITCH也无法创造出不存在的知识。

其次，当前的实现主要针对数学推理等相对结构化的问题。对于更加开放性的创意任务或情感理解任务，STITCH的优势可能没有那么明显。这是因为这些任务的推理过程往往更加灵活和非线性，不太适合分块处理。

在技术层面，STITCH对硬件性能有一定要求。虽然研究团队已经优化了时间配置，但在性能较低的设备上，可能需要进一步调整推理块的大小，这可能会影响推理的深度和准确性。

未来的发展方向包括几个方面。研究团队正在探索如何让STITCH适应更多类型的任务，特别是那些需要创造性思维的任务。他们也在研究如何动态调整推理的深度，根据问题的复杂程度自动决定需要多少思考时间。

另一个有趣的发展方向是多模态推理。目前STITCH主要处理语音和文字，未来可能扩展到图像、视频等其他模态，让AI能够在处理多媒体内容时也展现出类似的同步思考能力。

八、对AI发展的启示

STITCH的成功揭示了AI系统设计中一个重要的原则：模仿人类认知过程的自然节奏往往能带来更好的用户体验。人类的思维本身就是多线程的——我们可以一边说话一边思考，一边听别人说话一边准备自己的回应。AI系统如果能够捕捉到这种自然的认知流程，就能提供更加流畅和智能的交互体验。

这项研究也说明了在AI系统优化中，时间维度的重要性经常被忽视。很多AI研究专注于提高模型的准确性或减少计算量，但较少考虑如何优化时间的使用效率。STITCH通过巧妙地利用语音播放的时间间隙，在不增加总体延迟的情况下显著提升了系统性能，这种"时间套利"的思路值得在其他AI应用中借鉴。

从更广泛的角度来看，STITCH代表了AI系统从"单步处理"向"流水线处理"的演进。就像现代工厂的生产线一样，不同的处理步骤可以同时进行，而不必等待前一个步骤完全结束。这种并行化的思维方式可能会成为未来AI系统设计的重要范式。

归根结底，STITCH的价值不仅在于技术创新，更在于它让AI助手变得更像一个真正的对话伙伴。当AI能够展现出思考的过程，能够在交流中体现出智慧的深度，人机交互就会变得更加自然和富有意义。虽然我们还没有达到科幻电影中那种完美的AI伙伴，但STITCH无疑是朝着这个方向迈出的重要一步。

研究团队在论文中还提到，他们已经将相关代码和演示系统开放给学术界和开发者社区，希望更多的研究者能够基于这项工作进行进一步的创新。这种开放的态度也体现了现代AI研究的协作精神，通过分享和合作，加速整个领域的发展进程。

对于普通用户来说，STITCH技术的普及意味着我们即将迎来一个新的AI交互时代。不久的将来，当你向手机或智能音箱提出复杂问题时，你会发现它们的回答不仅更加准确，而且响应速度依然很快。这种技术进步最终会让AI助手从简单的工具变成真正的智能伙伴，能够陪伴我们思考、学习和解决问题。

Q&A

Q1：STITCH是什么？它和普通AI语音助手有什么区别？ A：STITCH是微软开发的一种新型AI语音技术，让AI能够像人类一样边说话边思考。普通AI要么直接回答（可能不够准确），要么先想完再说（用户等待时间长）。而STITCH能在播放语音的同时进行推理思考，既保证了回答质量又不增加等待时间。

Q2：这项技术会让AI变得更聪明吗？ A：是的，特别是在需要推理的任务上。实验显示，STITCH在数学题上的准确率比普通AI提高了近60%，而且响应速度没有变慢。它让AI能够展现思考过程，回答更加深思熟虑。

Q3：普通人什么时候能用上这种技术？ A：目前STITCH还处于研究阶段，研究团队已经开放了技术资料和演示系统。虽然还没有商业化产品，但考虑到微软等大公司的推广能力，预计在不久的将来就会集成到实际的AI助手产品中。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.