微软把AI拆成3个大脑干活，Claude专门负责挑刺|谷歌|工作流|电子表格|知名企业|claude|copilot

微软把AI拆成3个大脑干活，Claude专门负责挑刺

2026-03-31 09:28:46　来源: 全栈遛狗员

北京举报

分享至

微软给Copilot Researcher塞了第二个脑子。不是替换，是分工——GPT写初稿，Claude专门审阅准确性、完整性和质量。内部测试显示，这种双模型协作比单一系统得分高出13.8%。

这个数字放在AI军备竞赛里不算炸裂，但指向一个被忽视的事实：大厂们正在放弃"一个模型打天下"的执念。微软AI工作业务首席营销官Jared Spataro把这称为"从单提示到端到端任务执行"的迁移。翻译成人话：以前你问AI一个问题，它硬着头皮答；现在它会自己拆任务、找帮手、过质检。

Researcher的流水线：生成、挑刺、再生成

具体怎么分工？Spataro的原话是：「GPT模型负责生成初始响应，Claude介入审查准确性、完整性和质量。」

这套机制被微软内部叫作Claude-based Critique功能。名字很技术，逻辑很产品经理——让擅长创造的模型去创造，让擅长分析的模型去分析。Claude在Anthropic的对外宣传里一直强调"安全"和"有用"的平衡，这次被拉来当质检员，算是专业对口。

Researcher agent本身不是新东西。它是M365 Copilot里专门处理复杂研究任务的模块，能跨文档、跨会议记录、跨邮件做信息整合。但这次升级的核心不是功能增加，是架构重构：从"一个大脑"变成"多个大脑接力"。

Spataro的表述很克制：「Copilot Cowork将AI的实用性从单一、基础的提示，转移到端到端任务执行。」他没说的是，这种架构一旦跑通，微软手里握着的就不只是OpenAI一家模型的API调用权，而是可以按需调度不同厂商的"特长员工"。

Cowork先行：人类 delegating 工作的实验场

Researcher的双模型方案之前，微软已经放出了另一个信号：Copilot Cowork。

这个产品和Anthropic的Claude Cowork直接挂钩，目前只在Frontier计划里开放，大规模铺开还要等。但它的定位很清楚——让人类把工作委派给AI，而不是盯着AI写每一个字。

Cowork的演示场景通常是长周期、多步骤的任务：比如"帮我准备下周的行业峰会演讲，先搜集竞品动态，再整理成PPT大纲，最后生成讲稿初稿"。传统AI对话里，你得一步步喂提示词；Cowork的思路是，你把目标扔给它，它自己拆子任务、调度工具、定期汇报进度。

Researcher的Claude质检环节，本质上也是这种"委派"逻辑的缩小版——GPT把初稿生成任务做完，自动转交Claude做质检任务。两个agent之间不需要人类插嘴。

Spataro把这称为「长周期、多步骤工作流的理想形态」。理想在哪？在于人类从"操作员"变成"监工"。不是每个企业都买账这种角色转换，但微软显然在赌：2026年的知识工作，默认设置就是人机协作。

多模型架构：从备选方案变成默认方案

13.8%的质量提升，值得拆成两个层面看。

技术层面，这是"集成学习"思路在LLM（大语言模型）时代的变体。传统机器学习里，把多个弱模型组合起来往往比单模型强；现在微软证明，把多个强模型按环节拆分，也能1+1>1。Claude的"批判性"被单独抽出来当模块用，而不是让GPT既要生成又要自我审查——后者容易陷入"刚写完就觉得自己写得不错"的认知盲区。

商业层面，这是微软在OpenAI之外给自己留的后路。M365 Copilot的底层长期绑定GPT系列，但Claude Cowork的接入、Researcher的双模型设计，都在释放同一个信号：微软的AI栈是模型中立的。哪天GPT-5跳票，或者Anthropic放出更激进的版本，微软的切换成本比纯绑定的竞争对手低得多。

Spataro没提这层算计，但他的行动很诚实。Researcher的升级公告里，Claude被放在和GPT并列的位置介绍，没有"备选"或"补充"的暗示。这种平起平坐的措辞，在两年前的微软AI宣传里几乎不可能出现。

信任问题：为什么需要专门一个模型来挑刺

回到那个13.8%的数字。提升不算惊人，但微软选择把它写进新闻稿，说明这背后有产品叙事要推。

叙事的核心是"信任"。AI生成的内容被诟病最多的不是能力，是可靠性——幻觉、事实错误、逻辑漏洞，企业用户不敢直接拿来用。Researcher加Claude质检，相当于在输出端加了一道人工审核的自动化替代。Spataro的原话是：「当智能和信任同步推进，AI就不再是实验，而成为完成工作的方式。」

这句话放在标题里很公关，但拆解一下有信息量。"智能和信任同步推进"意味着微软承认，过去两年AI产品的卖点过度偏向"智能"，现在要把"信任"补回来。Claude的角色不是让输出更聪明，是让输出更可被验证。

这对企业采购决策很重要。CIO（首席信息官）批预算的时候，"我们能降低幻觉率"比"我们能生成更流畅的文本"更有说服力。微软的竞品——Google Workspace的Duet、Salesforce的Einstein——都在打类似的信任牌，Researcher的双模型设计是微软的回应。

但信任能量化吗？13.8%是内部测试分数，测试集和真实企业场景的差距有多大，微软没细说。Spataro提到"早期测试"，没提样本量、行业分布、任务类型。这些缺失让数字的含金量打了折扣，但不妨碍它成为销售话术里的锚定点。

更实际的考验是用户体验。双模型协作意味着更长的响应延迟——GPT生成完要等Claude审完，用户是看到"审核中"的进度条，还是直接拿到终稿？微软没公布交互细节。如果流程透明度过低，用户不知道AI在"思考"还是"卡了"；如果透明度过高，又会暴露机器协作的机械感，破坏"智能助手"的幻觉。

这个平衡很难拿捏。Copilot Cowork的Frontier测试反馈，可能是微软调整Researcher交互设计的参考。但目前两者是并行推进的产品线，数据是否互通，Spataro没提。

Researcher的升级时间表也很模糊。"计划升级"意味着功能还没全量推送，Claude-based Critique的具体上线日期未公布。微软的AI产品节奏一向是"先宣布、后落地"，企业和个人用户的实际体验落差，过去两年没少被吐槽。

但架构层面的转向已经明确。多模型协作从"技术演示"变成"产品默认"，这个趋势不只微软在跟。Anthropic推Cowork、Google在Gemini里实验模型路由、OpenAI自己也在测试o系列和GPT系列的混合调用——2025年的AI产品竞争，主战场从"我的模型比你大"转向"我的模型组合比你会分工"。

Spataro的结语很克制，没喊口号：「AI正在从实验变成完成工作的方式。」

这句话的潜台词是：实验阶段可以容忍单模型的全能幻觉，但工作场景必须接受"没有完美模型"的现实，转而追求"不完美但可组合"的系统。Researcher的13.8%提升，是这种务实路线的早期数据点。它不够性感，但可能是AI真正嵌入企业流程的必要代价——不是更聪明的AI，是更让人敢用的AI。

Copilot Cowork在Frontier计划里的企业反馈，会决定这种"敢用"能否规模化。微软没公布首批测试企业的行业分布，但Researcher的质检功能显然是为金融、法律、医疗这类"错不起"的场景设计的。这些行业的采购周期以年为单位，13.8%的数字能不能撑过尽职调查，才是真正的考验。

如果Claude的质检环节被证明有效，下一个问题自然浮现：企业是否愿意为"第二大脑"支付额外成本？微软目前的M365 Copilot定价已经因AI功能大幅上涨，双模型架构意味着更高的API调用开销。这笔账怎么算，Spataro没谈。但产品架构的转向已经锁死——多模型不是可选项，是必选项。

当AI从"回答你的问题"变成"完成你的任务"，人类的工作定义会发生什么变化？Copilot Cowork的命名已经给出暗示：不是助手（Assistant），是同事（Cowork）。这个称谓升级是营销话术，还是组织变革的前奏，可能取决于13.8%的质量提升能否在真实工作流里被感知到。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.