网易首页 > 网易号 > 正文 申请入驻

微软把AI拆成3个大脑干活,Claude专门负责挑刺

0
分享至


微软给Copilot Researcher塞了第二个脑子。不是替换,是分工——GPT写初稿,Claude专门审阅准确性、完整性和质量。内部测试显示,这种双模型协作比单一系统得分高出13.8%。

这个数字放在AI军备竞赛里不算炸裂,但指向一个被忽视的事实:大厂们正在放弃"一个模型打天下"的执念。微软AI工作业务首席营销官Jared Spataro把这称为"从单提示到端到端任务执行"的迁移。翻译成人话:以前你问AI一个问题,它硬着头皮答;现在它会自己拆任务、找帮手、过质检。

Researcher的流水线:生成、挑刺、再生成

具体怎么分工?Spataro的原话是:「GPT模型负责生成初始响应,Claude介入审查准确性、完整性和质量。」

这套机制被微软内部叫作Claude-based Critique功能。名字很技术,逻辑很产品经理——让擅长创造的模型去创造,让擅长分析的模型去分析。Claude在Anthropic的对外宣传里一直强调"安全"和"有用"的平衡,这次被拉来当质检员,算是专业对口。

Researcher agent本身不是新东西。它是M365 Copilot里专门处理复杂研究任务的模块,能跨文档、跨会议记录、跨邮件做信息整合。但这次升级的核心不是功能增加,是架构重构:从"一个大脑"变成"多个大脑接力"

Spataro的表述很克制:「Copilot Cowork将AI的实用性从单一、基础的提示,转移到端到端任务执行。」他没说的是,这种架构一旦跑通,微软手里握着的就不只是OpenAI一家模型的API调用权,而是可以按需调度不同厂商的"特长员工"。

Cowork先行:人类 delegating 工作的实验场

Researcher的双模型方案之前,微软已经放出了另一个信号:Copilot Cowork。

这个产品和Anthropic的Claude Cowork直接挂钩,目前只在Frontier计划里开放,大规模铺开还要等。但它的定位很清楚——让人类把工作委派给AI,而不是盯着AI写每一个字。

Cowork的演示场景通常是长周期、多步骤的任务:比如"帮我准备下周的行业峰会演讲,先搜集竞品动态,再整理成PPT大纲,最后生成讲稿初稿"。传统AI对话里,你得一步步喂提示词;Cowork的思路是,你把目标扔给它,它自己拆子任务、调度工具、定期汇报进度。


Researcher的Claude质检环节,本质上也是这种"委派"逻辑的缩小版——GPT把初稿生成任务做完,自动转交Claude做质检任务。两个agent之间不需要人类插嘴。

Spataro把这称为「长周期、多步骤工作流的理想形态」。理想在哪?在于人类从"操作员"变成"监工"。不是每个企业都买账这种角色转换,但微软显然在赌:2026年的知识工作,默认设置就是人机协作。

多模型架构:从备选方案变成默认方案

13.8%的质量提升,值得拆成两个层面看。

技术层面,这是"集成学习"思路在LLM(大语言模型)时代的变体。传统机器学习里,把多个弱模型组合起来往往比单模型强;现在微软证明,把多个强模型按环节拆分,也能1+1>1。Claude的"批判性"被单独抽出来当模块用,而不是让GPT既要生成又要自我审查——后者容易陷入"刚写完就觉得自己写得不错"的认知盲区。

商业层面,这是微软在OpenAI之外给自己留的后路。M365 Copilot的底层长期绑定GPT系列,但Claude Cowork的接入、Researcher的双模型设计,都在释放同一个信号:微软的AI栈是模型中立的。哪天GPT-5跳票,或者Anthropic放出更激进的版本,微软的切换成本比纯绑定的竞争对手低得多。

Spataro没提这层算计,但他的行动很诚实。Researcher的升级公告里,Claude被放在和GPT并列的位置介绍,没有"备选"或"补充"的暗示。这种平起平坐的措辞,在两年前的微软AI宣传里几乎不可能出现。

信任问题:为什么需要专门一个模型来挑刺

回到那个13.8%的数字。提升不算惊人,但微软选择把它写进新闻稿,说明这背后有产品叙事要推。

叙事的核心是"信任"。AI生成的内容被诟病最多的不是能力,是可靠性——幻觉、事实错误、逻辑漏洞,企业用户不敢直接拿来用。Researcher加Claude质检,相当于在输出端加了一道人工审核的自动化替代。Spataro的原话是:「当智能和信任同步推进,AI就不再是实验,而成为完成工作的方式。」

这句话放在标题里很公关,但拆解一下有信息量。"智能和信任同步推进"意味着微软承认,过去两年AI产品的卖点过度偏向"智能",现在要把"信任"补回来。Claude的角色不是让输出更聪明,是让输出更可被验证


这对企业采购决策很重要。CIO(首席信息官)批预算的时候,"我们能降低幻觉率"比"我们能生成更流畅的文本"更有说服力。微软的竞品——Google Workspace的Duet、Salesforce的Einstein——都在打类似的信任牌,Researcher的双模型设计是微软的回应。

但信任能量化吗?13.8%是内部测试分数,测试集和真实企业场景的差距有多大,微软没细说。Spataro提到"早期测试",没提样本量、行业分布、任务类型。这些缺失让数字的含金量打了折扣,但不妨碍它成为销售话术里的锚定点。

更实际的考验是用户体验。双模型协作意味着更长的响应延迟——GPT生成完要等Claude审完,用户是看到"审核中"的进度条,还是直接拿到终稿?微软没公布交互细节。如果流程透明度过低,用户不知道AI在"思考"还是"卡了";如果透明度过高,又会暴露机器协作的机械感,破坏"智能助手"的幻觉。

这个平衡很难拿捏。Copilot Cowork的Frontier测试反馈,可能是微软调整Researcher交互设计的参考。但目前两者是并行推进的产品线,数据是否互通,Spataro没提。

Researcher的升级时间表也很模糊。"计划升级"意味着功能还没全量推送,Claude-based Critique的具体上线日期未公布。微软的AI产品节奏一向是"先宣布、后落地",企业和个人用户的实际体验落差,过去两年没少被吐槽。

但架构层面的转向已经明确。多模型协作从"技术演示"变成"产品默认",这个趋势不只微软在跟。Anthropic推Cowork、Google在Gemini里实验模型路由、OpenAI自己也在测试o系列和GPT系列的混合调用——2025年的AI产品竞争,主战场从"我的模型比你大"转向"我的模型组合比你会分工"

Spataro的结语很克制,没喊口号:「AI正在从实验变成完成工作的方式。」

这句话的潜台词是:实验阶段可以容忍单模型的全能幻觉,但工作场景必须接受"没有完美模型"的现实,转而追求"不完美但可组合"的系统。Researcher的13.8%提升,是这种务实路线的早期数据点。它不够性感,但可能是AI真正嵌入企业流程的必要代价——不是更聪明的AI,是更让人敢用的AI

Copilot Cowork在Frontier计划里的企业反馈,会决定这种"敢用"能否规模化。微软没公布首批测试企业的行业分布,但Researcher的质检功能显然是为金融、法律、医疗这类"错不起"的场景设计的。这些行业的采购周期以年为单位,13.8%的数字能不能撑过尽职调查,才是真正的考验。

如果Claude的质检环节被证明有效,下一个问题自然浮现:企业是否愿意为"第二大脑"支付额外成本?微软目前的M365 Copilot定价已经因AI功能大幅上涨,双模型架构意味着更高的API调用开销。这笔账怎么算,Spataro没谈。但产品架构的转向已经锁死——多模型不是可选项,是必选项

当AI从"回答你的问题"变成"完成你的任务",人类的工作定义会发生什么变化?Copilot Cowork的命名已经给出暗示:不是助手(Assistant),是同事(Cowork)。这个称谓升级是营销话术,还是组织变革的前奏,可能取决于13.8%的质量提升能否在真实工作流里被感知到。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太炸裂!日本一对小学老师校内“激战”十几次,尺度大到令人窒息...网友的评论亮了

太炸裂!日本一对小学老师校内“激战”十几次,尺度大到令人窒息...网友的评论亮了

今日日本
2026-04-01 14:49:49
欧佩克+消息人士:欧佩克+很可能在周日的会议上考虑再次上调石油产量配额

欧佩克+消息人士:欧佩克+很可能在周日的会议上考虑再次上调石油产量配额

中国能源网
2026-04-02 21:53:02
台湾地区,长期阻碍中国统一就是马英九。这个人非常之狡猾!

台湾地区,长期阻碍中国统一就是马英九。这个人非常之狡猾!

安安说
2026-03-28 11:40:47
4月2日俄乌:特朗普又放“狠话”,俄军损失突破130万

4月2日俄乌:特朗普又放“狠话”,俄军损失突破130万

山河路口
2026-04-02 17:16:01
浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

阿器谈史
2026-04-02 13:31:44
胡塞称再与伊朗及真主党联手袭以

胡塞称再与伊朗及真主党联手袭以

财联社
2026-04-03 03:00:08
香港演员施明去世,终年74岁,曾出演《倚天屠龙记》紫衫龙王,精通武术曾做史泰龙保镖

香港演员施明去世,终年74岁,曾出演《倚天屠龙记》紫衫龙王,精通武术曾做史泰龙保镖

大象新闻
2026-03-31 14:49:05
澳门世界杯:4月3日赛程发布!王楚钦战小布,温瑞博斗林昀儒!

澳门世界杯:4月3日赛程发布!王楚钦战小布,温瑞博斗林昀儒!

阿错田间生活
2026-04-03 00:26:42
官宣!欧洲正式上线史上最严出入境系统!华人游客最受影响!

官宣!欧洲正式上线史上最严出入境系统!华人游客最受影响!

维城
2026-04-02 18:56:57
CBA积分榜最新排名!上海基本锁定常规赛冠军,黑马掀翻卫冕冠军

CBA积分榜最新排名!上海基本锁定常规赛冠军,黑马掀翻卫冕冠军

老叶评球
2026-04-02 22:41:42
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
川普:大战才刚刚开始

川普:大战才刚刚开始

西楼饮月
2026-04-02 23:29:39
退休人员也要缴费了!4月起执行,每月扣多少、谁能免,一次说清

退休人员也要缴费了!4月起执行,每月扣多少、谁能免,一次说清

阅微札记
2026-04-02 22:22:41
马克龙就算跑到日本,也该知道丁丁的朋友是上海画家张充仁,而不是铃木秀生!

马克龙就算跑到日本,也该知道丁丁的朋友是上海画家张充仁,而不是铃木秀生!

新民周刊
2026-04-02 09:11:44
美伊还没停火,又一国要迎战美军,中国无视警告,先一步送上援助

美伊还没停火,又一国要迎战美军,中国无视警告,先一步送上援助

兴史兴谈
2026-04-02 23:32:30
拿600万,三分5中1,昔日广厦二当家本赛季结束或被扫地出门?

拿600万,三分5中1,昔日广厦二当家本赛季结束或被扫地出门?

弄月公子
2026-04-02 22:47:47
诚狗封影帝!合作女同事全体出席!

诚狗封影帝!合作女同事全体出席!

贵圈真乱
2026-04-02 12:35:00
恭喜!特步小公主官宣当妈,细节被扒隐藏的真好,家中灶具太朴实

恭喜!特步小公主官宣当妈,细节被扒隐藏的真好,家中灶具太朴实

裕丰娱间说
2026-04-02 21:51:03
张雪回应陈光标赠1300万元的劳斯莱斯:那我收了,顺便招募二手车商上门8折收车,把钱捐赠给嫣然天使,"我们就委屈点,还用面包车接客户"

张雪回应陈光标赠1300万元的劳斯莱斯:那我收了,顺便招募二手车商上门8折收车,把钱捐赠给嫣然天使,"我们就委屈点,还用面包车接客户"

大风新闻
2026-04-02 11:25:35
7天时间已过,日本拒绝道歉,中方发起反制,禁止高市幕僚入境

7天时间已过,日本拒绝道歉,中方发起反制,禁止高市幕僚入境

书纪文谭
2026-04-01 19:28:04
2026-04-03 04:15:00
全栈遛狗员
全栈遛狗员
白天跟需求对线,晚上在小区遛狗。
717文章数 31关注度
往期回顾 全部

科技要闻

三年亏20亿,最新估值58亿,Xreal冲刺港股

头条要闻

北京89岁奶奶困屋内从27层翻窗下爬 爬到21层吓坏邻居

头条要闻

北京89岁奶奶困屋内从27层翻窗下爬 爬到21层吓坏邻居

体育要闻

邵佳一的改革,从让每个人踢舒服开始

娱乐要闻

《浪姐》人气榜出炉!曾沛慈断层第一

财经要闻

市场被特朗普一句话打醒 滞胀交易回归

汽车要闻

轴距2米7/后排能跷腿 试驾后驱小车QQ3 EV

态度原创

游戏
房产
艺术
数码
公开课

上线9周年后,《PUBG》新地图把“大逃杀”老本行扔了?

房产要闻

巨无霸来了!海口城更,突然又爆大动作!

艺术要闻

全球第6高的废弃建筑!泰国“幽灵塔”,鬼都绕着走?

数码要闻

跨界者大疆:不折腾才是扫地机的终极形态

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版