网易首页 > 网易号 > 正文 申请入驻

拒绝蒸馏!微软发布自研MAI-Thinking-1追平Claude Opus 4.6:完全从零训练,不沾任何第三方模型输出

0
分享至


整理 | 华卫

“我们现在已经基本追平了几个月前的最先进水平。”在 Build 大会前夕,微软 AI 执行副总裁兼 CEO Mustafa Suleyman 在采访中表示。

昨日,微软在 Build 大会上发布了一系列自研的 AI 模型。这标志着微软在模型研发上的一次重要推进,去年该公司才推出了首批自研模型,在此之前微软还主要依赖 OpenAI 的模型。甚至有一些观察人士,将本次大会称为微软的“AI 独立日”。

同时,Suleyman 也登台说明了公司在 AI 发展上的思考。他强调,微软的 AI 工作始终致力于支持人类员工和用户,而非取代他们,微软希望打造的是一种被称为“人本主义超级智能(humanist superintelligence)”的体系。

整体来看,这次 Build 大会的核心信号非常明确:微软正在从“AI 应用整合者”,转向“全栈 AI 基础设施与模型提供者”。

1 完全从零开始训练,微软推出首个高级推理模型

微软新模型家族的核心是 MAI-Thinking-1,这是微软首个高级推理模型。

据介绍,MAI-Thinking-1 是一款“中等规模模型”,拥有 350 亿活跃参数和 128K 上下文窗口,总参数规模约 1 万亿,在效率与性能之间取得平衡,同时强调低 token 成本。微软开发者市场负责人兼 GitHub 首席运营官 Kyle Daigle 在主题演讲前的媒体沟通会上表示,“MAI-Thinking-1 的设计目标,是擅长处理复杂的多步骤指令、长上下文推理以及代码生成。”

在过去一年中,推理模型这一类别主要由 OpenAI 的 o 系列、Google 的 Gemini 推理版本,以及 Anthropic 的 Claude 扩展思考模式所主导,另有开源权重阵营的 DeepSeek R1 在 2025 年初一度撼动了这一格局。

MAI-Thinking-1 是微软在这一赛道的新入局产品。在关键的软件工程基准测试中,它可以对标行业领先模型;在 SWE Bench Pro 编程基准上,其表现与 Claude Opus 4.6 持平。同时,该模型展现出先进的数学推理能力;MAI-Thinking-1 在 AIME 2025 中达到 97.0%,在 AIME 2026 中达到 94.5%。在微软进行的盲测人工对比评估中,用户对它的偏好甚至超过了 Anthropic 的 Claude Sonnet 4.6。


目前,微软尚未披露具体的训练方法,例如是否采用了“可验证奖励强化学习”(类似 OpenAI o1 的技术路径)、过程奖励建模或其他方案。但他们明确了一点“否定信息”:模型的训练数据中不包含任何其他已训练 AI 系统的概率分布或输出序列。

微软强调,MAI-Thinking-1 完全从零开始训练,使用的是企业级、干净且具备合规商业授权的数据,并且在预训练阶段排除了 AI 生成内容,也没有使用来自第三方模型的蒸馏数据,这迫使“模型真正学会任务本身”。

而这一“独立训练”的主张,或成为 MAI-Thinking-1 面向企业客户的差异化卖点。对于那些需要“干净知识产权来源”的企业来说,这一点甚至比模型能力本身更关键。对初创公司或非监管场景的开发者而言,这种差异可能显得抽象。但对部署在医疗、金融、国防或任何需要合规采购与数据治理的场景中的 AI 来说,这很可能会变成采购流程中的一个“必选勾选项”。

2 MAI 模型家族:一个多模态生态系统

微软还发布了另外六款 MAI 系列模型,覆盖图像生成、语音转写、语音合成和编程等方向。

其中,MAI-Code-1-Flash 是一款推理效率极高的智能体编程模型,专为并深度集成于 GitHub Copilot、Visual Studio Code 以及微软整体技术栈而打造。其参数规模为 50 亿(5B),性能可对标 Haiku,但成本更低。

MAI-Image-2.5(包括其超高效的 Flash 版本)同时支持世界级的文生图与图像编辑能力,其 Arena 评分已超过 Nano Banana Pro。MAI Transcribe-1.5 是当前全球最强的语音转录模型之一,达到 SOTA(最先进水平)准确率。它的速度是同类模型的 5 倍,并内置支持 43 种语言的领域专有术语。MAI-Voice-2 提供覆盖 15 种语言的高质量、自然语音生成能力,并支持通过短语音样本进行声音适配,同时具备完善的滥用防护机制。其更高性价比版本 MAI-Voice-2-Flash 也即将推出。

未来,这些模型都将统一接入 Foundry 以及一个新的专用环境 MAI Playground。除了在 Azure AI Foundry 上分发并针对微软一方产品(1P)优化之外,这些模型还将面向开发者广泛开放,并支持在更多平台上使用。首次,开发者将可以对模型权重进行自定义调优。

值得一提的是,所有这些模型都建立在同一个基础之上:从零开始“向上爬升”(hill-climbing),不依赖任何蒸馏方法,共享一致的数据规范、训练基础设施和评估体系。

3 “升级版 OpenClaw”来了:首日用就能被信任?

2026 年初,OpenClaw 席卷 AI 圈。现在,微软推出了 Scout,这是一款基于 OpenClaw 框架构建的 AI 智能体,可以全天候自主运行,在 Microsoft 365 应用之间独立完成任务。据介绍,Scout 可以连接 Teams、Outlook、OneDrive 和 SharePoint 等应用,并访问聊天、邮件、日历和联系人数据。用户可通过 Teams 调用它,它还可以与用户的浏览器交互,并通过模型上下文协议(MCP)连接外部应用。该工具可在云端、桌面端和网页端运行。

“该智能体会在后台持续运行,理解你的各类应用和系统中工作的运作方式,并在不需要每次提示的情况下主动采取行动。”微软企业副总裁 Omar Shahine 在一篇博客中表示,这类智能体会以用户的身份执行操作,并拥有受治理的 Entra 身份。作为微软资深员工,Shahine 近期还宣布将领导一个新团队,把基于 OpenClaw 的个人助手引入 Microsoft 365 应用。

Shahine 表示,Scout 可以减少办公人员面对的重复性任务,例如与同事协调和安排会议时间,或根据即将到来的工作安排自动在日历中预留时间。“它还可以发现风险,例如决策停滞,从而让你在问题演变成阻碍之前及时处理。”

值得注意的是,由于明显存在安全漏洞,OpenClaw 一度受到审查,但微软承诺 Scout 具备“企业级安全与控制能力,从第一天起就可以在组织中被信任使用”。微软还表示,将向开源 OpenClaw 项目进行上游贡献。

目前,Scout 以“实验性版本”的形式向其 Frontier 项目客户开放,并需要通过 Intune 策略配置以及“主动选择确认(opt-in attestation)”。定价方面,微软暂未公布更多细节,尚不清楚 Scout 是否会包含在 Microsoft 365 Copilot 订阅中,还是作为单独产品收费。

尽管微软大力推进 AI,其仍在努力说服企业客户相信 Microsoft 365 Copilot 的附加费用是值得的。该产品面向大型企业定价为每位用户每月 30 美元。今年 1 月,微软表示约有 3% 的 Microsoft 365 客户为该附加订阅付费,总计约 1500 万付费用户。上月,微软宣布该数字已增长至 2000 万。Scout 是微软在 Microsoft 365 中推出的一系列智能体工具中的最新一项,这些工具还包括 Agent Mode(用户可在 Word、Excel 等应用中与 Microsoft 365 Copilot 交互生成内容)以及 Copilot Cowork(微软版的 Anthropic Claude Cowork 智能体,可独立完成任务)。

https://microsoft.ai/news/microsoft-build-2026-mai-keynote-transcript/

https://www.semafor.com/article/06/02/2026/microsofts-ai-chief-on-the-greatest-game-of-catchup-ever-played

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

企业级 Agent 落地,绕不开 4 个真实的工程问题。如何在 Agent 安全性和可用性之间找到平衡点?Agent 需要什么样的记忆系统才能真正理解上下文?如何通过算法压榨实现智力增量与成本控制的极致平衡?多 Agent 协作,如何做到可观测、可治理、可控制?6 月 26-27 日,AICon 全球人工智能开发与应用大会·上海站国内头部公司的 Agent 实践,一次说透。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《歌手2026》帮唱嘉宾官宣,阵容被骂是闹剧!谁输谁赢一目了然

《歌手2026》帮唱嘉宾官宣,阵容被骂是闹剧!谁输谁赢一目了然

娱乐圈笔娱君
2026-06-03 14:06:04
就在昨夜!这组炸裂的美国就业市场数据 令华尔街大吃一惊

就在昨夜!这组炸裂的美国就业市场数据 令华尔街大吃一惊

财联社
2026-06-03 08:42:13
法网最新赛程:中国金花生死战,或创大满贯新纪录,冲117万奖金

法网最新赛程:中国金花生死战,或创大满贯新纪录,冲117万奖金

刘姚尧的文字城堡
2026-06-03 09:19:58
直到伊朗下令轰炸美空军基地,全世界才惊觉,中国有句话说得很对

直到伊朗下令轰炸美空军基地,全世界才惊觉,中国有句话说得很对

锅锅爱历史
2026-05-31 16:08:36
“真是物以类聚!”3个女孩无视高考日期晒美照,网友绷不住了

“真是物以类聚!”3个女孩无视高考日期晒美照,网友绷不住了

蝴蝶花雨话教育
2026-06-01 00:05:07
“你儿子肝脏不要了?”男孩中药配晚餐,吃到干呕家长却无动于衷

“你儿子肝脏不要了?”男孩中药配晚餐,吃到干呕家长却无动于衷

妍妍教育日记
2026-05-29 07:20:09
王楚钦上任仅24小时,丑闻频发引争议

王楚钦上任仅24小时,丑闻频发引争议

萧狡科普解说
2026-06-03 13:03:31
一场迁葬,让波兰盯住泽连斯基不放……

一场迁葬,让波兰盯住泽连斯基不放……

新民周刊
2026-06-03 09:07:05
伊朗最高领袖穆杰塔巴罕见照片曝光:就任86天从未公开露面,每逢关键节点必发声

伊朗最高领袖穆杰塔巴罕见照片曝光:就任86天从未公开露面,每逢关键节点必发声

财闻
2026-06-02 14:34:58
马斯克搞了个全语言自动翻译,X上的全球网友乱成了一锅粥

马斯克搞了个全语言自动翻译,X上的全球网友乱成了一锅粥

BB姬
2026-06-02 22:35:44
特斯拉推出史诗级新功能,实在太绝了!

特斯拉推出史诗级新功能,实在太绝了!

XCiOS俱乐部
2026-06-03 18:27:36
老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

千秋文化
2026-05-29 19:56:40
2850万美金+1772万美金+716万美金,雷霆队要不起了

2850万美金+1772万美金+716万美金,雷霆队要不起了

世界体育圈
2026-06-03 11:16:54
“宇宙第一大所”,现金流告急?

“宇宙第一大所”,现金流告急?

中国新闻周刊
2026-06-03 13:19:00
多数逆袭的人,并不是解决了社会问题而是利用了问题

多数逆袭的人,并不是解决了社会问题而是利用了问题

记忆承载
2026-06-02 14:38:48
四川特大串标案曝光!涉案 110 亿,22 人获刑

四川特大串标案曝光!涉案 110 亿,22 人获刑

奇思妙想生活家
2026-06-03 17:41:10
美媒预测:中国若继续突破量子科技,将在27年引起新一轮科技革命

美媒预测:中国若继续突破量子科技,将在27年引起新一轮科技革命

商业财经风向
2026-06-03 11:41:48
AI,开始偷懒了?

AI,开始偷懒了?

中新经纬
2026-06-03 14:15:44
伤病猛于虎!10大巨星无缘世界杯,巴西3人缺席,荷兰真核伤退

伤病猛于虎!10大巨星无缘世界杯,巴西3人缺席,荷兰真核伤退

奥拜尔
2026-06-03 13:19:25
总决赛前瞻:尼克斯1.7亿首发猛如虎,但马刺的两大优势太明显

总决赛前瞻:尼克斯1.7亿首发猛如虎,但马刺的两大优势太明显

毒舌NBA
2026-06-03 18:16:09
2026-06-03 19:07:00
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12475文章数 51918关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

网友花120万在直播间买原石 警方:30人拼单29个是托

头条要闻

网友花120万在直播间买原石 警方:30人拼单29个是托

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

旅游
房产
教育
艺术
时尚

旅游要闻

文旅新探|寻味隆福寺

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

教育要闻

【草原英雄征途】锡林郭勒·少年那达慕成长营

艺术要闻

二十年前割麦的场景

休闲T恤舒适感极佳,夏天必不可少!轻轻松松拿捏日常的造型

无障碍浏览 进入关怀版