网易首页 > 网易号 > 正文 申请入驻

突发!微软与OpenAI同日开火:语音之战+通用大模型,AI霸权决战打响

0
分享至


新智元报道

编辑:艾伦 KingHZ

【新智元导读】微软紧跟OpenAI的节奏,在同一天也亲自下场发布了微软自研的两个大模型:语音模型MAI-Voice-1和通用模型MAI-1-preview。对于这位老大哥,亲自下场做的第一个AI大模型,效果究竟怎么样?

就在OpenAI发布最新的语音大模型之际,微软掏出了自研语音大模型!

微软AI掌门人、DeepMind联合创始人Mustafa Suleyman正式宣布:

微软AI正式推出MAI-Voice-1以及MAI-1-预览版!而且还有更多内容即将推出。


MAI-Voice-1语音模型效率极高:单GPU秒出1分钟音频!使用Copilot即可体验。

在Mustafa Suleyman看来,这是他用过表现力最丰富、最自然的语音生成模型。


而MAI-1预览版模型是微软AI首个端到端内部训练的自研基础模型。

这标志着在多年依赖OpenAI模型之后,微软AI部门正式与OpenAI及整个行业正面竞争,也意味着微软在AI竞赛中,开始掌握更多主动权。


在接受采访时,Suleyman 表示:「微软是世界上最大的公司之一。我们必须具备内部能力,来打造世界最强的模型。」


MAI-Voice-1,究竟能力如何

在微软官方给出的指标中,最能引起我们注意的,是「单卡<1秒,生成1分钟音频」。

这使其成为当前少见的极致低时延TTS/对话式语音生成系统之一。

除此之外,语音的自然和富有表现力也是重点,这覆盖到了单人叙述多说话人对话两种常见内容形态。

新闻播报、播客对谈、故事讲述、冥想/引导等,你能想到的,统统没问题。

你可以选择9种不同的语音:


也可以选择多达31种不同的情绪和播报场景:


你还可以让模型扮演一个激情四射的体育解说员,点燃你的情绪:


具体到落地上,我们可以通过Copilot Labs,在Copilot Daily中以AI主播播报要闻、在Copilot Podcasts生成播客式讨论,Copilot Labs 提供可玩Demo(可以自定义内容、叙述风格等)。

下面是两段该模型生成的语音Demo,你可以听听看,满分5分想给几分?是否还有AI味呢?欢迎在评论区留下您的测评意见。

微软与OpenAI难舍难分

长期以来,微软主要依靠OpenAI的人工智能模型,为核心产品提供AI功能。

OpenAI目前估值约5000亿美元,微软一家的投资就超过了130亿美元,而OpenAI也依赖微软的云基础设施来运行其模型。

但现在宣布:「未来几周,我们将在Copilot的部分文本任务中逐步推出MAI-1-preview,以便从用户反馈中学习和改进。」

目前,微软仍在Bing、Windows 11及其他产品中使用OpenAI的模型。

但双方的关系日渐恶化。


去年,微软在年度财报中正式将OpenAI列入竞争对手名单,之前多年来只包含亚马逊、苹果、谷歌和 Meta等科技巨头。

近几个月,OpenAI也转向CoreWeave、谷歌和甲骨文等其他云服务商,以满足激增的算力需求。

与OpenAI同期发布语音模型,意欲何为

就在昨天,OpenAI也发布了最新的语音生成大模型GPT-Realtime,整体嵌入在Realtime API中。

该模型在语音自然性、情感丰富度、低延迟响应上显著提升,能够在一句话之内实现语调、语言的无缝切换,还支持工具调用、指令跟随能力。

为什么微软选择在此时发布新模型?

此次发布虽然只有语音模型和预览版通用模型,但释放出的信号不容忽视。

其一,语音将成为AI助手的重要战场。

MAI‑Voice‑1的效率和表达力有望推动语音助手晋级的「数字伙伴」。

而富有情感和个性的数字伙伴,是Grok等模型时下开始发力的一个新突破点,潜力颇大。

其二,OpenAI不再是唯一选择。

大模型发展进入「百模大战」阶段,各巨头纷纷推出自研产品。

微软此举既是对OpenAI合作的补充,也为自己与OpenAI的重大商业谈判中增加了可观的筹码。

其三,MoE架构成大模型新趋势。

MAI‑1‑preview采用MoE架构,训练规模适中但更关注指令遵循和响应效率,能兼顾性能与成本。

随着LLM细分应用增多,多专家模型将成为重要方向。

其四,生态开放值得期待。

微软表示将在Copilot及第三方测试平台开放模型,鼓励开发者提供反馈。

在媒体采访中,Mustafa Suleyman表示:

人工智能不仅是科技的未来,更是未来几十年商业运行和价值创造的核心。

因此,研发最强的模型,不仅是技术追求,更是微软作为企业的战略必然。

我们必须拥有自己的核心能力。

在14个月前,他和团队从Inflection加入微软后,就一直全力推动这件事。

如今,微软终于发布了两款自研模型。


Suleyman强调,微软未来会继续使用OpenAI的模型,也会用开源模型,但关键在于编排器(orchestrator)。

这是一种模型调度系统,能够根据任务自动选择合适的模型来完成特定请求,类似「路由器」。


他认为,这种编排能力将成为微软的重要知识产权。

外界普遍猜测,微软推出自研模型,是否意味着与OpenAI的关系在降温?

对此,Suleyman回应道:

我们的目标是进一步加深与OpenAI的合作,并保持长期良好的伙伴关系。

双方的合作已经非常成功,未来我相信仍会继续下去。

微软如何自研大模型

这次微软AI透露:「MAI-1-preview是MoE模型,使用约1.5万张NVIDIA H100 GPU进行了预训练和后训练。


在LMArena文本任务榜单上,MAI-1排名第13,落后于DeepSeek、谷歌、OpenAI和xAI等主要AI玩家的模型。


相比之下,xAI的Grok模型则动用了超过10万张同类芯片。

微软AI只用相对小规模的集群,也能训练出非常强大的模型。

Suleyman认为自研的新模型表现远超其硬件规模,完全可以和世界上最强的模型媲美,而且现在才刚刚开始调优。

一旦模型投入实际应用并开始收集反馈,随着不断迭代,性能还会显著提升。

对微软AI来说,这仅仅是个开始。

微软AI算力充沛,已经在使用全球最大的数据中心之一,并配备了Nvidia下一代GB-200芯片,研发下一版本模型。

而且,他们有一个庞大的五年规划,并会持续投资算力。

规模很重要,但效率同样关键。

这意味着要精挑细选高质量的训练数据,确保每一次浮点运算、每一次GPU迭代都发挥最大价值。

现在训练模型的核心能力,已经越来越变成了一种「工艺」——选对数据,避免把算力浪费在无效的token上。

Suleyman 表示,公司利用了一些源自开源社区的技术,使得有限资源发挥了更大作用。

这是微软首次完整端到端训练的大模型。在研发过程中,团队也遇到了不少挑战。

Suleyman坦言:「构建这样规模的集群、训练如此庞大的数据,需要不断的调试、迭代和耐心。这是每一家实验室都会面临的难题。」


他对团队的表现非常满意:「我们从中学到了很多,也积累了足够的经验去打造更多优秀的模型。」

他把这比喻成「转动飞轮」:一旦模型研发进入正循环,每一代都会推动下一代更快成长。

之前,Suleyman在Inflection,甚至DeepMind都有相关经验,不过那时候算力规模较小,GPU还没有动辄十万张。

这次的首个模型训练成功,他认为关键在于文化:

优秀的文化吸引了优秀的人,是优秀的团队才能构建出优秀的模型。

而最终,这个团队的价值观,也会自然地被注入到模型和产品中。


Suleyman还透露他们已经在开发下一个模型了:规模更大,训练架构也做了一些新的调整。

现在一切都已经启动了,接下来几个月、几年里都会有很多值得期待的东西。

参考资料:

https://copilot.microsoft.com/labs/audio-expression

https://microsoft.ai/news/two-new-in-house-models/

https://x.com/mustafasuleyman/status/1961111770422186452


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
接触的人多了,你就发现:性格内向,说话少的人,办事都特别可靠

接触的人多了,你就发现:性格内向,说话少的人,办事都特别可靠

诗词中国
2026-01-12 19:51:40
张学良晚年吐真言:西安事变我只是名义上的,真正的主角是他!杨虎城后人上门,他为何闭口不谈?

张学良晚年吐真言:西安事变我只是名义上的,真正的主角是他!杨虎城后人上门,他为何闭口不谈?

历史回忆室
2025-12-16 14:26:14
86年我放走一个越南女兵,33年后我刚出越南机场就被一排军车接走

86年我放走一个越南女兵,33年后我刚出越南机场就被一排军车接走

萧竹轻语
2025-12-05 17:38:25
马斯克坦言,在中国,光靠微信就能把生活全管了,但它又不算垄断

马斯克坦言,在中国,光靠微信就能把生活全管了,但它又不算垄断

我心纵横天地间
2025-12-07 15:52:53
成都61岁男子将长约17cm红薯塞入肛门,卡住无法取出,红薯尺寸过大,最终手术取出

成都61岁男子将长约17cm红薯塞入肛门,卡住无法取出,红薯尺寸过大,最终手术取出

观威海
2026-01-10 16:54:03
古代犯人发配需要衙役押送,往返几千里路,衙役是不是也很遭罪?

古代犯人发配需要衙役押送,往返几千里路,衙役是不是也很遭罪?

掠影后有感
2026-01-10 13:57:42
“背叛”还是“害怕”?从拒绝雷军到被吉利收购,黄章被资本驱逐

“背叛”还是“害怕”?从拒绝雷军到被吉利收购,黄章被资本驱逐

一号位故事
2025-11-01 11:59:06
iOS 26.3 Beta 2已发布,苹果计划推送iOS 26.2.1系统更新

iOS 26.3 Beta 2已发布,苹果计划推送iOS 26.2.1系统更新

科技兽
2026-01-13 15:31:51
蒋介石的后人召开新闻发布会,正式提出将 “两蒋” 灵柩迁回故乡的诉求,会上的三句发言,引得世人无不唏嘘感慨

蒋介石的后人召开新闻发布会,正式提出将 “两蒋” 灵柩迁回故乡的诉求,会上的三句发言,引得世人无不唏嘘感慨

源溯历史
2026-01-12 23:12:10
泽连斯基:俄对乌发动大规模空袭

泽连斯基:俄对乌发动大规模空袭

第一财经资讯
2026-01-13 18:46:16
联合反华?石破茂喊话高市:无需道歉,美日防长要剥夺中国一强项

联合反华?石破茂喊话高市:无需道歉,美日防长要剥夺中国一强项

胥言
2026-01-13 18:30:00
1997 年深秋郭汝瑰车祸身故,三天后家中收台湾来信

1997 年深秋郭汝瑰车祸身故,三天后家中收台湾来信

唠叨说历史
2026-01-12 17:28:51
印度电动汽车制造计划陷停滞 没有一家车企参与

印度电动汽车制造计划陷停滞 没有一家车企参与

快科技
2026-01-13 18:36:04
中国工程院院士,任211党委书记

中国工程院院士,任211党委书记

EOL教育在线
2026-01-13 13:18:52
数千万波斯人,不伺候阿塞拜疆权贵了?伊朗今夜,就是百年前清末

数千万波斯人,不伺候阿塞拜疆权贵了?伊朗今夜,就是百年前清末

南宗历史
2026-01-10 16:15:24
很多东西正着不好用,一旦你将它反过来,就会打开新世界大门

很多东西正着不好用,一旦你将它反过来,就会打开新世界大门

新住家居
2025-12-21 18:09:16
厂二代的格局:收购可以,先拿2.4亿给员工发奖金,不然免谈!

厂二代的格局:收购可以,先拿2.4亿给员工发奖金,不然免谈!

流苏晚晴
2026-01-12 18:33:29
这才是格陵兰岛上的真正秘密!

这才是格陵兰岛上的真正秘密!

一个坏土豆
2026-01-11 19:45:41
中国残联党组成员兼体育部主任常征获任中国残联副理事长

中国残联党组成员兼体育部主任常征获任中国残联副理事长

澎湃新闻
2026-01-12 15:08:26
死了将近400年,依旧争议不休

死了将近400年,依旧争议不休

我是历史其实挺有趣
2025-12-16 10:57:14
2026-01-13 19:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14323文章数 66456关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

距中国加强管制不到一周 日本派船盯上6000米深海稀土

头条要闻

距中国加强管制不到一周 日本派船盯上6000米深海稀土

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

周杰伦以球员身份参加澳网,C位海报公开

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

数码
房产
亲子
本地
家居

数码要闻

机械革命潘春节CES 对话 AMD高层:锚定全球高性能 PC 核心玩家

房产要闻

又一新校开建!海口这一片区,迎来教育重磅升级!

亲子要闻

复旦儿科医联体体重管理联盟来了!将重点加强儿童超重肥胖危险因素的监测与评估

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

家居要闻

现代简逸 寻找生活的光

无障碍浏览 进入关怀版