网易首页 > 网易号 > 正文 申请入驻

微软、谷歌同日发布新AI模型:语音、图像与本地开源能力齐上阵

0
分享至

微软与谷歌周四同步发布新一代AI模型,进一步加码多模态能力布局。微软推出自研MAI系列基础模型,覆盖语音转写、语音生成和图像生成,并加速融入自家产品体系;谷歌则发布Gemma 4开源模型,主打本地运行和多模态能力,并将许可切换至更开放的Apache 2.0协议。

微软:三款MAI模型覆盖语音与图像能力

微软推出的“世界级”自研MAI模型,一共包括三款。

首先是MAI-Transcribe-1,这是一款“最先进”的语音转文本模型,该模型在全部25种语言上均优于OpenAI的Whisper-large-v3,在25种中有22种优于Google的Gemini 3.1 Flash,在15种语言上优于ElevenLabs的Scribe v2和OpenAI的GPT-Transcribe。MAI-Transcribe-1的起步价格为每小时0.36美元。

该模型采用基于Transformer的文本解码器和双向音频编码器,支持MP3、WAV和FLAC格式,最大文件200MB。微软表示,其批量转写速度是Azure Fast现有方案的2.5倍。说话人分离、上下文偏置和流式处理功能将“很快推出”。目前,该模型已在Copilot语音模式和Microsoft Teams中测试,用于对话转写,这也显示出微软正快速用自研模型替代外部或旧有方案。

其次是MAI-Voice-1,这是一款新的语音生成模型,只需1秒即可生成60秒的音频,并在长文本中保持说话人一致性,用户只需几秒音频即可创建自定义声音。同时,它还支持在Microsoft Foundry中通过短音频样本创建定制语音。MAI-Voice-1的起步价格为每100万个字符22美元。

最后是MAI-Image-2,这是一款更快的文生图模型,目前已经开始在Copilot中上线,接下来将陆续应用于Bing和PowerPoint。MAI-Image-2的价格为文本输入每100万个词元(Token)收费5美元,图像输出每100万个词元收费33美元。

如今,这三款模型已全部在Microsoft Foundry上线,其中语音转写和语音生成模型也可在MAI Playground中使用。这些模型由微软的MAI超级智能团队开发,该团队由Microsoft AI首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)领导,于2025年11月成立并对外公布。

微软表示:

“我们正在快速部署这些顶级模型,用于支持自家的消费者和商业产品。很快你将会在Foundry以及微软各类产品和体验中看到更多模型。”
微软加速摆脱依赖:自研模型体系逐步成型

媒体分析称,这一发布表明,尽管微软仍与OpenAI保持紧密合作,但公司正持续推进构建自有多模态AI模型体系,并与其他AI研究机构展开竞争。

这些模型的推出,与微软与OpenAI之间的一次关键合同调整密切相关。在2025年10月之前,微软在合同上被限制,无法独立推进通用人工智能的研发。2019年的原始协议规定,微软以提供云基础设施为交换,获得OpenAI模型的授权。但当OpenAI开始与软银等其他合作伙伴扩大算力合作时,微软重新谈判了协议。

苏莱曼在2025年12月接受采访时表示:“直到几周前,微软在合同上是不被允许独立推进AGI或超级智能的。”新协议使微软可以自主开发前沿模型,同时仍保留到2032年的OpenAI模型授权。

不过,苏莱曼在周四接受媒体采访时重申,微软仍将继续与OpenAI保持合作关系。但他也向媒体表示,近期对双方合作关系的重新谈判,使微软能够真正推进其超级智能研究。

“与OpenAI的合作没有改变,我们至少会合作到2032年,甚至更久。他们是非常优秀的合作伙伴。”

同时,微软也通过Foundry提供Anthropic Claude模型,将自身定位为“平台中的平台”。但其战略意图很清晰:微软正在打造独立能力。

微软已向OpenAI投资超过130亿美元,并通过一项多年期合作,将其模型部署在自家多款产品中。微软在芯片领域也采取类似策略:既自主研发,也同时采购外部供应商的产品。

分析称,这一发布时点对微软而言颇为关键。公司股价刚经历自2008年金融危机以来最差的一个季度,投资者正越来越迫切地要求看到,数千亿美元的AI基础设施投入如何转化为实际收入。这些模型——定价激进,同时有助于降低微软自身成本——成为苏莱曼对此压力的首次回应。

从竞争格局看,这次发布让微软在多个方向同时发力。MAI-Transcribe-1直接挑战OpenAI Whisper在开源社区的地位,也对Google Gemini形成压力;MAI-Voice-1则对标ElevenLabs等语音AI公司;加上Foundry统一API入口,形成强大的分发优势。

苏莱曼表示:

“我们现在是仅次于OpenAI和Gemini的前三实验室。”
“我们要做到所有云厂商里最便宜,包括亚马逊和谷歌,这是有意识的决定。”
谷歌:Gemma 4开源模型强化本地AI与开发者生态

谷歌推出的Gemma 4开源模型采用Apache 2.0许可,而不再使用此前自定义的Gemma许可协议。谷歌表示,这些模型具备高级推理能力、代理式工作流、代码生成,以及视觉和音频生成能力,并提供四种不同版本,针对本地运行进行了优化,甚至可以运行在“数十亿台安卓设备”上。

谷歌表示:

“Gemma 4基于与Gemini 3相同的世界级研究和技术,是目前你可以在本地硬件上运行的能力最强的一系列模型。它们与我们的Gemini模型形成互补,为开发者提供业内最强大的开源与专有工具组合。”
“这种开源许可为开发者提供了完整的灵活性和数字主权基础,让你可以完全掌控数据、基础设施和模型。你可以在任何环境中自由构建并安全部署,无论是在本地还是云端。”
四种版本:从手机到GPU全覆盖

四种不同版本主要区别在于参数规模。针对边缘设备(包括智能手机),公司推出了20亿和40亿参数的“Effective”模型,更注重多模态能力和低延迟处理,适用于移动设备和物联网设备。针对更强大的设备,则提供了260亿参数的“Mixture of Experts”(专家混合)模型,以及310亿参数的“Dense”(稠密)模型,旨在运行于消费级GPU上,可用于驱动IDE、编程助手以及代理式工作流。这些模型还支持完全离线运行。


谷歌表示,在Gemma 4上实现了“前所未有的单位参数智能水平”。为佐证这一说法,公司指出,Gemma 4中310亿和260亿参数版本在Arena AI文本排行榜上分别位列第三和第六,击败了规模是其20倍的模型。


所有这些模型都可以处理视频和图像,因此非常适合用于光学字符识别等任务。较小的两个模型还支持处理音频输入并理解语音。此外,谷歌表示,Gemma 4系列支持离线代码生成,这意味着用户可以在没有互联网连接的情况下进行编程(例如进行“vibe coding”)。这些模型还支持超过140种语言。

谷歌的Gemma 4开源模型可以在多个平台下载,包括Hugging Face、Kaggle和Ollama。谷歌强调:

“这些模型在基础设施安全方面,遵循与我们专有模型相同的严格安全协议。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
夫妻只要一人有2000退休金,晚年就是顶级幸福!看懂的都是明白人

夫妻只要一人有2000退休金,晚年就是顶级幸福!看懂的都是明白人

娱乐洞察点点
2026-06-03 06:37:59
演员魏宗万去世,6月5日举行告别会,女儿:去世前他一直在看《三国演义》《水浒传》

演员魏宗万去世,6月5日举行告别会,女儿:去世前他一直在看《三国演义》《水浒传》

可爱小菜
2026-06-03 00:02:04
英国博主坐中国高铁连发十条推特破防:你们管时速三百五叫慢车?

英国博主坐中国高铁连发十条推特破防:你们管时速三百五叫慢车?

李子橱
2026-05-23 11:35:10
刘若英与老公儿子庆57岁生日,戴老花镜许愿,获儿子亲吻一脸幸福

刘若英与老公儿子庆57岁生日,戴老花镜许愿,获儿子亲吻一脸幸福

草莓解说体育
2026-06-03 13:45:42
全线失守!克里米亚制空权被乌军强势夺走了

全线失守!克里米亚制空权被乌军强势夺走了

知兵
2026-06-02 08:00:16
阿隆索疯了!切尔西要回购自家水货,当年 6000 万买来被扫地出门

阿隆索疯了!切尔西要回购自家水货,当年 6000 万买来被扫地出门

奶盖熊本熊
2026-06-03 05:08:29
40多国离场,中方拒裁决,菲防长离境前留下可笑言论

40多国离场,中方拒裁决,菲防长离境前留下可笑言论

旧窗老街
2026-06-02 10:48:55
原来她是梁安琪妈妈,80多岁身体棒,母女二人长得像,个子都不高

原来她是梁安琪妈妈,80多岁身体棒,母女二人长得像,个子都不高

揽星河的笔记
2026-06-02 14:23:57
美军司令做梦想不到:没等解放军收复台湾,南天门计划有重大进展

美军司令做梦想不到:没等解放军收复台湾,南天门计划有重大进展

悦心知足
2026-06-03 05:51:15
62年政治局召开会议,陶铸要求发言,毛主席:你是不是又要做检讨

62年政治局召开会议,陶铸要求发言,毛主席:你是不是又要做检讨

微野谈写作
2026-06-03 08:50:10
浙江广厦老板与名宿意见一致,球迷支持是球队最强后盾

浙江广厦老板与名宿意见一致,球迷支持是球队最强后盾

张辱卤说体育
2026-06-03 12:57:10
李连杰携家人拜见仁波切,64岁利智罕露面,全家向大师鞠躬很虔诚

李连杰携家人拜见仁波切,64岁利智罕露面,全家向大师鞠躬很虔诚

可乐谈情感
2026-06-03 13:23:34
中国闹了个乌龙:沙漠种麦本为保粮仓,谁料金黄麦浪竟成治沙神器

中国闹了个乌龙:沙漠种麦本为保粮仓,谁料金黄麦浪竟成治沙神器

今夜繁星坠落
2026-05-30 03:00:36
深入跟拍6年,记录12位“站街女”吸毒生活,真实的令人发指

深入跟拍6年,记录12位“站街女”吸毒生活,真实的令人发指

深夜探案馆
2026-06-02 02:58:48
上世纪著名的五大香烟品牌,现今仅剩两款,不认识还自称老烟民?

上世纪著名的五大香烟品牌,现今仅剩两款,不认识还自称老烟民?

南书房
2026-06-02 20:45:03
肯豆与《亢奋》男星日本约会曝光,同款黑T超甜

肯豆与《亢奋》男星日本约会曝光,同款黑T超甜

追星雷达站
2026-06-03 00:54:39
凯恩:世界杯夺冠就能冲金球奖了

凯恩:世界杯夺冠就能冲金球奖了

体育硬核说
2026-06-03 00:31:26
朱丽倩:携亿万身家嫁刘德华,46岁高龄产子,如今现状曝光,她幸福吗

朱丽倩:携亿万身家嫁刘德华,46岁高龄产子,如今现状曝光,她幸福吗

林轻吟
2026-06-03 07:17:07
“榴莲仅退款”商家受死亡威胁!女孩哥哥扬言要灭门,已刑事立案

“榴莲仅退款”商家受死亡威胁!女孩哥哥扬言要灭门,已刑事立案

风月得自难寻
2026-05-30 21:04:17
四十位相声演员证明,相声演员参演影视剧,就是降维打击

四十位相声演员证明,相声演员参演影视剧,就是降维打击

我就是个码字的
2026-06-03 07:30:03
2026-06-03 14:24:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
147046文章数 2653776关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

瑞虎8 PLUS/PRO非凡冠军上市 限时10.19万元起售

态度原创

房产
游戏
亲子
数码
公开课

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

X战警在《漫威金刚狼》里不存在!失眠组官方回应

亲子要闻

孩子长高选什么赖氨酸好?2026推荐度高的氨基丁品牌测评,科学激活发育潜能

数码要闻

中国专属旗舰!七彩虹RTX 5090D v2 30周年纪念版首曝:全新设计

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版