网易首页 > 网易号 > 正文 申请入驻

微软发布三款高速图像语音AI模型

0
分享至


微软公司今日推出三款专为处理图像和音频优化的人工智能模型。

这些算法通过微软Foundry Azure服务提供,开发者可用其构建AI应用。同时,微软已开始在多个产品中部署这些模型。

MAI-Image-2图像生成突破

首个新算法MAI-Image-2能根据用户指令生成最高1024×1024像素的图像。每个提示最多可包含32,000个Token的文本内容。在技术底层,MAI-Image-2使用100亿至500亿个非嵌入参数将指令转换为图像。非嵌入参数是专注于内容生成而非初步数据准备任务的模型组件。

微软表示,MAI-Image-2的速度至少比上一代图像生成器快两倍。

MAI-Transcribe-1语音转录优势

今日发布的第二个新模型MAI-Transcribe-1同样带来显著的速度提升,语音转录速度比微软早期模型快2.5倍。

MAI-Transcribe-1的另一个卖点是准确性。微软在25种语言中测试了该模型的平均词错误率,这是衡量转录质量的指标。MAI-Transcribe-1的错误率为3.9%,超越了Gemini 3.1 Flash和OpenAI的GPT-Transcribe。该模型准确性的一个重要因素是包含了过滤环境噪音的功能。

发布时,MAI-Transcribe-1支持批量转录,意味着该模型只能处理预先准备的文件,如有声读物。微软表示,未来更新将增加实时音频流转录功能。公司还在开发所谓的说话人分离功能,可将转录文本按说话人分割成特定段落。

MAI-Voice-1语音合成创新

微软今日推出的第三个模型名为MAI-Voice-1。顾名思义,它专为根据用户提供的脚本生成合成语音而优化。客户可从内置AI语音中选择,或使用自己的声音。

微软表示,这三款模型相比竞争对手都提供有竞争力的价格。MAI-Image-2定价为每100万输入Token5美元,每100万输出Token33美元。MAI-Transcribe-1每小时转录语音成本0.36美元,而MAI-Voice-1起价为每100万字符22美元。

这些模型不仅通过微软Foundry提供,还可通过其他几个服务获得。微软目前正在将MAI-Image-2部署到Bing和PowerPoint,而MAI-Voice-1可在名为Copilot Audio Expressions的音频创建工具中使用。

为支持AI工作负载,微软开发了名为MAIA的定制AI芯片产品线。该系列的最新成员是专为推理优化的Maia 200,于1月下旬首次亮相。微软表示,这款三纳米芯片在多个基准测试中超越了竞争云服务提供商的定制AI芯片。

Q&A

Q1:MAI-Image-2图像生成模型有什么特点?

A:MAI-Image-2能根据用户指令生成最高1024×1024像素的图像,每个提示最多可包含32,000个Token的文本。使用100亿至500亿个非嵌入参数进行图像生成,速度至少比上一代图像生成器快两倍。

Q2:MAI-Transcribe-1语音转录准确率如何?

A:MAI-Transcribe-1在25种语言测试中平均词错误率仅为3.9%,超越了Gemini 3.1 Flash和OpenAI的GPT-Transcribe。转录速度比微软早期模型快2.5倍,并具备环境噪音过滤功能。

Q3:微软这三款AI模型的价格是多少?

A:MAI-Image-2定价为每100万输入Token5美元,输出Token33美元。MAI-Transcribe-1每小时转录成本0.36美元。MAI-Voice-1起价为每100万字符22美元。微软表示价格相比竞争对手具有竞争力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

蜉蝣说
2026-04-23 09:41:11
伊朗总统下令:恢复互联网至今年1月大规模断网前状态

伊朗总统下令:恢复互联网至今年1月大规模断网前状态

财联社
2026-05-26 03:10:07
狗交配时屁股为什么会连在一起?是母狗不让,还是公狗不想?

狗交配时屁股为什么会连在一起?是母狗不让,还是公狗不想?

宇宙时空
2026-05-25 12:57:36
三星前高管隔空送话:存储“超级周期”要终结?

三星前高管隔空送话:存储“超级周期”要终结?

蓝鲸新闻
2026-05-25 11:25:11
教育最大的乱象:不是教师不作为,而是家长越位、学生缺位

教育最大的乱象:不是教师不作为,而是家长越位、学生缺位

细说职场
2026-05-24 16:18:24
吉利全地形SUV“银河战舰700”实车曝光:大宽体看着就霸气

吉利全地形SUV“银河战舰700”实车曝光:大宽体看着就霸气

快科技
2026-05-25 16:24:13
人有两不去,去了家不旺:聪明的老人从来不去这两个地方

人有两不去,去了家不旺:聪明的老人从来不去这两个地方

心理观察局
2026-05-24 07:41:11
CBA重磅!首钢续约陈盈骏,主帅杨鸣确定签约,下家要浮出水面了

CBA重磅!首钢续约陈盈骏,主帅杨鸣确定签约,下家要浮出水面了

隐于山海
2026-05-25 15:18:54
2026AI最大黑马!不是大模型,真正硬菜是“堆叠”(先进封装)

2026AI最大黑马!不是大模型,真正硬菜是“堆叠”(先进封装)

Thurman在昆明
2026-05-24 10:53:40
曼联引援正式启动,转会巨头飞去完成首签!下步或8600万签托纳利

曼联引援正式启动,转会巨头飞去完成首签!下步或8600万签托纳利

罗米的曼联博客
2026-05-25 11:45:48
荷兰法庭裁决致闻泰科技巨亏89亿,股价11连跌实控人套现百亿

荷兰法庭裁决致闻泰科技巨亏89亿,股价11连跌实控人套现百亿

紧跟时代脉搏
2026-05-26 01:42:47
绝了!男老师搂着学生拍“小宝”视频,网友:这教资是不想要了吧

绝了!男老师搂着学生拍“小宝”视频,网友:这教资是不想要了吧

优墨出品
2026-05-24 10:48:35
1971年周总理敲定人事安排,毛主席驳回并将其调任教育部门

1971年周总理敲定人事安排,毛主席驳回并将其调任教育部门

唠叨说历史
2026-05-25 17:57:53
新华视点|山西通洲集团留神峪煤矿瓦斯爆炸三大疑问追踪

新华视点|山西通洲集团留神峪煤矿瓦斯爆炸三大疑问追踪

新华社
2026-05-26 01:07:04
做好准备硬扛30年,和日本当年一模一样,还清房贷经济才有起色

做好准备硬扛30年,和日本当年一模一样,还清房贷经济才有起色

阿离家居
2026-05-09 10:05:46
央视三胎宣传片惹争议,脱离现实强行把孕妇塑造成超人式幸福?

央视三胎宣传片惹争议,脱离现实强行把孕妇塑造成超人式幸福?

番外行
2026-05-24 09:14:38
重磅信号!国务院定调,老房子又迎大利好!家家户户都沾光

重磅信号!国务院定调,老房子又迎大利好!家家户户都沾光

专业聊房君
2026-05-25 07:23:03
暴涨22倍!科技第一股,即将引爆大A

暴涨22倍!科技第一股,即将引爆大A

新浪财经
2026-05-25 20:47:10
比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

白宸侃片
2026-05-19 11:56:50
梅根·凯利怒怼特朗普:他每任妻子都出轨过

梅根·凯利怒怼特朗普:他每任妻子都出轨过

生活观察员啊
2026-05-26 01:21:36
2026-05-26 05:52:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
18746文章数 49707关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

手机
教育
本地
艺术
公开课

手机要闻

iQOO 16再次被确认,规格信息都已清晰,REDMI能招架住吗?

教育要闻

同伴太重要!一个大学宿舍的四名女生,考研全部上岸985

本地新闻

用云锦的方式,打开江苏南京

艺术要闻

张大千最克制的十年温柔

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版