网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

0
分享至

就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。

新产品的核心亮点概述如下

gpt-4o-transcribe (语音转文本):单词错误率(WER)显著降低,在多个基准测试中优于现有 Whisper 模型

gpt-4o-mini-transcribe (语音转文本):gpt-4o-transcribe 的精简版本,速度更快、效率更高

gpt-4o-mini-tts (文本转语音):首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」

据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。


因此,gpt-4o-transcribe 更适用于处理口音多样、环境嘈杂、语速变化等挑战场景,比如客户呼叫中心、会议记录转录等领域。

gpt-4o-mini-transcribe 则基于 GPT-4o-mini 架构,通过知识蒸馏技术从大模型转移能力,虽然 WER(越低越好)稍高于完整版模型,但仍旧优于原有 Whisper 模型,更适合资源有限但仍需高质量语音识别的应用场景。

这两款模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper v2 和 v3 模型,尤其在英语、西班牙语等多种语言上表现突出。



向左滑动查看更多内容

定价方面,GPT-4o-transcribe 与之前的 Whisper 模型价格相同, 每分钟 0.006 美元,而 GPT-4o-mini-transcribe 则是前者的一半, 每分钟 0.003 美元。

与此同时,OpenAI 还发布了新的 gpt-4o-mini-tts 文本转语音模型。首次让开发者不仅能指定「说什么」,还能控制「如何说」。

具体而言,开发者可以预设多种语音风格,如「平静」、「冲浪者」、「专业的」、「中世纪骑士」等,它还能根据指令调整语音风格,如「像富有同情心的客服 Agent 一样说话」,定价亲民, 仅为每分钟 0.015 美元。


安全不能马虎,OpenAI 表示,gpt-4o-mini-tts 将接受持续监控,以保证其输出与预设的合成风格保持一致。

这些技术进步的背后源于 OpenAI 的多项创新:

新音频模型建立在 GPT-4o 和 GPT-4o-mini 架构之上,采用真实音频数据集进行预训练

应用 self-play 方法创建的蒸馏数据集的知识蒸馏方法,实现从大模型到小模型的知识转移

在语音转文本技术中融入强化学习(RL),显著提升转录精度并减少「幻觉」现象。

在凌晨的直播中,OpenAI 向我们展示了一款 AI 时尚顾问 Agent 的应用案例。

当用户询问「我最近的订单是什么?」时,系统流畅回应:用户于 2 月 9 日订购的 Patagonia 短裤已发货,并在后续提问中准确提供了订单号「A.D. 507」。


值得一提的是,OpenAI 演示人员还介绍了两种构建语音 Agent 技术路径,第一种「语音到语音模型」采用端到端的直接处理方式。

系统可直接接收用户语音输入并生成语音回复,无需中间转换步骤。这种方式处理速度更快,已在 ChatGPT 的高级语音模式和实时 API 服务中得到应用,非常适合对响应速度要求极高的场景。


第二种「链式方法」则是本次发布会的重点。

它将整个处理流程分解为三个独立环节:首先使用语音转文本模型将用户语音转为文字,然后由大型语言模型(LLM)处理这些文本内容并生成回应文本,最后通过文本转语音模型将回应转为自然语音输出。

这种方法的优势在于模块化设计,各组件可独立优化;处理结果更稳定,因为文本处理技术通常比直接音频处理更成熟;同时开发门槛更低,开发者可基于现有文本系统快速添加语音功能。

OpenAI 还为这些语音交互系统提供了多项增强功能:

支持语音流式处理,实现连续音频输入和输出

内置噪音消除功能,提升语音清晰度。

语义语音活动检测,能够识别用户何时完成发言

提供追踪 UI 工具,方便开发者调试语音代理

目前,这些全新音频模型已向全球开发者开放。


你还可以在 http://OpenAI.fm 上体验并制作 gpt-4o-mini-tts 的相关音频,这个演示网站可谓是功能齐全,左下角是官方的预设模板,主要包括人设、语气、方言、发音等设置。


我们也实测了一段八百标兵奔北坡的绕口令,emmm,中文效果马马虎虎。

至于英文效果,听它念着诗歌,倒是挺有真人那味了,但无论是与此前走红的 Hume AI 亦或者 Sesame 相比,「肉耳可听」地还差点火候。

此外,OpenAI 推出了与 Agents SDK 的集成,进一步简化开发流程。

值得一提的是,OpenAI 还举办了一个广播比赛。用户可以在 http://OpenAI.fm 制作音频,接着使用 OpenAI.fm 上的「分享」按钮生成链接,然后在 X 平台分享。

最具创意的前三名将各获一台限量版 Teenage Engineering OB-4。音频时长建议控制在 30 秒左右,可在语音、表达、发音或剧本语调变化上尽情发挥创意。


实际上,今年 AI 的风向也在悄然发生变化,除了依旧强调智商,还多出一股趋势,强调情感。

GPT-4.5、Grok 3 的卖点是情商,写作更有创意,回应更个性化,而冷冰冰的机器人(智元机器人),也强调更拟人,主打一个情绪价值。


由于直接触及人类最本能的沟通方式,语音领域在这方面的发力则更加显著。

最近在硅谷走红的 Sesame AI 能够实时感知用户情绪,并生成情感共鸣的回应,迅速俘获了一大批用户的心。图灵奖得主 Yann Lecun 最近也在强调,未来的 AI 需要拥有情感。

而无论是 OpenAI 今天发布的全新语音模型、还是即将发布的 Meta Llama 4 都有意往原生语音对话靠拢,试图通过更自然的情感交互拉近与用户的距离,靠「人味」圈粉。

AI 需要有人味吗?长期以来,聊天机器人通常被定义为没有情感的工具,它们也会在对话中提醒你只是一个没有灵魂的模型。然而,我们却往往能从中解读出情绪价值,甚至不自觉地与之建立情感联结。

或许人类天生渴望被理解、被陪伴,哪怕这种理解来自一台机器。

我们正在招募伙伴

简历投递邮箱
hr@ifanr.com

✉️ 邮件标题
「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西班牙王后访问中国,美得国色天香,雍容华贵,引发全网热议

西班牙王后访问中国,美得国色天香,雍容华贵,引发全网热议

魔都姐姐杂谈
2025-11-14 06:59:23
研究警告:越来越多家庭因吃它中毒!冰箱里这类肉别超3个月!

研究警告:越来越多家庭因吃它中毒!冰箱里这类肉别超3个月!

全球军事记
2026-02-28 10:12:38
伊朗外交部最新声明:伊朗武装部队将对侵略者作出果断回应

伊朗外交部最新声明:伊朗武装部队将对侵略者作出果断回应

环球网资讯
2026-02-28 19:04:06
监狱里会发劳动报酬吗?一网友称老公2月收入83元,坐牢3年多了…

监狱里会发劳动报酬吗?一网友称老公2月收入83元,坐牢3年多了…

林子说事
2026-03-02 00:17:59
别嫌远、别嫌偏!十年后浙江宁波这 4 个地方,你高攀不起!

别嫌远、别嫌偏!十年后浙江宁波这 4 个地方,你高攀不起!

糖逗在娱乐
2026-03-02 00:56:25
哈梅内伊刚死,美媒一语惊人: 看来对中国来说,伊朗并没那么重要

哈梅内伊刚死,美媒一语惊人: 看来对中国来说,伊朗并没那么重要

肖兹探秘说
2026-03-01 14:45:20
伊朗反击,不设红线!以色列怎么也没想到,自己才是最大冤大头

伊朗反击,不设红线!以色列怎么也没想到,自己才是最大冤大头

肖兹探秘说
2026-03-01 23:30:08
一种戴久了可能致癌的首饰,很多人家里都有!

一种戴久了可能致癌的首饰,很多人家里都有!

距离距离
2026-02-26 13:18:17
石油基金LOF:将于3月2日开市起至当日10:30停牌

石油基金LOF:将于3月2日开市起至当日10:30停牌

界面新闻
2026-03-01 18:27:23
哈梅内伊四位亲属据称在袭击中身亡!伊南部一体育馆遭空袭,20名女排球员丧生,伊方:科威特美海军基地所有基础设施被摧毁,大量美军伤亡

哈梅内伊四位亲属据称在袭击中身亡!伊南部一体育馆遭空袭,20名女排球员丧生,伊方:科威特美海军基地所有基础设施被摧毁,大量美军伤亡

每日经济新闻
2026-03-01 09:22:18
上海合作组织秘书处降半旗

上海合作组织秘书处降半旗

环球网资讯
2026-03-01 17:05:07
被震撼到了!哈梅内伊一死普京马上下令,俄罗斯全体高层紧急到场

被震撼到了!哈梅内伊一死普京马上下令,俄罗斯全体高层紧急到场

皇朝冰酷
2026-03-01 23:27:08
伊朗发动大规模袭击:已袭击27个美军基地和以军总司令部等地;伊方公布导弹击中以军总参谋部图

伊朗发动大规模袭击:已袭击27个美军基地和以军总司令部等地;伊方公布导弹击中以军总参谋部图

极目新闻
2026-03-01 13:09:32
顾军已任辽宁省政府党组成员

顾军已任辽宁省政府党组成员

澎湃新闻
2026-03-01 20:18:28
仅出场2分46秒,锋线大将已经彻底失去了中国队教练组的信任?

仅出场2分46秒,锋线大将已经彻底失去了中国队教练组的信任?

稻谷与小麦
2026-03-02 01:10:00
若中美开战,美摧毁北斗卫星,中国将如何应对?4大杀手锏已就位

若中美开战,美摧毁北斗卫星,中国将如何应对?4大杀手锏已就位

春风秋雨
2025-10-29 19:55:04
悬念不大了!今年夺冠的NBA球队,大概率这5支,四大豪门出局

悬念不大了!今年夺冠的NBA球队,大概率这5支,四大豪门出局

篮球扫地僧
2026-03-01 14:48:33
笑发财,那些年港媒取的标题真的狠毒!网友:鸭脖也是鸭,没毛病

笑发财,那些年港媒取的标题真的狠毒!网友:鸭脖也是鸭,没毛病

夜深爱杂谈
2026-03-01 20:12:43
弹跳惊人,谢什科庆祝时跳得太高在镜头前出画了

弹跳惊人,谢什科庆祝时跳得太高在镜头前出画了

懂球帝
2026-03-02 01:05:13
德媒记者参观宇树被拒绝入内,记者:里面有可用于战斗的机器人

德媒记者参观宇树被拒绝入内,记者:里面有可用于战斗的机器人

我心纵横天地间
2026-03-01 14:09:47
2026-03-02 05:16:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6146文章数 26790关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

时尚
家居
本地
游戏
公开课

今年春天最流行的4件卫衣,照着穿就很好看

家居要闻

素色肌理 品意式格调

本地新闻

津南好·四时总相宜

以《生化危机》命名?Capcom解答对RE引擎的误读

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版