网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI开启语音智能体时代,API价格低至每分钟0.015美元

0
分享至

机器之心报道

编辑:泽南

现在,你可以指导 GPT-4o 的说话方式了。

今天凌晨,OpenAI 突然开启了新产品发布直播,这次新发布的内容全是音频模型。

据介绍,它们实现了新的 SOTA 水平,在准确性和可靠性方面优于现有解决方案——尤其是在涉及口音、嘈杂环境和不同语速的复杂场景中。这些改进提高了语音 / 文本转录应用的可靠性,新模型特别适合客户呼叫中心、会议记录转录等用例。

基于新的 API,开发人员第一次可以指示文本转语音模型以特定方式说话,例如让 AI「像富有同情心的客户服务人员一样说话」,从而为语音智能体开启新的定制化维度,可以实现各种定制应用程序。

OpenAI 还开放了一个网站,让你可以直接测试音频大模型的能力:https://www.openai.fm/

OpenAI 于 2022 年推出了第一个音频模型,并一直致力于提高这些模型的智能性、准确性和可靠性。借助新的音频模型及 API,开发人员可以构建更准确、更强大的语音转文本系统以及富有表现力、个性十足的文本转语音声音。

具体来说,新的gpt-4o-transcribegpt-4o-mini-transcribe模型与原始 Whisper 模型相比改进了单词错误率,提高了语言识别和准确性。

gpt-4o-transcribe 在多个既定基准中展示了比现有 Whisper 模型更好的单词错误率 (WER) 性能,实现了语音转文本技术的重大进步。这些进步源于强化学习创新以及使用多样化、高质量音频数据集进行的大量中期训练。

这些新的语音-文本模型可以更好地捕捉语音的细微差别,减少误认,并提高转录可靠性,尤其是在涉及口音、嘈杂环境和不同语速的具有挑战性的场景中。

几种模型的单词错误率(越低越好)。

在 FLEURS 上,OpenAI 的模型实现了更低的 WER 和强大的多语言性能。WER 越低越好,错误越少。

OpenAI 还推出了一个可操纵性更好的新gpt-4o-mini-tts模型。在其之上,开发人员第一次可以「指导」模型,不仅可以指导模型说什么,还可以指导模型如何说,从而为大量用例提供更加定制化的体验。该模型可在 text-to-speech API 中使用。不过目前,这些文本转语音模型仅限于人工预设的声音,且受到 OpenAI 的监控。

就在昨天,OpenAI 推出的「最贵大模型 API」o1-pro API 还因为每百万 token 收费 600 美元而遭到了 AI 社区的广泛吐槽。今天 OpenAI 推出的三款语音 API 价格倒是保持了业界平均水准:gpt-4o-mini-tts 的百万 token 文本输入价格是 $0.60,音频输出价格为 $12.00;gpt-4o-transcrib 文本输入价格是 $2.50,音频输入价格 $10.00,音频输出价格 $6.00;gpt-4o-mini-transcribe 的文本输入价格是 $1.25,音频输入价格 $5.00,音频输出价格 $3.00。

因此今天的发布也受到了人们的欢迎。

OpenAI 的新音频模型基于 GPT‑4o 和 GPT‑4o-mini 架构,并在专门的以音频为中心的数据集上进行了广泛的预训练,这对于优化模型性能至关重要。这种有针对性的方法可以更深入地了解语音细微差别,并在与音频相关的任务中实现出色的性能。

在模型训练中,OpenAI 增强了提炼技术,使知识从最大的音频模型转移到了更小、更高效的模型上。利用先进的自我博弈方法,OpenAI 的提炼数据集有效地捕捉了真实的对话动态,复制了真正的用户助手交互,这有助于小型模型提供出色的对话质量和响应能力。

OpenAI 的语音转文本模型集成了大量强化学习,将转录准确性推向了最先进的水平。据称,这种方法大大提高了精度并减少了幻觉,使语音转文本解决方案在复杂的语音识别场景中具有极强的竞争力。

这些发展代表了音频建模领域的进步,将创新方法与实用增强功能相结合,以增强语音应用程序的性能。

这些新的音频模型现在可供所有开发人员使用:https://platform.openai.com/docs/guides/audio

对于已经使用基于文本的模型构建对话体验的开发人员,添加 OpenAI 语音转文本和文本转语音模型是构建语音智能体的最简单方法。OpenAI 发布了与 Agents SDK 的集成以简化此开发过程。对于希望构建低延迟语音转语音体验的开发人员,OpenAI 建议使用 Realtime API 中的语音转语音模型进行构建。

在未来,OpenAI 计划继续提升音频模型的智能性和准确性,并探索允许开发人员使用自定义声音构建更加个性化体验的方法。包括视频等更多模态的能力也在研发过程当中。

参考内容:

https://openai.com/index/introducing-our-next-generation-audio-models/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
过气艺人有多可怜?五一沦落景区打工,有人无戏可拍,令人心酸

过气艺人有多可怜?五一沦落景区打工,有人无戏可拍,令人心酸

奇思妙想草叶君
2026-05-02 23:27:22
撑不住了?美航母返回大本营,特朗普拒绝让步,伊朗有个不好预感

撑不住了?美航母返回大本营,特朗普拒绝让步,伊朗有个不好预感

说历史的老牢
2026-05-03 06:44:54
中国烂尾军事工程6501:因湖南老农上山寻牛,意外被发现?

中国烂尾军事工程6501:因湖南老农上山寻牛,意外被发现?

抽象派大师
2026-05-02 00:52:13
弗格森赛前被救护车送往医院,曼联球迷在看台上高唱他的名字

弗格森赛前被救护车送往医院,曼联球迷在看台上高唱他的名字

懂球帝
2026-05-04 09:03:25
热巴红绳事件升级!超10位明星拍过同款,网友:“越看越诡异”

热巴红绳事件升级!超10位明星拍过同款,网友:“越看越诡异”

枫尘余往逝
2026-05-03 09:34:30
4月30日,广东一保姆下床时踩滑摔成骨裂,却在倒地瞬间用身体...

4月30日,广东一保姆下床时踩滑摔成骨裂,却在倒地瞬间用身体...

科学发掘
2026-05-03 20:42:11
高市放话准备战斗,解放军深夜发出重磅信号,“大刀”已准备就绪

高市放话准备战斗,解放军深夜发出重磅信号,“大刀”已准备就绪

石江月
2026-05-02 19:11:37
朝鲜做了个大胆决定,亚洲将迎大地震,头一个害怕的就是高市早苗

朝鲜做了个大胆决定,亚洲将迎大地震,头一个害怕的就是高市早苗

爱吃醋的猫咪
2026-05-03 21:26:35
90岁谢贤现身太平山与孙儿聚餐,不见谢霆锋王菲尽显祖孙温情

90岁谢贤现身太平山与孙儿聚餐,不见谢霆锋王菲尽显祖孙温情

陈意小可爱
2026-05-02 11:03:53
俄罗斯、沙特、伊拉克等七国重磅宣布

俄罗斯、沙特、伊拉克等七国重磅宣布

鲁中晨报
2026-05-03 19:29:02
人类尸臭为啥如此难闻?外国石棺咋阻止尸臭泄漏?教堂味道难闻吗

人类尸臭为啥如此难闻?外国石棺咋阻止尸臭泄漏?教堂味道难闻吗

向航说
2026-05-02 00:55:03
时速冲破496公里!国产“超跑”,秒售罄!

时速冲破496公里!国产“超跑”,秒售罄!

环球网资讯
2026-05-03 07:08:20
石河子大学孔苑苑去世,年仅44岁,多次登央视,因一个字的歌爆火

石河子大学孔苑苑去世,年仅44岁,多次登央视,因一个字的歌爆火

裕丰娱间说
2026-05-03 10:51:53
赴美生子彻底崩盘!那些“美国籍孩子”,如今进退两难

赴美生子彻底崩盘!那些“美国籍孩子”,如今进退两难

小陆搞笑日常
2026-05-03 15:32:27
油价大涨超1.71元/升,今年一箱油贵85元后,5月8日油价或再大涨

油价大涨超1.71元/升,今年一箱油贵85元后,5月8日油价或再大涨

油价早知道
2026-05-04 01:15:42
“雄鹰一样的女人”孔苑苑不幸病逝,年仅44岁,曾登上《歌手2025》,她开设的课曾是校园爆款,学生甚至在网吧拼网速抢名额

“雄鹰一样的女人”孔苑苑不幸病逝,年仅44岁,曾登上《歌手2025》,她开设的课曾是校园爆款,学生甚至在网吧拼网速抢名额

极目新闻
2026-05-03 18:54:59
男性50岁以后,眉毛突然变长,说明了什么?多数人可能还不清

男性50岁以后,眉毛突然变长,说明了什么?多数人可能还不清

芹姐说生活
2026-05-03 23:04:49
艺人严浩翔生父连续两天发难,先宣布断绝父子关系,又晒聊天记录

艺人严浩翔生父连续两天发难,先宣布断绝父子关系,又晒聊天记录

露珠聊影视
2026-05-03 00:17:34
克里姆林宫发言人佩斯科夫称全世界都在等待普京5月9日的重要讲话

克里姆林宫发言人佩斯科夫称全世界都在等待普京5月9日的重要讲话

山河路口
2026-05-03 19:07:48
蔚来CEO李斌:今年车卖不好公司就没了

蔚来CEO李斌:今年车卖不好公司就没了

快科技
2026-05-03 09:20:06
2026-05-04 09:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12905文章数 142639关注度
往期回顾 全部

科技要闻

OpenAI“复活”了QQ宠物,网友直接玩疯

头条要闻

牛弹琴:特朗普大怒使出三板斧报复 德国还是怂了

头条要闻

牛弹琴:特朗普大怒使出三板斧报复 德国还是怂了

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

房产
本地
旅游
时尚
公开课

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

本地新闻

用青花瓷的方式,打开西溪湿地

旅游要闻

全球媒体聚焦 | 美媒:“五一”黄金周消费升级 凸显中国旅游业强大韧性

快看!!这个女演员近日暴瘦!!哦,知道了……

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版