网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI发布新一代语音模型,更具个性化的语音agent要来了

0
分享至

继 2022 年推出首个音频模型 Whisper,OpenAI 于今日凌晨发布了 3 款全新语音模型——

gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts

OpenAI 表示,Operator、Deep Research、Computer-Using Agents 以及 Responses API 的发布,使得基于文本的 agent 在任务执行能力和实用性方面不断突破。然而,要让 agent 真正发挥作用,交互方式必须更加直观,超越纯文本输入,支持自然语音交流

OpenAI 表示,最新的语音转文本(STT)模型在口音适应、嘈杂环境处理以及不同语速识别方面均优于现有解决方案,使其在呼叫中心、会议记录等领域具备更高可靠性。

目前,3 款全新语音模型已经上线 API,开发者可以基于此打造更强大、更具个性化的语音 agent。

详情链接:

https://platform.openai.com/docs/guides/audio

此外,开发者还可以为文本到语音(TTS)模型设定语音风格。例如,可以让 AI 以“富有同理心的客户服务代表”风格进行交流。这使得语音 agent 能够提供更具温度和表现力的语音体验,广泛应用于个性化客服、故事讲述等领域。

先来感受两个语音实例:

体验地址:https://www.openai.fm/

据介绍,此次 OpenAI 通过使用真实音频数据集进行预训练、增强的蒸馏方法以及强化学习构建了全新的语音模型。具体而言:

  • 使用真实音频数据集预训练:全新音频模型以 GPT-4o 和 GPT-4o-mini 架构为基础,在专门的音频数据集上进行了广泛的预训练,这对优化模型性能至关重要。这种有针对性的方法能更深入地洞察语音的细微差别,并在与音频相关的任务中实现强大性能。

  • 增强的蒸馏方法:增强的蒸馏技术实现了从最大音频模型到更小、更高效模型的知识转移。利用先进的自我博弈方法,他们的蒸馏数据集能有效捕捉真实的会话动态,复制真正的用户助手交互。这有助于小型模型提供出色的对话质量和响应能力。

  • 强化学习:OpenAI 采用强化学习将全新语音模型的转录准确性提升到 SOTA 水平。这种方法大大提高了精确度,减少了幻觉,使新的语音到文本解决方案在复杂的语音识别场景中更具竞争力。

这些技术创新结合实际应用需求,不仅提升了语音建模能力,还大幅改善了 AI 在真实场景中的表现。

相较于原有的 Whisper,新语音模型在词错误率(WER)、语言识别能力和准确性方面均有显著提升。在多项基准测试中,新语音模型的 WER 均低于现有 Whisper 模型。 WER 衡量语音识别的准确性,数值越低表示转录质量越高。

gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在 FLEURS(少样本多语言语音基准)测试中,覆盖 100 多种语言,表现均优于 Whisper v2 和 Whisper v3,展现了更广泛的语言适应能力和更精确的转录效果。

而且,在主要语言的评测中,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 超过了市场上的其他领先模型,为多语言语音应用提供了更可靠的技术支持。

OpenAI 推出的 gpt-4o-mini-tts 则具有增强的语音可控性(steerability)。开发人员首次不仅可以“指导”模型说什么,还可以“指导”它怎么说,从而为从客户服务到创意故事等各种用例提供更多定制体验。

值得注意的是,这些文本到语音模型仅限于人工预设语音,OpenAI 表示,他们会对其进行监控,以确保它们始终与合成预设语音相匹配。

OpenAI 也给出了一些官方使用建议 ,对于已经使用基于文本的模型构建对话体验的开发人员来说,添加新的语音到文本和文本到语音模型是构建语音 agent 的最简单方法, OpenAI 将发布与 Agents SDK 的集成,以简化这一开发流程;对于希望构建低延迟语音到语音体验的开发人员,可以使用实时 API 中的语音到语音模型进行构建。

未来,OpenAI 计划继续提高音频模型的智能性和准确性,帮助开发者使用自己的自定义语音来构建更加个性化的体验,以及开发其他模态(包括视频)的 agent。

整理:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全国高速明天大调整!车主集体欢呼:早该这么干了

全国高速明天大调整!车主集体欢呼:早该这么干了

沙雕小琳琳
2026-03-26 02:05:39
女子在按摩店做理疗时被技师偷走金项链

女子在按摩店做理疗时被技师偷走金项链

新闻晨报随申Hi
2026-03-26 09:56:05
人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

奇思妙想草叶君
2026-03-25 12:40:13
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
人民日报对张雪峰的评价——

人民日报对张雪峰的评价——

叶初七
2026-03-26 10:03:04
32克金项链不翼而飞,闺蜜全程陪同报警勘察!警方:小偷就是……卖了3.4万元

32克金项链不翼而飞,闺蜜全程陪同报警勘察!警方:小偷就是……卖了3.4万元

环球网资讯
2026-03-26 13:30:10
伊朗对以色列发起导弹打击 以多地响起防空警报

伊朗对以色列发起导弹打击 以多地响起防空警报

财联社
2026-03-26 14:50:24
张少康辞去广东省人民政府副省长职务

张少康辞去广东省人民政府副省长职务

新快报新闻
2026-03-26 11:50:03
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

醉卧浮生
2026-03-26 12:35:12
上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

环球网资讯
2026-03-26 08:13:14
人社部:职称评审将重大调整!!

人社部:职称评审将重大调整!!

新浪财经
2026-03-25 21:42:36
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
中国买了欧洲1000亿人民币的飞机:东航向空客购买101架A320

中国买了欧洲1000亿人民币的飞机:东航向空客购买101架A320

观察者网
2026-03-25 18:00:06
这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

这就是徐志摩爱而不得的林徽因中年时的真实长相,大家看看吧!

小椰的奶奶
2026-03-26 09:50:43
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
2026-03-26 16:16:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
艺术
手机
教育
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

哪一座桥不是风景?

手机要闻

苹果回应iPhone自动打电话 升级系统可解决

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版