网易首页 > 网易号 > 正文 申请入驻

重磅!OpenAI推出语音智能体全家桶:可以实现前所未有的精细化教AI说话

0
分享至


就在刚刚,OpenAI 发布了一系列新模型和工具,具体来说OpenAI在API 中推出三种新的先进音频模型:

️ 两种语音转文本模型 - 表现优于 Whisper
新的 TTS (文本转语音)模型——你可以教AI如何说话


核心只有一个:让开发者轻松构建强大的「语音智能体」!

在直播中,据OpenAI 平台负责人 Olivier Godement 说他们一直在积极构建 AI 智能体,而现在,他们要将重点从文本拓展到语音

为什么是语音? Olivier 认为,语音是人类最自然的交互方式,相较于读写,语音沟通更加便捷和人性化。 因此,打造可靠、精准、灵活的语音智能体,将极大地拓展 AI 的应用场景

第一时间给大家划个重点

三大模型齐发力,打造「声控AI」基石

为了实现这一愿景,OpenAI 祭出了三大法宝:

1.两款全新「语音转文本」模型:GPT-4o-transcribe 和 GPT-4o-mini-transcribe

这两款模型号称“地表最强”,性能全面超越之前的 Whisper 模型,并且在各种语言的转录准确率上都实现了质的飞跃。这意味着,AI 听得更清、更准了!

2.全新「文本转语音」模型:GPT-4o-mini-tts

这款模型首次让开发者可以精细控制 AI 的发声方式,不仅能决定 AI 说什么,更能控制 AI 怎么说!语调、情感,都能由你掌控,打造更富有人性的声音体验

为了让大家更容易得使用这个模型,OpenAI为这个模型建了新的网站,http://OpenAI.fm,一个供开发人员尝试 OpenAI API 中的新文本转语音模型的交互式演示,OpenAI已经预先生成了各种演示文本,可以选择不同的声音,不同的情绪来表达你的文本,你也可以自己输入文本,体验选择不同声音和情绪来表达

3.升级版 Agent SDK

为了让开发者更便捷地构建语音智能体,OpenAI 对之前发布的 Agent SDK 进行了重大更新,让文本智能体“一键升级”为语音智能体成为可能!这次升级亮点颇多:

语音能力加持:Agent SDK 深度整合了 OpenAI 最新的「语音转文本」和「文本转语音」模型,开发者无需复杂配置,即可为智能体赋予“耳朵”和“嘴巴”。

流式处理优化:升级后的 SDK 支持双向流式传输,音频输入和语音输出都更加实时,大幅提升了语音交互的流畅性。

开箱即用,快速上手:Agent SDK 提供了丰富的示例代码和详尽的文档,即使是新手开发者也能快速上手,将文本智能体轻松转化为语音智能体

调试利器:Agent SDK 与 OpenAI 调试 UI 无缝集成,开发者可以直观地追踪语音交互全过程,分析音频输入、文本转录、模型推理、语音合成等各个环节,Debug 效率直线提升!


构建语音智能体,两种主流方案

OpenAI 的专家 Jeff Harris 在直播中分享了构建语音智能体的两种主要方法:

方法一:实时 API 直连「语音-语音」模型

这种方式更加前沿,直接使用「语音-语音」模型,让 AI 直接理解音频并输出语音,速度更快,体验更流畅。 这也是 ChatGPT 高级语音模式背后的技术


方法二:链式调用音频模型与文本模型


这是一种更易上手、更可靠的方案,也是 OpenAI 此次重点推荐的方式。 它通过以下步骤实现:

  1. 1.语音转文本模型 (Speech-to-Text):将用户语音转化为文本。

  2. 2.文本大模型 (Text-based LLM):例如 GPT-4o,理解文本并生成合适的回复。

  3. 3.文本转语音模型 (Text-to-Speech):将文本回复转化为自然流畅的语音。

Jeff 强调,链式方案的优势在于:

  • 模块化:各个环节的模型可以灵活替换,选择最适合的组件。

  • 高可靠性:文本模型的智能程度依然是目前的“黄金标准”,链式方案能保证更高的可靠性。

  • 易上手:开发者可以基于已有的文本智能体项目,快速添加语音功能

模型背后的技术

使用真实音频数据集进行预训练

新音频模型基于 GPT‑4o 和 GPT‑4o-mini 架构,并在专门的以音频为中心的数据集上进行了广泛的预训练,这对于优化模型性能至关重要。这种有针对性的方法可以更深入地洞察语音细微差别,并在与音频相关的任务中实现出色的性能

先进的蒸馏方法

增强蒸馏技术,使知识从最大的音频模型转移到更小、更高效的模型。利用先进的自我对弈方法,我们的蒸馏数据集有效地捕捉了真实的对话动态,复制了真正的用户-助手互动。这有助于小型模型提供出色的对话质量和响应能力

强化学习范式

对于语音转文本模型,集成了强化学习 (RL-heavy) 重度范式,将转录准确度推向了最先进的水平。这种方法大大提高了准确度并减少了幻觉,使语音转文本解决方案在复杂的语音识别场景中具有极强的竞争力

性能炸裂,价格亲民

GPT-4o 系列「语音转文本」模型的惊人性能:在 FLEURS 基准测试中,错误率远低于上一代 Whisper 模型,真正做到了“更上一层楼”



更令人惊喜的是,价格方面也十分良心:

  • GPT-4o-transcribe:每分钟 0.6 美分,与 Whisper 模型价格一致

  • GPT-4o-mini-transcribe:每分钟仅需 0.3 美分,性价比更高!

  • GPT-4o-mini-tts:文本转语音模型,每分钟 1 美分,经济实惠

参考:

https://openai.com/index/introducing-our-next-generation-audio-models/

https://www.youtube.com/watch?v=lXb0L16ISAc

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宋英杰:一路好好走!娶小12岁师妹,49岁才做父亲,如今怎样?

宋英杰:一路好好走!娶小12岁师妹,49岁才做父亲,如今怎样?

芳芳历史烩
2025-09-17 01:07:57
国家税务总局大连市税务局第三稽查局依法查处大连普湾新区富顺加油站偷税案件

国家税务总局大连市税务局第三稽查局依法查处大连普湾新区富顺加油站偷税案件

人民资讯
2025-09-18 15:23:02
主动退出奥运申办!中国这一招,让西方媒体无话可说

主动退出奥运申办!中国这一招,让西方媒体无话可说

青梅侃史啊
2025-08-18 16:14:26
4-0!3-1!欧冠狂欢夜:利物浦绝杀马竞 拜仁掀翻切尔西 巴黎狂胜

4-0!3-1!欧冠狂欢夜:利物浦绝杀马竞 拜仁掀翻切尔西 巴黎狂胜

侃球熊弟
2025-09-18 03:48:16
出战主流欧战赛事,拉什福德成巴萨历史第二位英国球员

出战主流欧战赛事,拉什福德成巴萨历史第二位英国球员

直播吧
2025-09-19 02:52:06
波兰关闭东部边境,中欧班列被迫中断,带来的后果能有多严重

波兰关闭东部边境,中欧班列被迫中断,带来的后果能有多严重

铁锤简科
2025-09-18 20:02:57
扇打孙女后续!孩子爸“身份”被曝光,奶奶正脸曝光,相由心生?

扇打孙女后续!孩子爸“身份”被曝光,奶奶正脸曝光,相由心生?

奇思妙想草叶君
2025-09-15 21:57:05
毛主席接见万岁军政委,初次握手时问道:你这个人为什么这么瘦?

毛主席接见万岁军政委,初次握手时问道:你这个人为什么这么瘦?

朝夕说史
2025-09-17 18:37:41
被嘲“又胖又没文化”!全红婵暨南大学报到才2天,害怕的事发生

被嘲“又胖又没文化”!全红婵暨南大学报到才2天,害怕的事发生

千言娱乐记
2025-09-15 23:49:19
已确认!是知名演员杨洋

已确认!是知名演员杨洋

桑葚爱动画
2025-09-02 16:06:19
要凉了!方舟子恐将被驱逐出境,因非议查理柯克,被白宫点名警告

要凉了!方舟子恐将被驱逐出境,因非议查理柯克,被白宫点名警告

一盅情怀
2025-09-17 19:12:53
应届大学生因工资过低离职,却被告知要退回给公司2330元!单位回应:算错了,其实该员工有154元工资

应届大学生因工资过低离职,却被告知要退回给公司2330元!单位回应:算错了,其实该员工有154元工资

FM93浙江交通之声
2025-09-18 12:50:34
90分钟绝平!欧冠奇迹之夜:从0-2到2-2,5万人口小城获历史第1分

90分钟绝平!欧冠奇迹之夜:从0-2到2-2,5万人口小城获历史第1分

侃球熊弟
2025-09-18 04:30:03
人民日报大佬发声,西贝贾国龙“底裤”被扒光,不止对消费者傲慢

人民日报大佬发声,西贝贾国龙“底裤”被扒光,不止对消费者傲慢

寻墨阁
2025-09-18 11:20:26
组织日本女性向中国游客卖春的风俗集团被一窝端,大阪警方逮捕三名嫌疑人……

组织日本女性向中国游客卖春的风俗集团被一窝端,大阪警方逮捕三名嫌疑人……

日本物语
2025-09-17 21:29:22
黄多多在纽约地铁被偶遇了,网友夸赞她很有气质,透着股清冷感

黄多多在纽约地铁被偶遇了,网友夸赞她很有气质,透着股清冷感

娱圈小愚
2025-09-16 08:59:12
李嘉诚给乌克兰捐5亿美金?回应来了!但更大“麻烦”还在后面

李嘉诚给乌克兰捐5亿美金?回应来了!但更大“麻烦”还在后面

谷盟1
2025-09-18 15:48:45
阵风再遭痛击!被F-35全程压着打,歼35又迎来土豪订单?

阵风再遭痛击!被F-35全程压着打,歼35又迎来土豪订单?

时时有聊
2025-09-18 07:02:35
孙继海退股嗨球!张卓毅一家想和解都没退路了

孙继海退股嗨球!张卓毅一家想和解都没退路了

春序娱乐
2025-09-18 10:58:15
世界级名帅里皮,为何带不动国足?韦世豪才是这背后的罪魁祸首

世界级名帅里皮,为何带不动国足?韦世豪才是这背后的罪魁祸首

坦然风云
2025-08-23 17:57:40
2025-09-19 03:27:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
882文章数 359关注度
往期回顾 全部

科技要闻

英伟达50亿美元投资英特尔,但代工免谈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

教育
家居
时尚
健康
旅游

教育要闻

TTS新传论文带读:“技术座架变迁”(论述题装X词汇大赏

家居要闻

多维交集 简意雅情结合

秋冬穿对红黄橙,温暖又高级

内分泌科专家破解身高八大谣言

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

无障碍浏览 进入关怀版