网易首页 > 网易号 > 正文 申请入驻

重磅!OpenAI推出语音智能体全家桶:可以实现前所未有的精细化教AI说话

0
分享至

就在刚刚,OpenAI 发布了一系列新模型和工具,具体来说OpenAI在API 中推出三种新的先进音频模型:

️ 两种语音转文本模型 - 表现优于 Whisper
新的 TTS (文本转语音)模型——你可以教AI如何说话

核心只有一个:让开发者轻松构建强大的「语音智能体」!

在直播中,据OpenAI 平台负责人 Olivier Godement 说他们一直在积极构建 AI 智能体,而现在,他们要将重点从文本拓展到语音

为什么是语音? Olivier 认为,语音是人类最自然的交互方式,相较于读写,语音沟通更加便捷和人性化。 因此,打造可靠、精准、灵活的语音智能体,将极大地拓展 AI 的应用场景

第一时间给大家划个重点

三大模型齐发力,打造「声控AI」基石

为了实现这一愿景,OpenAI 祭出了三大法宝:

1.两款全新「语音转文本」模型:GPT-4o-transcribe 和 GPT-4o-mini-transcribe

这两款模型号称“地表最强”,性能全面超越之前的 Whisper 模型,并且在各种语言的转录准确率上都实现了质的飞跃。这意味着,AI 听得更清、更准了!

2.全新「文本转语音」模型:GPT-4o-mini-tts

这款模型首次让开发者可以精细控制 AI 的发声方式,不仅能决定 AI 说什么,更能控制 AI 怎么说!语调、情感,都能由你掌控,打造更富有人性的声音体验

为了让大家更容易得使用这个模型,OpenAI为这个模型建了新的网站,http://OpenAI.fm,一个供开发人员尝试 OpenAI API 中的新文本转语音模型的交互式演示,OpenAI已经预先生成了各种演示文本,可以选择不同的声音,不同的情绪来表达你的文本,你也可以自己输入文本,体验选择不同声音和情绪来表达

3.升级版 Agent SDK

为了让开发者更便捷地构建语音智能体,OpenAI 对之前发布的 Agent SDK 进行了重大更新,让文本智能体“一键升级”为语音智能体成为可能!这次升级亮点颇多:

语音能力加持:Agent SDK 深度整合了 OpenAI 最新的「语音转文本」和「文本转语音」模型,开发者无需复杂配置,即可为智能体赋予“耳朵”和“嘴巴”。

流式处理优化:升级后的 SDK 支持双向流式传输,音频输入和语音输出都更加实时,大幅提升了语音交互的流畅性。

开箱即用,快速上手:Agent SDK 提供了丰富的示例代码和详尽的文档,即使是新手开发者也能快速上手,将文本智能体轻松转化为语音智能体

调试利器:Agent SDK 与 OpenAI 调试 UI 无缝集成,开发者可以直观地追踪语音交互全过程,分析音频输入、文本转录、模型推理、语音合成等各个环节,Debug 效率直线提升!

构建语音智能体,两种主流方案

OpenAI 的专家 Jeff Harris 在直播中分享了构建语音智能体的两种主要方法:

方法一:实时 API 直连「语音-语音」模型

这种方式更加前沿,直接使用「语音-语音」模型,让 AI 直接理解音频并输出语音,速度更快,体验更流畅。 这也是 ChatGPT 高级语音模式背后的技术

方法二:链式调用音频模型与文本模型

这是一种更易上手、更可靠的方案,也是 OpenAI 此次重点推荐的方式。 它通过以下步骤实现:

  1. 1.语音转文本模型 (Speech-to-Text):将用户语音转化为文本。

  2. 2.文本大模型 (Text-based LLM):例如 GPT-4o,理解文本并生成合适的回复。

  3. 3.文本转语音模型 (Text-to-Speech):将文本回复转化为自然流畅的语音。

Jeff 强调,链式方案的优势在于:

  • 模块化:各个环节的模型可以灵活替换,选择最适合的组件。

  • 高可靠性:文本模型的智能程度依然是目前的“黄金标准”,链式方案能保证更高的可靠性。

  • 易上手:开发者可以基于已有的文本智能体项目,快速添加语音功能

模型背后的技术

使用真实音频数据集进行预训练

新音频模型基于 GPT‑4o 和 GPT‑4o-mini 架构,并在专门的以音频为中心的数据集上进行了广泛的预训练,这对于优化模型性能至关重要。这种有针对性的方法可以更深入地洞察语音细微差别,并在与音频相关的任务中实现出色的性能

先进的蒸馏方法

增强蒸馏技术,使知识从最大的音频模型转移到更小、更高效的模型。利用先进的自我对弈方法,我们的蒸馏数据集有效地捕捉了真实的对话动态,复制了真正的用户-助手互动。这有助于小型模型提供出色的对话质量和响应能力

强化学习范式

对于语音转文本模型,集成了强化学习 (RL-heavy) 重度范式,将转录准确度推向了最先进的水平。这种方法大大提高了准确度并减少了幻觉,使语音转文本解决方案在复杂的语音识别场景中具有极强的竞争力

性能炸裂,价格亲民

GPT-4o 系列「语音转文本」模型的惊人性能:在 FLEURS 基准测试中,错误率远低于上一代 Whisper 模型,真正做到了“更上一层楼”

更令人惊喜的是,价格方面也十分良心:

  • GPT-4o-transcribe:每分钟 0.6 美分,与 Whisper 模型价格一致

  • GPT-4o-mini-transcribe:每分钟仅需 0.3 美分,性价比更高!

  • GPT-4o-mini-tts:文本转语音模型,每分钟 1 美分,经济实惠

参考:

https://openai.com/index/introducing-our-next-generation-audio-models/

https://www.youtube.com/watch?v=lXb0L16ISAc

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东舰航母,2条电磁弹射器,兼容空警600,已成定局?

山东舰航母,2条电磁弹射器,兼容空警600,已成定局?

万里繁华
2026-01-23 11:13:03
苏州文旅被指“洗稿”原创文章,原作者只求公开致歉,官方回应:文章已下架,是否构成“洗稿”还需认定

苏州文旅被指“洗稿”原创文章,原作者只求公开致歉,官方回应:文章已下架,是否构成“洗稿”还需认定

扬子晚报
2026-01-22 22:40:28
春节前清租!天河长湴村狂奔,村民补偿猛涨

春节前清租!天河长湴村狂奔,村民补偿猛涨

广州楼市发布
2026-01-22 19:36:57
王楚然超级白嫩美腿太美了

王楚然超级白嫩美腿太美了

可乐谈情感
2026-01-18 11:08:58
贝克汉姆儿媳黑料被扒,曾被造型师吐槽人品差像怪物,且擅长公关

贝克汉姆儿媳黑料被扒,曾被造型师吐槽人品差像怪物,且擅长公关

电影侦探社
2026-01-22 18:10:29
董璇姐姐的普拉提,这身材谁扛得住

董璇姐姐的普拉提,这身材谁扛得住

小椰的奶奶
2026-01-23 11:46:10
1.23今日金价:大家不必等待了!接下来,金价有可能会重演历史!

1.23今日金价:大家不必等待了!接下来,金价有可能会重演历史!

叮当当科技
2026-01-23 03:36:50
自然资源部:坚决拥护党中央决定

自然资源部:坚决拥护党中央决定

新京报
2026-01-22 21:25:13
这夜,气质儒雅的梁朝伟成焦点,素面朝天甩了脂粉气十足的几条街

这夜,气质儒雅的梁朝伟成焦点,素面朝天甩了脂粉气十足的几条街

琴声飞扬
2026-01-22 13:37:44
曼联700万铁闸拒绝冬窗离队!接洽恩迪迪真相揭晓,两人仍是目标

曼联700万铁闸拒绝冬窗离队!接洽恩迪迪真相揭晓,两人仍是目标

罗米的曼联博客
2026-01-22 11:43:26
北京下了死命令,2027年底前,所有中小学必须告别“校外配餐”

北京下了死命令,2027年底前,所有中小学必须告别“校外配餐”

近史博览
2026-01-19 15:32:32
金臀遇上六块腹肌:金姐与C罗的第一次“撞车”

金臀遇上六块腹肌:金姐与C罗的第一次“撞车”

罗氏八卦
2026-01-23 08:44:27
热点丨重庆某医院检验科主任狂买30多处房产!面对纪委她称买房钱“都是借的”

热点丨重庆某医院检验科主任狂买30多处房产!面对纪委她称买房钱“都是借的”

钱眼
2026-01-22 20:09:20
第一个捐款的明星出现了!苗圃现身嫣然医院捐款,更多名人发声了

第一个捐款的明星出现了!苗圃现身嫣然医院捐款,更多名人发声了

萌神木木
2026-01-21 17:18:03
给机会不中用!杜兰特疑干扰球,火箭队加时惜败,球迷:正义必胜

给机会不中用!杜兰特疑干扰球,火箭队加时惜败,球迷:正义必胜

墨史轩
2026-01-23 11:19:04
印度希望中国无偿转让锂电池技术!被中国拒绝后,印度或无法接受

印度希望中国无偿转让锂电池技术!被中国拒绝后,印度或无法接受

临云史策
2026-01-22 18:48:25
为什么成功人士的精力都非常旺盛?网友:几乎不管任何琐碎的事情

为什么成功人士的精力都非常旺盛?网友:几乎不管任何琐碎的事情

另子维爱读史
2025-12-29 17:29:04
沈从文进精神病院后,妻子从未来探望,临终前他说:“对不起”

沈从文进精神病院后,妻子从未来探望,临终前他说:“对不起”

史之铭
2026-01-23 05:29:14
卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

以茶带书
2025-12-09 23:33:58
又一品牌宣布:2月2日起,全线涨价!金价持续狂飙,有人直言扛不住了,“一夜没睡……”

又一品牌宣布:2月2日起,全线涨价!金价持续狂飙,有人直言扛不住了,“一夜没睡……”

都市快报橙柿互动
2026-01-23 11:28:21
2026-01-23 12:20:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1028文章数 394关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

面值400元“马钞”卖了3000元 有人报价4600元

头条要闻

面值400元“马钞”卖了3000元 有人报价4600元

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

房产
本地
健康
艺术
公开课

房产要闻

正式官宣!三亚又一所名校要来了!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

打工人年终总结!健康通关=赢麻了

艺术要闻

现在的春联太俗了,还是过去的“老对联”高雅!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版