网易首页 > 网易号 > 正文 申请入驻

AI有嘴了!OpenAI连发三语音模型

0
分享至

来源:市场资讯

(来源:字母榜)


昨天凌晨,OpenAI发布了三款音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。

OpenAI官网的表述是,新模型可以让开发者构建能在用户说话时“推理、翻译和转写”的实时语音产品。三款模型已经开放给开发者测试。


这次更新的重点在于三款模型不同场景分工。

GPT-Realtime-2面向实时语音Agent场景,它是OpenAI首个具备“GPT-5级推理”的语音模型,可以处理复杂请求,调用工具,处理中途打断,并在更长语音会话中维持上下文。

GPT-Realtime-Translate面向实时语音翻译场景,支持70多种输入语言到13种输出语言。

GPT-Realtime-Whisper面向实时语音转写,可以在人说话时生成文本,用于字幕、会议记录和工作流更新。

价格也同步公布。GPT-Realtime-2按token计费,音频输入起价为32美元/百万token,音频输出为64美元/百万token;GPT-Realtime-Translate按分钟计费,价格为0.034美元/分钟;GPT-Realtime-Whisper同样按分钟计费,价格为0.017美元/分钟。

相关报道显示,一些企业用户包括Zillow、Priceline和德国电信在内的知名厂商已经在测试这些模型。

这是OpenAI过去一年语音路线的一次延伸。

2024年,OpenAI先把ChatGPT高级语音模式背后的低延迟语音能力开放给开发者;2025年8月,OpenAI推出首个正式版Gpt-Realtime,开始面向生产级语音Agent。

今年2月,Gpt-Realtime-1.5成为上一代主力模型,用于语音Agent和客服场景。再到今天的2.0版本的三大模型矩阵,这更像Realtime产品线从体验功能走向企业API的一次版本升级。


01

从对话走向执行

先来看GPT-Realtime-2,按照OpenAI官方的说法,这是第一款具备“GPT-5级推理”的语音模型。这个模型被设计用于处理复杂请求、调用工具、处理中断,并在更长的语音会话里保持上下文。

这些能力对应的是语音Agent落地时最常见的问题。

GPT-Realtime-2把上下文窗口从32K提升到128K。这个参数对长会话场景有直接意义。比如一个用户想要针对某套房产做咨询、或者想要改签机票,这些场景都可能包含大量条件和多轮确认。

上下文窗口扩大后,模型可以在更长的实时对话里保留前面出现过的限制、偏好和业务信息。

工具调用也是这次更新里的关键词。RealtimeAPI可以用于构建会调用工具的语音体验。应用可以保持实时会话连接,连续发送音频,接收模型事件,更新会话状态,并把外部系统返回的结果再交给模型继续回应。

美国房地产信息查询网站Zillow,成为了OpenAI官方的首批企业案例。

OpenAI在官网中提到,Zillow正在用GPT-Realtime-2构建可以理解住房条件并安排看房的语音助手。Zillow方面表示,在最困难的对抗性测试中,经过prompt优化后,电话任务成功率从69%提升到95%,FairHousing相关合规表现也更稳定。

Fair Housing指美国住房交易中的反歧视合规要求,房产平台不能在买卖、租赁、贷款或经纪服务中,基于种族、宗教、性别、残障、家庭状况、国籍等因素区别对待用户。

从“能说”到“会说”,这可能是GPT-Realtime-2给予行业的最大震撼。

Booking子公司、知名旅行优惠平台Priceline,则代表另一类语音模型的落地场景。

据了解,Priceline也在测试GPT-Realtime-2系列。旅游预订的链条很长,用户可能要查航班、订酒店、调整日期、处理延误、比较价格,还可能在境外需要翻译。语音Agent如果能稳定接入后台系统,就有机会把“问答”推进到“办事”。

OpenAI提到的另一个已知客户是德国电信。电信行业有大规模坐席、复杂套餐、故障处理、多语言服务和账单解释,也是语音模型落地的天然场景。


GPT-Realtime-2还有一个细节是可调推理强度。

OpenAI开发者文档提到,GPT-Realtime-2把推理能力带入语音到语音工作流。多数生产场景可以先使用较低的推理强度,优先保证通话里的响应速度;遇到更复杂的客服、预订、排障任务,再提高推理强度,用更多计算换取更完整的判断。

这个细节很重要。语音交互比文字聊天更怕停顿。用户在电话里等待一两秒,会明显感到卡顿。推理越强,延迟压力越大。在性能和响应的平衡上,不同的开发者在这个问题上会有一定取舍。。

官方也给出了一些测试数据。OpenAI称,GPT-Realtime-2在Big Bench Audio上比GPT-Realtime-1.5高15.2%,在Audio MultiChallenge上高13.8%。这两个指标用于衡量模型在音频输入、多轮语音、复杂指令和上下文整合方面的能力。

第二款模型是GPT-Realtime-Translate。

按OpenAI面向开发者的示例说明,GPT-Realtime-Translate主打实时语音到语音翻译,适合广播、直播、电话和视频对话。它会自动识别输入语言,并输出翻译后的语音和文本。开发者只需要设定目标语言。

这个模型支持70多种输入语言到13种输出语言。OpenAI称,它可以在说话人讲话时跟上节奏。开发者文档还提到,传统语音翻译常常要求说话人停顿,系统等一句话结束后再翻译;而GPT-Realtime-Translate更接近连续口译的形态。

OpenAI把它的场景分成两类。

一类是广播式翻译,比如直播、网络研讨会、讲座、财报电话会和大型会议演讲。另一类是对话式翻译,比如呼叫中心、视频通话和电话工作流。这两个类别基本覆盖了企业最愿意付费的跨语言场景:客服、教育、国际会议、内容平台、跨境销售和企业培训。

第三款模型是GPT-Realtime-Whisper。

GPT-Realtime-Whisper强调实时流式转写。它可以在说话人讲话时生成字幕、会议记录和工作流更新。相比起前两个模型,Whisper的商业门槛最低。它的价格仅为0.017美元/分钟。

三款模型放在一起看,OpenAI已经把实时音频拆成了三个明确入口:GPT-Realtime-2处理语音Agent,GPT-Realtime-Translate处理跨语言沟通,GPT-Realtime-Whisper处理实时文本化。

三者的价格、延迟要求和客户场景都不同,奥特曼想要在差异化路线上“通吃”语音AI市场。

02

TTS市场卷完“声音质量”卷“实时”

这次发布还有一个很清楚的商业信号:OpenAI正在把语音AI能力,全面推向API市场和企业工作流。

除了OpenAI官方提到的Zillow、Priceline和德国电信三大测试客户,更多公司也在把这批语音模型接进自己的产品。

比如视频平台Vimeo、企业知识管理工具Glean、客服软件公司Intercom,以及面向企业语音Agent的BolnaAI,都出现在目前披露的相关案例中。

换句话说,GPT-Realtime系列已经成为了OpenAI的一个成熟的商业化版图,客户覆盖内容平台、企业办公、客服系统和语音Agent创业公司等多类开发者。

OpenAI展示的是一组真实业务中的场景:AI在通话中理解需求、调用系统、翻译语言,并把语音交互接进企业后台。

而这一切,正好发生在语音AI市场继续升温的周期里。

过去两年,语音AI赛道最受关注的公司之一是ElevenLabs。这家公司2022年成立,最早靠高度拟真的AI配音、声音克隆、多语言配音和内容本地化出圈,后来又把产品往企业语音Agent延伸。今年2月,ElevenLabs宣布完成5亿美元D轮融资,估值达到110亿美元。

这一估值较2025年1月的33亿美元大幅上升。公司称,这笔资金将用于全球扩张,并继续投入情感化对话模型、配音、转写和AI语音Agent等方向。

更近的动态是,ElevenLabs在近期披露,公司年化经常性收入已经超过5亿美元,并公布了更多参与D轮融资的新投资方。

其中既包括贝莱德、惠灵顿管理等大型机构,也包括英伟达、赛富时创投、德国电信等产业方。甚至演员Jamie Foxx、Eva Longoria以及《鱿鱼游戏》创作者黄东赫等个人投资者,也出现在这轮投资名单中。

面对着日益增长的需求,语音AI已经不只是创作者的配音工具。影视、广告、游戏、教育、企业培训、无障碍服务、内容出海和电话Agent,都在消耗更自然、更便宜、更可控的机器声音。

Deepgram代表另一种路线。

这家公司长期做语音识别基础设施,客户更多来自联络中心、会议、销售、医疗、金融等高频语音场景。近年,Deepgram开始补上文本转语音和语音Agent接口,试图打通语音模型的办事场景。

Deepgram披露的信息显示,旗下Aura-2文本转语音面向实时语音应用,流式延迟低于200毫秒,并支持对地址、电话号码、字母数字组合等结构化内容做更自然的朗读。

它还把语音识别、语音合成、实时情绪分析、话题检测和摘要能力,放进联络中心等企业场景。

Cartesia则主打低延迟和实时交互。

这家公司由前斯坦福AI实验室成员创办,技术标签是状态空间模型,主打更快、更低成本的实时多模态模型。

它的语音产品Sonic系列,核心卖点是低延迟文本转语音。Cartesia的Sonic 3文档称,它是一个流式文本转语音模型,强调高自然度、准确跟随文本和低延迟;Sonic 3支持42种语言,也支持音量、语速和情绪控制。

在Cartesia官网上,可以看到这家公司把90毫秒低延迟作为实时对话体验的卖点。

这些公司共同推动了TTS市场的变化。

早期TTS竞争主要看声音像不像真人。之后,行业开始比多语言覆盖、声音克隆、情绪表达、版权授权和配音效率。

现在,语音Agent把要求抬高了。企业不只要一个好听的声音,还要完整链路:语音识别要准,首字延迟要低,大模型要能理解上下文,工具调用要稳定,语音合成要自然,翻译要连续,转写还要能进入后续工作流。

一些行业材料也反映了这个趋势。Deepgram在TTS对比文章中提到,面向语音Agent的文本转语音,已经把“首段语音生成低于100毫秒”视为新的基线之一。

在行业内都在竞相卷“实时”的背景下,OpenAI最大的优势来自模型栈。

OpenAI可以把整个企业调用TTS的链路,放到同一个开发者平台里。对开发者来说,少接几个供应商,就少一些延迟、集成和运维成本。对企业来说,统一平台也更容易做权限管理、日志留存、数据策略和安全审查。

不过,OpenAI想要通吃企业语音市场,也没那么容易。

ElevenLabs已跑到110亿美元估值、超过5亿美元年化收入;Deepgram今年1月完成1.3亿美元融资,估值13亿美元,服务1300多家客户;Cartesia也在2025年完成6400万美元A轮融资,Sonic模型据称已有1万多客户使用,并以90毫秒模型延迟、42种语言主打实时语音。

OpenAI有模型栈优势,但语音市场并不缺少强势玩家。


奥特曼对这次发布的公开表态很短。他在X上称,GPT-Realtime-2进入API是“相当大的一步前进”,同时OpenAI还在继续改进ChatGPT里的语音体验。

只是从各大企业用户争相测试的情况来看,OpenAI的新一代语音模型,足以让人期待他在接下来这一年的市场表现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杭州女子凌晨5点摸到异液,陌生男子私闯民宅,荒唐借口没人信

杭州女子凌晨5点摸到异液,陌生男子私闯民宅,荒唐借口没人信

黑哥讲现代史
2026-05-09 19:43:42
3-0,2-0!意甲疯狂1夜!国米尤文赢球,积分榜更新:米兰跌出前3

3-0,2-0!意甲疯狂1夜!国米尤文赢球,积分榜更新:米兰跌出前3

小徐讲八卦
2026-05-10 05:37:17
杀人诛心!泽连斯基签法令“允许”红场阅兵,并附上精准GPS!

杀人诛心!泽连斯基签法令“允许”红场阅兵,并附上精准GPS!

老马拉车莫少装
2026-05-09 08:02:47
身家480亿!59岁李嘉诚次子1.7亿买世界杯转播权 球迷付费观看

身家480亿!59岁李嘉诚次子1.7亿买世界杯转播权 球迷付费观看

念洲
2026-05-09 12:38:11
阿斯:冲突后卡瓦哈尔第一个离开又被叫回开会 有球员想票选队长

阿斯:冲突后卡瓦哈尔第一个离开又被叫回开会 有球员想票选队长

兰亭墨未干
2026-05-10 06:20:45
10日凌晨,亚洲杯抽签结果出炉,国足一般,日本队进入死亡之组

10日凌晨,亚洲杯抽签结果出炉,国足一般,日本队进入死亡之组

林子说事
2026-05-10 05:03:59
国家免费电视已开通!不用缴费,动手调好就能看

国家免费电视已开通!不用缴费,动手调好就能看

小柱解说游戏
2026-05-08 16:59:21
斯诺克元老世锦赛:奥沙利文7-5淘汰米尔金斯,晋级决赛

斯诺克元老世锦赛:奥沙利文7-5淘汰米尔金斯,晋级决赛

凌空倒钩
2026-05-10 00:19:31
吞自己的苦果!日媒称:中国多所一流高校已经终止向日本派交换生

吞自己的苦果!日媒称:中国多所一流高校已经终止向日本派交换生

凡知
2026-05-09 12:38:17
朝鲜导游懵了:这么贵的水果,为什么中国游客却舍得买?

朝鲜导游懵了:这么贵的水果,为什么中国游客却舍得买?

老特有话说
2026-05-05 15:23:38
太痛心了!湖北某医院门口,一位女子独自扶墙痛哭,却不敢放声!

太痛心了!湖北某医院门口,一位女子独自扶墙痛哭,却不敢放声!

川渝视觉
2026-05-09 22:57:06
央视三胎宣传片惹争议,脱离现实强行把孕妇塑造成超人式幸福?

央视三胎宣传片惹争议,脱离现实强行把孕妇塑造成超人式幸福?

今朝牛马
2026-05-07 20:36:33
剑指12连冠 中国男团连续16次晋级世乒赛决赛 今夜23点与日本决战

剑指12连冠 中国男团连续16次晋级世乒赛决赛 今夜23点与日本决战

风过乡
2026-05-10 06:37:29
世乒赛男团决赛前瞻:王楚钦做好再拿2分准备,梁靖崑可上二单

世乒赛男团决赛前瞻:王楚钦做好再拿2分准备,梁靖崑可上二单

烧体坛
2026-05-10 05:51:13
李嘉格从不后悔嫁给车澈,承认自己既要又要,钱是离婚的最大底气

李嘉格从不后悔嫁给车澈,承认自己既要又要,钱是离婚的最大底气

五四观娱
2026-05-09 23:10:36
商务部:中俄贸易连续三年突破2000亿美元

商务部:中俄贸易连续三年突破2000亿美元

界面新闻
2026-05-09 10:17:43
刚把专车运到北京,美国总统特朗普,就迎来2个坏消息!

刚把专车运到北京,美国总统特朗普,就迎来2个坏消息!

浪子阿邴聊体育
2026-05-09 06:00:20
媒体人:首钢不只输在张皓嘉绝杀,最后时刻外援选择可以变一变

媒体人:首钢不只输在张皓嘉绝杀,最后时刻外援选择可以变一变

懂球帝
2026-05-09 23:37:55
身高1米88的冠军为何执着用1米45短杆?教练们都惊呆了!

身高1米88的冠军为何执着用1米45短杆?教练们都惊呆了!

林子说事
2026-05-09 14:55:37
美国访华再生突变?中方官宣两重要人物访华,特朗普不在名单上

美国访华再生突变?中方官宣两重要人物访华,特朗普不在名单上

丁丁鲤史纪
2026-05-09 18:27:01
2026-05-10 07:35:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3160482文章数 7279关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

头条要闻

演员文章面馆大火后又开酒吧 多位明星到场母亲也现身

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

游戏
亲子
本地
教育
房产

Windows 11 PC上的Xbox模式不支持多显示器

亲子要闻

剪给妈妈看的视频,当然全部都是爱

本地新闻

用苏绣的方式,打开江西婺源

教育要闻

中小学教师资格考试即将开始

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

无障碍浏览 进入关怀版