5月7日,OpenAI在Realtime API中推出三款音频模型——GPT‑Realtime‑2(首个具备GPT‑5级推理的语音模型)、GPT‑Realtime‑Translate(实时翻译)和GPT‑Realtime‑Whisper(流式转录),分别面向复杂推理、实时翻译和流式转录场景,旨在帮助开发者构建能够倾听、推理、翻译、转录并实时行动的“语音代理”智能体。
![]()
据Scale Labs公布的榜单,GPT-Realtime-2(xHigh)以48.45%的平均通过率(APR)位居Audio MultiChallenge S2S排行榜首位,超越了谷歌刚发布的Gemini-3.1-flash-live-preview(Thinking)的36.06%以及前代GPT-Realtime-1.5的34.73%,并且在指令保留方面从前代的36.7%跃升至70.8%,实现翻倍。
![]()
主流实时音频模型性能对比,GPT-realtime-2以48.45分位居榜首,领先其他竞品(图源Scale Labs)
其中GPT‑Realtime‑2在Big Bench Audio基准测试中音频智能得分比前代GPT‑Realtime‑1.5高出15.2%,在Audio MultiChallenge指令跟随测试中高出13.8%,定价为每百万音频输入token 32美元(约合人民币217元)(缓存输入token 0.4美元)(约合人民币2.7元)、每百万音频输出token 64美元(约合人民币435元)。
GPT‑Realtime‑Translate支持70多种输入语言和13种输出语言,定价为每分钟0.034美元(约合人民币0.23元)。
GPT‑Realtime‑Whisper提供低延迟流式语音转录,定价为每分钟0.017美元(约合人民币0.11元)。
三款模型均已集成至Realtime API,开发者可在Playground中测试,也可在Codex中打开提示快速将GPT‑Realtime‑2添加到现有应用或启动新项目。
![]()
GPT‑Realtime‑2在CRM场景中演示实时工具调用与会议摘要生成
OpenAI官方进一步披露了GPT‑Realtime‑2的多项技术增强:
![]()
早期测试客户包括在线房地产平台Zillow、在线旅游公司Priceline以及欧洲电信公司德国电信(Deutsche Telekom)。
Zillow正在构建一个能够倾听、推理并执行请求的助手,例如“在我可承受价格范围内找房子,避开繁忙街道,并安排周六看房”。Priceline正致力于实现完全由语音管理的完整旅行体验:以对话方式搜索航班和酒店,处理航班延误后调整酒店预订等变更,获取TSA等待时间的实时更新,并在旅客抵达后翻译对话。
在定价方面,GPT‑Realtime‑2每百万音频输入token为32美元(约合人民币217元)(缓存输入token为0.4美元)(约合人民币2.7元),每百万音频输出token为64美元(约合人民币435元)。
GPT‑Realtime‑Translate是一款专为实时语音翻译设计的模型,该模型能够“跟上说话者的节奏”进行对话式实时翻译,并支持从70多种语言翻译成13种输出语言,面向客户支持、教育等场景。
OpenAI官方更详细地介绍了该模型的能力与应用:
![]()
Vimeo启用GPT‑Realtime‑Translate为视频提供多语言实时配音
![]()
OpenAI官方进一步阐述了其技术优势与应用场景:
例如,一个旅行应用可以主动告诉旅行者:“您的入境航班延误了,但您仍能赶上转机。我找到了新登机口,规划了穿过航站楼的最快路线,您的行李预计仍会转运。”
该模型定价为每分钟0.017美元(约合人民币0.11元)。
OpenAI总结道:“这些模型一起将实时音频从简单的‘问与答’推向真正能工作的语音界面。在对话展开时,可以倾听、推理、翻译、转录并采取行动。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.