OpenAI 今日发布三款全新的实时语音模型,旨在为开发者「解锁新一代语音应用形态」。这三款语音智能模型分别侧重推理对话、实时翻译和实时转录等不同场景需求。
根据OpenAI 公布的信息,新系列包括 GPTRealtime2、GPTRealtimeTranslate 和 GPTRealtimeWhisper 三个模型。其中,GPTRealtime2 被定位为首款具备 GPT5 级推理能力的语音模型,能够更好地处理复杂请求,并以更自然的方式持续推进对话。官方介绍称,该模型专为实时语音交互打造,在用户提问或发出指令时,一边进行推理、一边保持对话连贯,同时还能调用工具、处理用户打断和更正,并根据当下情境作出更贴切的回应。
第二款模型GPTRealtimeTranslate 主打实时翻译能力,可支持「70 多种输入语言和 13 种输出语言」,并在翻译过程中尽量跟上说话者的语速。
第三款GPTRealtimeWhisper 则是一款实时流式语音转写模型,聚焦低延迟语音转文本能力。
在接入方式与价格方面,OpenAI 称三款新语音模型均已纳入其 Realtime API 体系。GPTRealtime2 的定价为每 100 万音频输入 Token 收费 32 美元(缓存输入 Token 为 0.40 美元),每 100 万音频输出 Token 收费 64 美元。GPTRealtimeTranslate 的价格为每分钟 0.034 美元,而 GPTRealtimeWhisper 的价格为每分钟 0.017 美元。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.