日前,OpenAI方面发布三款全新实时语音模型,分别为GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。
其中,GPT-Realtime-2专为实时语音交互设计,上下文窗口由上一代的32K增长至128K,是首款具备GPT-5级推理能力的语音模型,可以在保持对话自然流畅的前提下,实时进行逻辑推理、调用工具,并处理用户的打断或纠正。这就意味着开发者可 以借此构建更复杂的语音助手,并执行多步骤任务。
![]()
而且GPT-Realtime-2还支持调节推理强度,即支持开发者可根据需求启用最低、低、中、高和超高等不同等级的推理能力,从而在简单交互的较低延迟和复杂请求的更周密推理之间取得平衡。
OpenAI方面公布的相关信息显示,GPT-Realtime-2在Big Bench Audio中的得分上GPT-Realtime-1.5高15.2%,在Audio MultiChallenge中的得分比GPT-Realtime-1.5高13.8%。
而GPT-Realtime-Translate则聚焦实时语言翻译场景,支持70种输入语言和13种输出语言,可自动识别输入语言,并输出翻译后的语音和文本,适用于跨国会议或实时沟通场景。OpenAI方面表示,传统语音翻译常常要求说话人控制说话节奏,而GPT-Realtime-Translate更接近连续口译的形态。
GPT-Realtime-Whisper则专注于低延迟语音转文本,能在用户说话的同时转录音频。
目前这三款模型已集成至Realtime API供开发者使用,旨在助力构建更自然、更智能、更实时响应的语音体验。
价格方面,GPT-Realtime-2的音频输入定价为每百万Token 32美元,缓存输入每百万Token 0.4美元,音频输出为每百万Token 64美。GPT-Realtime-Translate和GPT-Realtime-Whisper则是按使用时长计费,分别为每分钟0.034美元和0.017美元。
【本文图片来自网络】
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.