来源:市场资讯
(来源:IT之家)
IT之家 5 月 8 日消息,OpenAI 发布三款实时语音模型,分别针对推理、翻译和转录场景,集成于 Realtime API 供开发者调用。这三款模型为实时语音应用提供底层技术支撑,目标解决语音交互中的延迟、打断处理和多语言支持难题。
GPT-Realtime-2 专为实时交互设计,是首款具备 GPT-5 级推理能力的语音模型。它在保持对话自然流畅的前提下,能在对话过程中进行推理、调用工具,并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手,并能执行多步骤任务。
![]()
定价方面,GPT-Realtime-2 音频输入定价为每百万 Token 费用 32 美元(IT之家注:现汇率约合 218.1 元人民币),输出为 64 美元(现汇率约合 436.2 元人民币),缓存输入仅需 0.4 美元。
GPT-Realtime-Translate 支持 70 种输入语言转 13 种输出语言,翻译速度与说话者同步,适用于跨国会议或实时沟通场景。
GPT-Realtime-Whisper 则专注于低延迟流式转录,音频随说随转,让实时字幕和会议记录能跟上对话节奏,减少等待时间。翻译和转录模型按分钟计费,分别为每分钟 0.034 美元和 0.017 美元。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.