网易首页 > 网易号 > 正文 申请入驻

OpenAI首发GPT-5级推理语音模型,传统同传不存在了?

0
分享至


智东西
编译 高远瞩
编辑 程茜

智东西5月8日报道,5月7日,OpenAI在Realtime API中推出三款音频模型——GPT‑Realtime‑2(首个具备GPT‑5级推理的语音模型)、GPT‑Realtime‑Translate(实时翻译)和GPT‑Realtime‑Whisper(流式转录),分别面向复杂推理、实时翻译和流式转录场景,旨在帮助开发者构建能够倾听、推理、翻译、转录并实时行动的“语音代理”智能体。

在长达约40秒的双人对话演示中,新语音模型对连续的法语语音输入进行了实时翻译,英语译文在对方说话过程中便几乎同步生成。

▲实时翻译演示界面,上方为法语输入波形,下方为实时生成的英语译文片段

OpenAI CEO Sam Altman发文称:“人们真的开始大量使用语音与AI交互,尤其是当他们需要快速传递大量上下文的时候。GPT-Realtime-2今天在API中上线,这是一个相当大的进步。”


▲Sam Altman在X平台上发文

据Scale Labs公布的榜单,GPT-Realtime-2(xHigh)以48.45%的平均通过率(APR)位居Audio MultiChallenge S2S排行榜首位超越了谷歌刚发布的Gemini-3.1-flash-live-preview(Thinking)的36.06%以及前代GPT-Realtime-1.5的34.73%,并且在指令保留方面从前代的36.7%跃升至70.8%,实现翻倍。


▲主流实时音频模型性能对比,GPT-realtime-2以48.45分位居榜首,领先其他竞品(图源Scale Labs)

其中GPT‑Realtime‑2在Big Bench Audio基准测试中音频智能得分比前代GPT‑Realtime‑1.5高出15.2%,在Audio MultiChallenge指令跟随测试中高出13.8%,定价为每百万音频输入token 32美元(约合人民币217元)(缓存输入token 0.4美元)(约合人民币2.7元)、每百万音频输出token 64美元(约合人民币435元)。

GPT‑Realtime‑Translate支持70多种输入语言和13种输出语言,定价为每分钟0.034美元(约合人民币0.23元)。

GPT‑Realtime‑Whisper提供低延迟流式语音转录,定价为每分钟0.017美元(约合人民币0.11元)。

三款模型均已集成至Realtime API,开发者可在Playground中测试,也可在Codex中打开提示快速将GPT‑Realtime‑2添加到现有应用或启动新项目。

OpenAI称,构建有用的语音产品不仅仅是快速轮转或声音自然,语音代理需要理解用户意图、跟踪上下文、在请求变更时恢复、在对话进行中调用工具并以适当的语气回应,新发布的模型正是针对这些挑战而设计。

一、GPT‑Realtime‑2:具备GPT‑5级推理与128K上下文的新一代语音模型

GPT‑Realtime‑2是OpenAI首个集成GPT‑5级推理的语音模型,与上一代GPT‑Realtime‑1.5相比,该模型专为处理更复杂的用户请求而设计,能够调用工具、处理打断、在长语音会话中保持上下文连贯。


▲GPT‑Realtime‑2在CRM场景中演示实时工具调用与会议摘要生成

OpenAI官方进一步披露了GPT‑Realtime‑2的多项技术增强:

  • 上下文窗口大幅扩展:从32K tokens提升至128K tokens,支持更长的连贯会话和更复杂的代理工作流。
  • 可调节的推理强度:开发者可以在minimal、low、medium、high、xhigh五档中选择,默认值为low,以便在简单交互中获得较低延迟,而在复杂请求中进行更谨慎的推理。
  • 前导语(Preambles):开发者可启用“让我查一下”或“请稍等,我正在核实”等短语音提示,让用户知道代理正在处理请求。
  • 并行工具调用与工具透明性:模型可同时调用多个工具,并通过“正在检查日历”“正在查询”等语音提示让动作可听,帮助代理在完成任务的同时保持响应性。
  • 更强的恢复行为:当遇到问题时,模型会说出“我现在遇到点困难”之类的语句,而非静默失败或打断对话。
  • 更可控的语气与表达:解决问题时冷静说话,用户沮丧时表现出共情,成功确认行动时保持积极语调。
  • 更强的领域理解:模型能更好地保留专业术语、专有名词、医疗术语以及其他在生产环境中重要的词汇。

在基准测试中,GPT‑Realtime‑2(high)在Big Bench Audio上的音频智能得分比GPT‑Realtime‑1.5高出15.2%;GPT‑Realtime‑2(xhigh)在Audio MultiChallenge指令跟随测试中得分比前代高出13.8%,在前代基础上展示了更强的推理、上下文管理和实时对话控制能力

Big Bench Audio评估支持音频输入的语言模型的复杂推理能力,Audio MultiChallenge则评估多轮对话系统中的指令跟随、上下文整合、自洽性以及处理自然语音纠正的能力。


早期测试客户包括在线房地产平台Zillow、在线旅游公司Priceline以及欧洲电信公司德国电信(Deutsche Telekom)。

Zillow正在构建一个能够倾听、推理并执行请求的助手,例如“在我可承受价格范围内找房子,避开繁忙街道,并安排周六看房”。Priceline正致力于实现完全由语音管理的完整旅行体验:以对话方式搜索航班和酒店,处理航班延误后调整酒店预订等变更,获取TSA等待时间的实时更新,并在旅客抵达后翻译对话。

在定价方面,GPT‑Realtime‑2每百万音频输入token为32美元(约合人民币217元)(缓存输入token为0.4美元)(约合人民币2.7元),每百万音频输出token为64美元(约合人民币435元)。

二、GPT‑Realtime‑Translate:支持70+输入语言与13种输出语言的实时翻译模型

GPT‑Realtime‑Translate是一款专为实时语音翻译设计的模型,该模型能够“跟上说话者的节奏”进行对话式实时翻译,并支持从70多种语言翻译成13种输出语言,面向客户支持、教育等场景。

OpenAI官方更详细地介绍了该模型的能力与应用:

  • 支持70多种输入语言和13种输出语言,可应用于客户支持、跨境销售、教育、活动、媒体以及服务全球受众的创作者平台。
  • 实时翻译需要保持语义准确的同时跟上说话者节奏,即使人们自然说话、切换话题、使用地区发音或领域特定语言时也能稳定工作。
  • 德国电信正在测试该模型用于多语言语音交互,更低的延迟和更强的流畅度使跨语言对话感觉更自然。
  • 视频平台Vimeo使用GPT‑Realtime‑Translate在播放过程中实时翻译产品教育视频,全球客户无需等待单独制作的版本,即可用自己偏好的语言收听更新。


▲Vimeo启用GPT‑Realtime‑Translate为视频提供多语言实时配音

OpenAI在官方博客中演示了一个典型“语音到语音”(Voice‑to‑voice)的模式:人工智能可以帮助实时对话跨语言、跨任务或跨变化上下文继续进行,其定价为每分钟0.034美元(约合人民币0.23元)。


三、GPT‑Realtime‑Whisper:低延迟流式转录,实时生成字幕与会议记录

GPT‑Realtime‑Whisper是一个全新的流式语音转录模型,该模型提供实时语音转文字功能,可在说话者讲话的同时生成字幕、会议记录和工作流程更新。

OpenAI官方进一步阐述了其技术优势与应用场景:

  • 模型在人们说话时实时转录音频,使实时产品感觉更快、更灵敏、更自然,从即时出现的字幕,到能跟上对话速度的会议记录。
  • 可以在对话仍在进行时就生成备注和摘要,为客服、医疗、销售、招聘等高频语音交互创建更快速的后续工作流程。
  • 支持为会议、课堂、广播和活动提供实时字幕;为正在进行中的对话生成笔记和摘要;构建需要连续理解用户的语音代理。
  • 使实时语音能够在业务工作流中即时使用

OpenAI在官方博客中将其归类为“系统到语音”(Systems‑to‑voice)模式的一种体现,软件可以将上下文转化为实时语音指导。

例如,一个旅行应用可以主动告诉旅行者:“您的入境航班延误了,但您仍能赶上转机。我找到了新登机口,规划了穿过航站楼的最快路线,您的行李预计仍会转运。”

该模型定价为每分钟0.017美元(约合人民币0.11元)。

结语:语音模型全集成,Realtime API开放测试

在安全方面,OpenAI为Realtime API植入了多层防护与缓解措施:通过主动分类器监控API会话,一旦检测到违反有害内容指南的对话即可中止,开发者也可以使用Agents SDK轻松添加自己的额外安全护栏。OpenAI的使用政策禁止将其服务输出用于垃圾邮件、欺诈或其他有害目的,并要求开发者向最终用户明确表明正在与AI交互(除非从上下文中已显而易见)。Realtime API完全支持欧盟数据驻留要求,并覆盖企业隐私承诺。

OpenAI总结道:“这些模型一起将实时音频从简单的‘问与答’推向真正能工作的语音界面。在对话展开时,可以倾听、推理、翻译、转录并采取行动。”

来源:OpenAI、路透社、TechCrunch

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
峨眉山男子推猴后续:正脸曝光已社死,官方下场,工作恐保不住

峨眉山男子推猴后续:正脸曝光已社死,官方下场,工作恐保不住

浅色夏么
2026-05-08 12:21:46
“别再什么都往豆包上发了!”男子发私照让豆包评论身材,结果...

“别再什么都往豆包上发了!”男子发私照让豆包评论身材,结果...

黎兜兜
2026-05-08 21:24:26
张本智和:不是所有3-0赢球的球队都能拿金牌 下一场只要能赢就行

张本智和:不是所有3-0赢球的球队都能拿金牌 下一场只要能赢就行

劲爆体坛
2026-05-08 08:58:03
河北王牌景区白洋淀彻底翻车!五一前3天不到2万人,口碑彻底烂了

河北王牌景区白洋淀彻底翻车!五一前3天不到2万人,口碑彻底烂了

谭谈社会
2026-05-07 20:44:05
别只吃鸡蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

别只吃鸡蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

全球军事记
2026-05-08 21:21:30
邮轮暴发汉坦病毒疫情!张文宏紧急发声:这一点比新冠更可怕

邮轮暴发汉坦病毒疫情!张文宏紧急发声:这一点比新冠更可怕

娱乐圈的笔娱君
2026-05-09 00:46:51
分析:骑士队用加兰换哈登的交易似乎适得其反,但这真是个错误吗

分析:骑士队用加兰换哈登的交易似乎适得其反,但这真是个错误吗

好火子
2026-05-09 05:00:17
女子川西徒步遇难:全过程曝光,队友恐担责,网友怒斥不值得同情

女子川西徒步遇难:全过程曝光,队友恐担责,网友怒斥不值得同情

智慧生活笔记
2026-05-08 11:37:52
先访华再访日?美方故技重施不奏效,这次把特朗普拿捏得死死的!

先访华再访日?美方故技重施不奏效,这次把特朗普拿捏得死死的!

潮鹿逐梦
2026-05-08 18:04:52
国务院一纸令下!六月起强制执行,骑电动车再也不用见警就躲了

国务院一纸令下!六月起强制执行,骑电动车再也不用见警就躲了

今朝牛马
2026-05-07 20:58:21
两任国防部长判死缓,今天不得不提这个人了。

两任国防部长判死缓,今天不得不提这个人了。

华人星光
2026-05-08 11:04:21
状态低迷事出有因?骑士队记:哈登G2比赛后疑似左手受伤

状态低迷事出有因?骑士队记:哈登G2比赛后疑似左手受伤

懂球帝
2026-05-08 23:22:32
难怪中方迟迟不表态,美媒道出扎心真相:原来中方早看不上我们了

难怪中方迟迟不表态,美媒道出扎心真相:原来中方早看不上我们了

十夏九漓
2026-05-08 14:56:10
续航一夜蒸发200公里,8家新能源车企远程“锁电”被约谈,3家被立案调查

续航一夜蒸发200公里,8家新能源车企远程“锁电”被约谈,3家被立案调查

金融界
2026-05-07 18:29:15
CPO/光模块:龙头十五强,谁还在低位?

CPO/光模块:龙头十五强,谁还在低位?

普陀动物世界
2026-05-08 09:15:08
真没想到!吴宜泽刚拿世界冠军,丁俊晖的幕后付出终于被公开

真没想到!吴宜泽刚拿世界冠军,丁俊晖的幕后付出终于被公开

十点街球体育
2026-05-08 15:38:58
卡西发文称愿意请回阿隆索,皮克评论:那你觉得那场架谁赢了

卡西发文称愿意请回阿隆索,皮克评论:那你觉得那场架谁赢了

懂球帝
2026-05-09 06:48:09
浙江:今起,这几类海鲜禁售

浙江:今起,这几类海鲜禁售

上观新闻
2026-05-08 21:25:09
谢娜演唱会庆功宴曝光不到一天,难堪一幕上演,张杰沦为众矢之的

谢娜演唱会庆功宴曝光不到一天,难堪一幕上演,张杰沦为众矢之的

暖心萌阿菇凉
2026-05-09 02:26:36
头号詹黑贝勒斯:詹姆斯排历史第9 心理素质最脆弱+失去裁判尊重

头号詹黑贝勒斯:詹姆斯排历史第9 心理素质最脆弱+失去裁判尊重

罗说NBA
2026-05-09 06:11:38
2026-05-09 07:07:01
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11777文章数 117063关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

家居
房产
亲子
旅游
军事航空

家居要闻

流动的尺度 打破家的形式主义

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

亲子要闻

小锐锐会走路后笑得很开心

旅游要闻

社评:中国的“Country Walk”何以吸引西方年轻人

军事要闻

伊朗:最高领袖穆杰塔巴全面掌控局势

无障碍浏览 进入关怀版