网易首页 > 网易号 > 正文 申请入驻

GPT-5级推理能力塞进语音模型,OpenAI把同传翻译成本砍穿地板价

0
分享至

听雨 发自 凹非寺量子位 | 公众号 QbitAI

OpenAI上新三款实时语音模型,不仅集成了GPT-5级的推理能力,还重击了一拳同传行业:

能紧跟发言人节奏的同声传译,现在每分钟成本两毛五

三款模型分别是GPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisper,把端到端推理语音、同声传译、流式转写三件事打包进了同一套API。



效果有点炸裂。

OpenAI员工Jason Liu对着麦克风说英语,GPT-Realtime-Translate直接实时把它翻译成了日语。

整个过程流式进行,不需要等说话人说完一整句,翻译就开始跟随输出。

【此处无法插入视频,遗憾……可到量子位公众号查看~】

网友Claire Vo用ChatPRD结合GPT-Realtime-2,对着麦克风说了一句话:帮我写一份产品需求文档。

接下来的十分钟里,她没有碰过一次键盘,仅凭语音对话,AI就生成了一份完整的PRD。

她再用语音要求改格式,AI实时更新。全程对话驱动,没有键盘。

【此处无法插入视频,遗憾……可到量子位公众号查看~】

还有网友Ben Badejo,他把GPT-Realtime-2和OpenClaw集成在一起,语音指挥AI操控浏览器:打开Google,跳转到华尔街日报。

AI一边执行,一边还主动汇报进度:正在打开浏览器……现在跳转中。

【此处无法插入视频,遗憾……可到量子位公众号查看~】

他表示,自己三月份就在琢磨如何给自己的龙虾搭建语音对讲系统,现在只需要把OpenClaw连接新的OpenAI模型就行了。

仅仅几分钟就完成了重大升级。



OpenAI这次放出的三款模型,也是各有定位:

  • GPT-Realtime-2:带着GPT-5级推理说人话办人事;
  • GPT-Realtime-Translate:能把70多种语言实时翻译成13种语言输出,每分钟约2毛5。
  • GPT-Realtime-Whisper:负责边说话边出文字的低延迟转录。

官方表示,语音正逐渐成为人们使用软件最自然的方式之一。这三款模型一起,把语音从简单的听话回话,推向了真正「能干活的交互界面」——

这下,大模型真的能像人类一样,跟你边聊天边把活干了。

三款新模型:能听、能译、能推理

GPT-Realtime-2是这次的重头戏。

这是OpenAI首款搭载GPT-5级推理的语音模型,真正把推理能力塞进了端到端的语音交互里。

最直接的升级是上下文窗口:从32K直接拉到128K,翻了4倍。

这意味着语音Agent可以支撑更长的对话,处理更复杂的任务流,而不会聊着聊着就忘了前面说了什么。

推理强度还可以5档调节:minimal、low、medium、high、xhigh,默认low。

问个天气用low秒回,丢给它一个商业分析大题用xhigh慢慢推演。

但最体现GPT-5级推理的,是它开始学会边说话边干活了。

以前的语音助手,你说一句它回一句,脑子里一次只能想一件事。

GPT-Realtime-2现在支持并行工具调用,可以一边嘴里说着正在查您的日程表,一边后台同时调用地图、日历、租房软件。

【此处无法插入视频,遗憾……可到量子位公众号查看~】

官方demo中,负责人Romain Huet对着手机上的个人助手说一句:

  • 我马上有个客户会议,能帮我看一下日程吗?

模型会立刻查看日历,回复说12分钟后有一个跟Sablecrest Robotics 的CTO Alex Kim的会议。接着更新CRM,把今天的会议摘要和后续步骤录入系统。

它还学会了Preambles,也就是前置语。后台在拉数据的时候,会先对你说「让我核实一下」,或者「稍等片刻」。

这个看似废话的设计,最大程度缓解了等待时的焦虑。人在思考的时候也会说「呃让我想想」,现在AI也学会了。

语气也是可控的,平静、共情、兴奋,按需切换。

跑分怎么样?

Big Bench Audio这项评估音频推理能力的榜单上,GPT-Realtime-2(high档)拿了96.6%,上代是81.4%,提升了15.2个点。



Audio MultiChallenge测多轮对话指令跟随,xhigh档跑出48.5%,上代只有34.7%,又涨了13.8个点。



定价方面,GPT-Realtime-2按token计费,$32/1M音频输入token,$64/1M音频输出token,缓存输入只要$0.40。

和上一代GPT-Realtime-1.5价格持平,但能力大幅跃升。

在企业实测中,Zillow拿最难的对抗性基准跑了一遍,通话成功率从69%直接跳到95%,提升了26个百分点。

Zillow的SVP Josh Weisberg表示:

  • GPT-Realtime-2在复杂语音交互中的智能和工具调用可靠性最突出,Fair Housing合规性也显著增强。

这意味着语音Agent不再只是接接电话,而是真的能处理高价值、高合规要求的业务场景了。

再来看另外两款模型。

GPT-Realtime-Translate,流式同声传译。

真的是把同声传译干到了白菜价。

支持70多种语言输入,13种语言输出。它不是说一句翻译一句的回合制,而是说话人边说母语,系统边实时输出翻译,几乎没有停顿。



定价$0.034/分钟,折合人民币约2毛5

按这个价,连续翻译一小时不到15块,甚至比一杯奶茶还便宜。



对口音和方言包容度也很高。印度AI公司BolnaAI拿印地语、泰米尔语、泰卢固语这些口音浓重的语言去测,WER(词错误率)比其他模型低12.5%,延迟能维持自然对话。



GPT-Realtime-Whisper,流式实时转录。

边说话边出文字,低延迟speech-to-text。

定价$0.017/分钟,折合人民币约1毛钱,一小时连续转写不到6块钱。

应用场景主要在实时字幕、会议速记、客服通话记录、课堂笔记。

以后开会,领导刚说完前半句,屏幕上的文字已经跟上了。

同传更有性价比了

OpenAI这三款语音模型,冲击最大的应该是同声传译行业。

如果算一笔账:

人工同声传译,英语语种一天收费1.2万到2.1万元;非英语语种,比如日语、韩语、阿拉伯语,1.8万元起。

通常需要2到3名译员轮换,折算下来每小时数千至上万元。

这还不算设备。同传间、耳机、接收器,一套专业设备租一天也要几千。

所以过去能用上同传的,基本是这几种场景:国际峰会、跨国企业董事会、高端医疗会诊、法律仲裁。

普通开发者、中小教育机构、出海创业公司,基本和这个词无缘。

但现在,OpenAI亲自下场把这件事做进了API:

GPT-Realtime-Translate,定价是$0.034/分钟,折合人民币0.25元/分钟

按这个价格,连续翻译8小时,总成本不到120块,还不到人工同传两分钟的价钱,其中的差距大约是66倍

人工智能冲击传统行业……又一次具象化了。



不过呢,AI同传和人工同传目前还不是完全替代关系。

更准确来说,OpenAI做的是「让同传这件事不再是特权」

过去只有大型企业、政府机构、高端会议才用得起的服务,现在任何开发者都可以把它接进自己的产品。

一个出海电商客服系统,一个跨国视频会议工具,一个在线教育平台,甚至一个个人Chrome插件,都能拥有实时多语言翻译能力。

可以想见,人类同传的价值会向上迁移。文化语境、创意表达、法律精确性、医疗专业性,这些机器短期内还替代不了。

但基础的、高频的、标准化的翻译需求,会被API大规模吞掉。

One More Thing

聊了这么多,三款新模型,如何接入呢?

最快的方式是打开OpenAI Playground(地址附在下方),浏览器里直接测,三款模型都可用,不需要写代码。

想接入自己的项目,官方提供了Codex prompt模板,一键把GPT-Realtime-2接进现有App或新建项目。

成本方面,Whisper最便宜,一小时连续转写约1美元;Translate中等,一小时约2美元。

Realtime-2按token计费,实际成本取决于对话量和推理强度,和上一代价格持平。

感兴趣的友友们,快去体验起来吧~

Playground地址:
https://platform.openai.com/login?next=%2Faudio%2Frealtime


[1]https://x.com/OpenAI/status/2052438194625593804
[2]https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
[3]https://x.com/jxnlco/status/2052449634266812744

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
神舟二十三号香港女航天员:失重环境隐患重重,如何保障隐私?

神舟二十三号香港女航天员:失重环境隐患重重,如何保障隐私?

古史青云啊
2026-07-04 09:34:58
俄油荒发酵成“全民吐槽”:网友开始拿普京做表情包

俄油荒发酵成“全民吐槽”:网友开始拿普京做表情包

桂系007
2026-07-04 05:52:41
难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

华庭讲美食
2026-06-21 15:26:10
菲律宾与广东同是1亿多人口,菲律宾创造3.3万亿,广东是多少呢?

菲律宾与广东同是1亿多人口,菲律宾创造3.3万亿,广东是多少呢?

混沌录
2026-06-03 23:37:06
台当局不装了,大陆军舰逼近日本,台高层马上放话,彻底豁出去了

台当局不装了,大陆军舰逼近日本,台高层马上放话,彻底豁出去了

小蒋爱唠嗑
2026-07-03 04:29:53
阿根廷3:2险胜佛得角 看看媒体专家怎么说 佛得角不是为了尊重来

阿根廷3:2险胜佛得角 看看媒体专家怎么说 佛得角不是为了尊重来

金风说
2026-07-04 09:09:21
当年豪言五年甩开清华,斥资 200 亿打造西湖大学,今现状反差太大

当年豪言五年甩开清华,斥资 200 亿打造西湖大学,今现状反差太大

牛锅巴小钒
2026-07-04 10:26:15
别吹姆巴佩梅西了!西班牙撕碎双雄垄断,3-0破16年魔咒拦路法国

别吹姆巴佩梅西了!西班牙撕碎双雄垄断,3-0破16年魔咒拦路法国

通鉴史智
2026-07-04 09:46:00
北京大妈公交车上打晕患癌姑娘,一巴掌断送退休后的美好幸福生活

北京大妈公交车上打晕患癌姑娘,一巴掌断送退休后的美好幸福生活

嘉琪Feel
2025-07-09 23:05:01
勇士管理层有多愚蠢,看完这份名单你就知道了!

勇士管理层有多愚蠢,看完这份名单你就知道了!

球童纯议
2026-07-04 02:08:41
潜伏在我国高层的4大间谍,被安插在军政两界,导致我国损失惨重

潜伏在我国高层的4大间谍,被安插在军政两界,导致我国损失惨重

夜里看海
2026-07-04 05:15:32
世界杯一战爆红!阿森纳截胡利物浦抢 18 岁天才,曼联皇马全陪跑

世界杯一战爆红!阿森纳截胡利物浦抢 18 岁天才,曼联皇马全陪跑

澜归序
2026-07-04 06:55:39
北约峰会将出台重磅决定 川普TACO的最大原因浮出水面?

北约峰会将出台重磅决定 川普TACO的最大原因浮出水面?

西楼饮月
2026-07-03 17:27:38
哈兰德说胜算极低?库尼亚:他表达了尊重,我们同样尊重他们

哈兰德说胜算极低?库尼亚:他表达了尊重,我们同样尊重他们

懂球帝
2026-07-04 03:59:13
追平个人单届纪录,梅西是首位两届世界杯进球7+的球员

追平个人单届纪录,梅西是首位两届世界杯进球7+的球员

懂球帝
2026-07-04 06:57:25
中国高规格出席哈梅内伊葬礼

中国高规格出席哈梅内伊葬礼

凤眼论
2026-07-03 11:22:54
齐达内力挺马丁内斯换下C罗:世界杯不容迟疑,变阵是取胜关键

齐达内力挺马丁内斯换下C罗:世界杯不容迟疑,变阵是取胜关键

星耀国际足坛
2026-07-03 21:00:02
日本为何敢插手台海?3 个数字揭开真相,美军当年手段太狠!

日本为何敢插手台海?3 个数字揭开真相,美军当年手段太狠!

超人强动物俱乐部
2026-07-04 03:20:01
86年我给一个女犯人送饭,她偷偷塞给我一张纸条:救我,我是卧底

86年我给一个女犯人送饭,她偷偷塞给我一张纸条:救我,我是卧底

千秋文化
2026-01-20 20:48:49
谷歌清华杀妻案再延期!案发两年半凶手家疑砸千万请大律师续命,每次都甩锅遗传精神病?

谷歌清华杀妻案再延期!案发两年半凶手家疑砸千万请大律师续命,每次都甩锅遗传精神病?

英国报姐
2026-07-04 00:28:36
2026-07-04 11:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12892文章数 176508关注度
往期回顾 全部

科技要闻

iPhone 18 Pro泄密影响恶劣,印度调查塔塔

头条要闻

上海男子竞选楼组长被当众宣读犯罪记录 气得当场报警

头条要闻

上海男子竞选楼组长被当众宣读犯罪记录 气得当场报警

体育要闻

今夏最动人告别!世界从此记住佛得角

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

数码
艺术
游戏
家居
公开课

数码要闻

史上第一次!苹果Apple Watch S12表带将内置传感器

艺术要闻

16位当代画家,23幅风景与人物作品

魔兽世界:TBC团本尾王最无争议的下水道装备,谁才是真下水道?

家居要闻

传奇筑 日常诗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版