网易首页 > 网易号 > 正文 申请入驻

终于能听 GPT-5 给我说人话了

0
分享至

不知道大家平时有没有这种经历。

每次遇到点急事,打给各大公司的智能客服,电话那头永远是那个字正腔圆但毫无感情的声音:「查询服务请按 1,人工服务请按 0……」接着就是漫长的音乐,以及那句让人抓狂的「对不起,我没听懂,请再说一遍」。


但就在刚刚,OpenAI 发布了 Realtime API 实时语音模型的全家桶。看了看他们的演示,这回,他们是真心想让机器说「人话」,办「人事」。



省流版如下:

GPT-Realtime-2: 构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断,并让对话持续自然地进行。

GPT-Realtime-Translate:支持 70 多种输入语言和 13 种输出语言的实时翻译,打破语言障碍,帮助人们更自然地交流。

GPT-Realtime-Whisper:实时转录音频流,生成字幕和注释。

终于,AI 学会了「稍等片刻」

如果说拟人化是面子,那么底层的推理能力就是里子。

这次的主力选手非 GPT-Realtime-2 莫属,基准测试结果显示,GPT-Realtime-2 在 Big Bench Audio(音频智能测试)上比上一代高了 15.2%,在 Audio MultiChallenge(多轮对话指令跟随测试)上高了 13.8%。Zillow 内部用最难的对抗性测试跑了一遍,调用成功率从 69% 跳到了 95%,提升了 26 个百分点。


以前的语音助手,脑回路其实很直。你说「放首歌」,它放一首歌;你说「关灯」,它把灯关了。如果你一口气给它布置三个任务,顺便还改了两次主意,它八成就当场罢工了。

但 GPT-Realtime-2 不一样之处在于,OpenAI 直接把 GPT-5 级别的推理能力塞进了这个语音模型里,给我一种 GPT-5「说人话」的即视感。

举个很实在的例子,假设你正在开车,随口吩咐它:「帮我找个离地铁站近的房子,租金别太贵,避开那些主干道,如果可以的话,周六下午帮我约个中介看房。」

网友 @clairevo 演示了用 GPT-Realtime-2 跑完一个完整的 PRD(产品需求文档)写作流程:先口述需求,AI 生成文档,再用语音要求改格式,AI 随即更新,全程对话驱动,没有动过键盘。 https://x.com/clairevo/status/2052477386059653366

这就不是简单的语音识别了,这需要它听懂你的各种限制条件,去地图上筛位置,去对比价格,最后还要去匹配中介的时间表。为了干好这种复杂的活,OpenAI 给它点亮了两个非常特别的技能树。

第一个技能,叫「Parallel tool calls(并行工具调用)」。它现在可以多线程操作,一边跟你讲着话,脑子里一边同时调动地图、日历、租房软件好几个工具。你可以听到它在电话里嘀咕:「正在看您的日程表……」「正在查找附近的房源……」这就很像你给一个得力助手打电话,你能听见他在电话那头噼里啪啦敲键盘查资料的声音。


用户 Ben Badejo 通过和 GPT-Realtime-2 直接对话,借助 OpenClaw 用语音驱动 AI 操控浏览器,先打开 Google,再跳转到华尔街日报网站。整个过程中,AI 一边执行操作,一边主动说明自己在没有浏览器权限时还能帮上哪些忙。 https://x.com/BenjaminBadejo/status/2052511264476147762

这就引出了第二个,也是我觉得最有人情味的一个更新——「Preambles(开场白)」。

人在思考或者处理复杂事情的时候,是做不到秒回的,我们通常会说「呃,让我想想」或者「稍等啊,我找找」。现在 AI 也学会这一招了。当它在后台疯狂拉取数据的时候,它会非常自然地对你说:「好的,没问题,给我一小会儿时间我来核实一下。」

这种看似「废话」的设计,反而最大程度缓解了我们等待时的焦虑感。

有意思的是,开发者现在能控制它的推理强度(从极简到极高: minimal、low、 medium、high、xhigh )。你要是问它今天下不下雨,它就用最快速度回你;要是你丢给它一个「帮我盘一盘开个咖啡店会不会亏本」的商业大题,它就会拉满算力跟你慢慢分析。

把「同声传译」变成白菜价?

除了 GPT-Realtime-2,这次还有个非常抢眼的配角:GPT-Realtime-Translate(实时翻译)。

咱们平时用的翻译软件,大部分是「回合制」的。你按住说话,松手,等几秒,机器再字正腔圆地播报出来。如果是旅游问个路还行,要是真拿来开跨国会议,那种互相大眼瞪小眼的停顿,尴尬得能让人用脚趾抠出个三室一厅。

但这个新模型,主打就是一个「实时翻译」。

它支持 70 多种语言输入,能做到你在那边滔滔不绝,它在另一头几乎同步地输出翻译结果。更厉害的是它对各种「口音」的包容度。印度有家叫 BolnaAI 的公司拿印地语的浓重口音去测它,结果发现这模型不仅没被绕晕,准确率还比其他同类产品高了一大截。

开发者 Peter Gostev 做了个 Chrome 插件,直接接入 YouTube 视频,边播边把内容实时翻译成多种语言,中文表现不错,但多少还是有点口音, https://x.com/petergostev/status/2052443418526134761

以后大家在网上看国外大神没有字幕的实操教程,或者听某些没有同传的海外发布会,直接把这个插件一开,它就能顺着原视频的节奏,稳稳当当把你熟悉的母语送到你耳朵里。

除此之外,加上刚刚发布的 GPT-Realtime-Whisper(极低延迟的语音转文字)功能,以后遇到开会的场景,领导在说话,你这边的屏幕上就已经实时把大饼转化成了结构清晰的会议纪要。

至于定价方面,GPT-Realtime-Whisper 是每分钟 0.017 美元,GPT-Realtime-Translate 是每分钟 0.034 美元,GPT-Realtime-2 按 token 计费,音频输入 32 美元 / 百万 token,音频输出 64 美元 / 百万 token。


而把这些功能凑在一起看,我们会发现软件的逻辑正在发生根本性的变化。

以前,我们要学习怎么用键盘敲代码,怎么在复杂的菜单栏里找功能,怎么把自己的需求翻译成 AI 能懂的关键词。但现在的趋势是,AI 反过来开始迁就我们了。

语音,正在从一个笨拙的「辅助功能」,变成我们掌控数字世界最自然的接口。因为说话,本来就是人类最不需要学习的本能。

技术发展的尽头,总是倾向于把复杂的东西藏起来,把最简单、最自然的一面留给普通人。或许就在不久的将来,你出门真的只需要带个耳机,靠一张嘴就能搞定所有工作和生活琐事。

不过话说回来,这也挺让人感慨的。当我们习惯了那个永远情绪稳定、甚至还能看懂所有潜台词的 AI 之后,我们还能忍受现实世界里,人类之间那充满误解和低效的沟通吗?

附上博客地址:

https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

*封面由 AI 生成

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马筱梅直播时儿子意外出镜,白皮肤肉嘟嘟的,筱梅满眼爱意藏不住

马筱梅直播时儿子意外出镜,白皮肤肉嘟嘟的,筱梅满眼爱意藏不住

日不西沉
2026-05-10 04:17:07
锁死海峡!阿联酋突袭伊朗,埃及阵风战机驰援:伊朗遭遇凶险包围

锁死海峡!阿联酋突袭伊朗,埃及阵风战机驰援:伊朗遭遇凶险包围

知法而形
2026-05-08 16:39:04
难怪特朗普访华中方迟迟不表态,美媒:原来中方早看不上我们了

难怪特朗普访华中方迟迟不表态,美媒:原来中方早看不上我们了

云舟史策
2026-05-10 07:19:49
中国男乒四大“贵公子”:家境优渥不缺钱,仍为梦想拼尽全力

中国男乒四大“贵公子”:家境优渥不缺钱,仍为梦想拼尽全力

郭揦包工头
2026-04-29 16:09:40
高市早苗表情管理又崩了:与澳大利亚总理同行时,突然张大嘴巴!

高市早苗表情管理又崩了:与澳大利亚总理同行时,突然张大嘴巴!

阿龙聊军事
2026-05-09 19:23:40
日乒录像研究孙颖莎,莎莎训练新招式逗笑马琳邱贻可

日乒录像研究孙颖莎,莎莎训练新招式逗笑马琳邱贻可

乒乓网国球汇
2026-05-10 10:04:28
罗翔:如果一个人突然努力工作,业余时间开始学习,不再参加社交活动,那么,身边的人可能不仅不会帮他,还会拉他下来,原因就一个!

罗翔:如果一个人突然努力工作,业余时间开始学习,不再参加社交活动,那么,身边的人可能不仅不会帮他,还会拉他下来,原因就一个!

谭老师地理大课堂
2026-04-22 00:03:57
“典型的恶婆婆面相”,3年级男孩还要喂饭,母亲的面相暴露问题

“典型的恶婆婆面相”,3年级男孩还要喂饭,母亲的面相暴露问题

妍妍教育日记
2026-05-04 15:49:36
禁止所有中国外交官入境,不让两岸统一,这个国家比美嚣张多了

禁止所有中国外交官入境,不让两岸统一,这个国家比美嚣张多了

共工之锚
2026-05-03 00:08:08
队报:登贝莱续约大框架已确定,他将和巴黎签长期合同

队报:登贝莱续约大框架已确定,他将和巴黎签长期合同

懂球帝
2026-05-10 04:24:05
山东男篮惨败,邱彪赛后爆粗:觉得很丢人,有球员就不是职业球员

山东男篮惨败,邱彪赛后爆粗:觉得很丢人,有球员就不是职业球员

中国篮坛快讯
2026-05-10 09:30:18
河北多地漫天杨絮似大雪纷飞 省绿办:多年前曾定下治理时间表 每年都有打药等防治措施

河北多地漫天杨絮似大雪纷飞 省绿办:多年前曾定下治理时间表 每年都有打药等防治措施

闪电新闻
2026-05-09 12:40:08
担心克雷桑!马纳法红牌冤枉!鲁媒:搞心态,克雷桑也难逃红牌

担心克雷桑!马纳法红牌冤枉!鲁媒:搞心态,克雷桑也难逃红牌

建哥说体育
2026-05-10 08:38:14
出轨的人都在想:为什么偷来的更刺激

出轨的人都在想:为什么偷来的更刺激

时光慢邮啊
2026-05-10 06:06:12
哈登19+7创历史第1神迹还刷爆纪录,骑士拒绝17分逆转!双塔归位

哈登19+7创历史第1神迹还刷爆纪录,骑士拒绝17分逆转!双塔归位

一将篮球
2026-05-10 08:53:23
为什么新冠阳过以后,大部分人查出肺结节?为你揭开真相!

为什么新冠阳过以后,大部分人查出肺结节?为你揭开真相!

健康之光
2026-05-10 06:30:08
推猴男子72小时被扒透:从一段视频到单位找上门,他踩中了几颗雷

推猴男子72小时被扒透:从一段视频到单位找上门,他踩中了几颗雷

水泥土的搞笑
2026-05-10 09:35:05
米切尔35分10板,火箭登限时返场,这一战让我彻底看清3个事实

米切尔35分10板,火箭登限时返场,这一战让我彻底看清3个事实

世界体育圈
2026-05-10 09:49:50
北京开展“僵尸车”清理 公示7天无认领车辆将被集中处理

北京开展“僵尸车”清理 公示7天无认领车辆将被集中处理

环球网资讯
2026-05-09 16:24:22
委内瑞拉的转身:当反美口号输给了石油工人的饭碗

委内瑞拉的转身:当反美口号输给了石油工人的饭碗

民间胡扯老哥
2026-05-05 06:15:03
2026-05-10 11:07:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6363文章数 26832关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

媒体:高市要建日版"中情局" 不仅是为重启"军国主义"

头条要闻

媒体:高市要建日版"中情局" 不仅是为重启"军国主义"

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

消失已久的陈宝国,近况曝光惹人揪心

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

手机
健康
教育
艺术
时尚

手机要闻

荣耀MagicOS五月更新来了,大揭秘后,细节都清晰了!

干细胞能让人“返老还童”吗

教育要闻

特级教师陈红梅:打造一间“具身交互”的读写教室

艺术要闻

毛主席83岁时写给华国锋的6字真相令人震惊!

越减越胖的人 ,被“0糖0脂”做局了

无障碍浏览 进入关怀版