网易首页 > 网易号 > 正文 申请入驻

OpenAI一口气推出三个语音模型,这次到底升级了什么?

0
分享至

刚读到一条挺有意思的新闻,OpenAI 刚刚在 API 里塞进了三个新的语音智能功能。对于想做 AI 应用开发者或者对 AI 语音能力感兴趣的朋友来说,这次有几个点挺值得关注。



这次更新最核心的是三个模型。

第一个叫 GPT-Realtime-2,官方说是基于 GPT-5 级别推理能力打造的。说白了就是能处理更复杂的多轮对话,不再只是简单的你问我答。用过 GPT-Realtime-1.5 的同学应该知道,那个版本偶尔会出现"听懂但处理不好复杂请求"的问题,这次算是直接补上了。GPT-5 级别的推理能力意味着什么?意味着它不只是识别你说的词,还会理解你为什么要说这句话,背后的意图是什么,这在多轮对话里是质变。

第二个是 GPT-Realtime-Translate,专门解决实时翻译的场景。官方说它支持超过 70 种输入语言,输出语言有 13 种,基本上主流语言都覆盖了。关键是它的设计目标是"跟上说话人的语速",听起来像是做同传的那味儿了。对做跨境电商、跨国会议工具的团队来说,这个值得关注——想想看,以前做一个实时翻译工具,光是语音识别+机器翻译+语音合成这套链路就够折腾了,现在直接调 API 可能就能实现。

第三个是 GPT-Realtime-Whisper,说白了就是把 OpenAI 自家 Whisper 的语音转文字能力整合进来了,而且是实时的——对话发生的同时文字就出来了,不需要等说完再转。之前用 Whisper 的都知道,Whisper 转文字很强,但延迟是个问题,现在这个问题被解决了。

OpenAI 自己在公告里写了一句我觉得挺精准的话:它们想把实时音频从"简单的问答"升级成"真正能干活"的语音界面,听、推理、翻译、转写、执行,这些动作会在对话进行中同时发生。说实话,以前业界对"语音 AI"的认知更多停留在"语音输入+文字输出"的阶段,这次 OpenAI 画了一个更大的饼。

至于谁能用上这些功能,OpenAI 点了几个方向:客服系统肯定是第一个,教育类的应用、媒体内容创作、活动现场工具、创作者平台都有戏。当然,考虑到这些能力有没有可能被滥用——比如合成别人声音搞诈骗——官方也说已经内置了一些"刹车"机制,检测到违规对话会自动中断。但具体效果怎么样,估计还得等真正跑起来才知道。

计费方式也有点讲究:Translate 和 Whisper 按分钟计费,GPT-Realtime-2 则按 token 消耗来收。对应用开发者来说,怎么组合使用这几个模型会直接影响成本,这个得实际跑一跑才能算清楚。比如一个客服场景,是全程开 GPT-Realtime-2 还是要结合 Whisper 做降本,这个要具体情况具体分析。

整体看下来,这次更新的思路挺清晰的——不只是给你一个"能说话的 AI",而是给你一整套能听、会说、翻得快、转得准的语音能力包。对开发者而言,接下来能不能做出点不一样的东西,就看创意和调教了。如果你正好在琢磨语音相关的应用,现在可能是个不错的入局时机。想想以前要实现这些能力,光是接语音识别、机器翻译、语音合成这几个服务就够头疼了,现在 OpenAI 把它们打包成一套 API,价格和体验都比较友好。但话说回来,最终能不能做出用户真正愿意用的产品,还是得看垂直场景的深耕——API 能力再强,用不对地方也是白搭。

声明:内容由AI生成

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
37死51伤!浏阳烟花厂爆炸原因查明,公司实际控制人被扒,后续!

37死51伤!浏阳烟花厂爆炸原因查明,公司实际控制人被扒,后续!

眼光很亮
2026-05-10 05:50:27
随着38岁梅西独造3球+迈阿密国际4-2,美职联最新积分榜出炉

随着38岁梅西独造3球+迈阿密国际4-2,美职联最新积分榜出炉

侧身凌空斩
2026-05-10 03:21:03
新规落地!手机不用再交月租,联通率先实行,移动电信全都跟上

新规落地!手机不用再交月租,联通率先实行,移动电信全都跟上

笑熬浆糊111
2026-05-09 04:47:09
重磅:乌克兰在俄罗斯领土库尔斯克构建90平方公里缓冲区!

重磅:乌克兰在俄罗斯领土库尔斯克构建90平方公里缓冲区!

项鹏飞
2026-05-09 20:32:37
A股唯一一家,比尔盖茨重仓固态电池,一季度从0加到1060万股

A股唯一一家,比尔盖茨重仓固态电池,一季度从0加到1060万股

长风价值掘金
2026-05-09 21:00:27
罕见!韩媒:韩国总统、国会议长、韩执政党党首同日落泪

罕见!韩媒:韩国总统、国会议长、韩执政党党首同日落泪

环球网资讯
2026-05-09 11:57:09
3-0!神锋两场连轰3脚世界波 13.1亿豪门5轮4胜 争冠形势再生变

3-0!神锋两场连轰3脚世界波 13.1亿豪门5轮4胜 争冠形势再生变

狍子歪解体坛
2026-05-10 02:24:36
摊牌!!除了球队老大!全部都卖!!!

摊牌!!除了球队老大!全部都卖!!!

柚子说球
2026-05-09 22:44:07
近10年学术不端名单:协和“4+4”董袭莹、“首席科学家”郭伟、“不知知网”翟天临

近10年学术不端名单:协和“4+4”董袭莹、“首席科学家”郭伟、“不知知网”翟天临

网易新闻出品
2026-05-09 18:38:13
他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

他套现百亿,留下27万股民和一张ST废纸,闻泰科技给投资者上了一课

A活着
2026-05-09 20:47:26
中国第1人!赵心童力压吴宜泽,斩获WST年度大奖,丁俊晖从未当选

中国第1人!赵心童力压吴宜泽,斩获WST年度大奖,丁俊晖从未当选

刘姚尧的文字城堡
2026-05-09 09:05:43
“4只皮皮虾1035元”当事人否认想吃白食,删除评论;隔壁海鲜店发声

“4只皮皮虾1035元”当事人否认想吃白食,删除评论;隔壁海鲜店发声

上观新闻
2026-05-09 09:58:08
南宁一群众到法院申请立案被法警群殴断两根肋骨!警方:不予立案

南宁一群众到法院申请立案被法警群殴断两根肋骨!警方:不予立案

兵叔评说
2026-05-09 13:21:06
仅退款榴莲后续,商家向误伤女孩道歉,店铺销量爆增,涨粉近5万

仅退款榴莲后续,商家向误伤女孩道歉,店铺销量爆增,涨粉近5万

夜深爱杂谈
2026-05-09 23:33:25
真狠!连跌两年从14跌到2.86又横盘8年,吕强、高盛、摩根却重仓

真狠!连跌两年从14跌到2.86又横盘8年,吕强、高盛、摩根却重仓

长风价值掘金
2026-05-09 22:32:49
马斯克:每年休息两三天,试过睡不到6小时结果脑子很痛效率很低

马斯克:每年休息两三天,试过睡不到6小时结果脑子很痛效率很低

顶级大佬思维
2026-05-09 14:23:20
法拉奇横空出世,英国政治正式进入“川普化”新时代

法拉奇横空出世,英国政治正式进入“川普化”新时代

壹家言
2026-05-09 16:03:04
是离谱还是荒诞,国家反诈APP里的个人信息也能被贩卖

是离谱还是荒诞,国家反诈APP里的个人信息也能被贩卖

林中木白
2026-05-09 20:30:32
台北出现汉坦病毒致死病例!网友扒出竟早有预言,专家否认人传人

台北出现汉坦病毒致死病例!网友扒出竟早有预言,专家否认人传人

派大星纪录片
2026-05-09 10:46:16
一张照片 认出了杨幂 认出了李冰冰 唯独没有认出站在C位的美女是谁

一张照片 认出了杨幂 认出了李冰冰 唯独没有认出站在C位的美女是谁

喜欢历史的阿繁
2026-05-10 02:05:40
2026-05-10 08:44:49
米小韦
米小韦
专注AI应用
223文章数 1关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

美军对伊朗多个目标发动打击 伊朗革命卫队深夜警告

头条要闻

美军对伊朗多个目标发动打击 伊朗革命卫队深夜警告

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

多地号召,公职人员带头缴纳物业费

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
本地
数码
艺术
公开课

教育要闻

26高考选专业,普通家庭该避开哪些坑?

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

TCL华星t8项目提前封顶 印刷OLED规模化量产提速

艺术要闻

母亲节 | 16位西方画家笔下的母爱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版