网易首页 > 网易号 > 正文 申请入驻

OpenAI杀入语音模型大战!祭出最强GPT-RealTime,加量还降价

0
分享至


智东西
编译 程茜
编辑 李水青

智东西8月29日消息,今天凌晨,OpenAI发布为开发人员打造的语音转语音模型GPT-RealTime,并同步更新了包括远程MCP服务器支持、图像输入和SIP(通过会话发起协议)电话呼叫支持的API功能。

OpenAI称这是其迄今为止最先进的语音合成模型,GPT-RealTime在遵循复杂指令、精确调用工具以及生成更自然、更具表现力的语音方面有所改进。该模型可以自然朗读重复的字母、数字,无缝切换语言,甚至可以捕捉笑声等非语言信号。

今天OpenAI还发布了两个新语音Cedar和Marin,它们将在Realtime API中独家提供。

定价方面,通用版Realtime API和新的GPT-RealTime模型从今天起对所有开发者开放,GPT-RealTime每百万token音频输入价格为32美元,缓存输入每百万token为0.4美元,每百万token音频输出价格64美元,GPT-RealTime相比gpt-4o-realtime-preview价格下调20%。

OpenAI增加了对对话上下文的细粒度控制,允许开发者设置智能token限制,并一次截断多个回合,显著降低长会话的成本。

去年10月,OpenAI发布了Realtime API的公开测试版,至今已经有数千名开发者使用该API并提出建议。

但从OpenAI在社交平台X的评论区来看,有用户对这一新模型充满期待,称语音应用将变得更加有趣,但也有开发者反应,模型的声音还是很像机器人,且旧的语音角色听起来只是稍微更具表现力。


一、能捕捉笑声,无缝切换语言调整语气

OpenAI针对GPT-RealTime的音频质量、理解用户指令、遵循指令等方面进行了改进。

语音Agent想要让用户能持续对话,模型需要像人类一样带有语调、情感和节奏,以创造愉悦的对话体验。博客中提到,GPT-RealTime可以产出更自然的高质量语音,并能遵循细粒度的指令,例如“快速专业地说话”或“用法国口音富有同情心地说话”。

在理解用户指令方面,GPT-RealTime可以捕捉笑声等非语言线索,在句子中切换语言,并调整语气。根据OpenAI内部评估,该模型在西班牙语、中文、日语和法语等语言中,检测电话号码等的字母数字序列的准确性也更高。

Big Bench Audio评估中,GPT-RealTime的准确率为82.8%,超过了OpenAI 2024年12月发布的旧模型。Big Bench Audio基准测试是一个用于评估支持音频输入的语言模型推理能力的评估数据集。


在构建语音转语音应用时,开发者会向模型提供一系列行为指令,包括如何说话、在特定情况下该说什么、该做什么或不该做什么。OpenAI专注于改进模型对这些指令的遵循程度,使得即使是微小的指令也能为模型传递更多信息。

在衡量指令遵循准确性的MultiChallenge音频基准测试中,GPT-RealTime得分为30.5%,相较旧模型的20.6%有显著提升。MultiChallenge评估大模型在处理与人类的多轮对话时的表现,OpenAI从测试题中筛选出适合音频呈现的子集,通过文本转语音(TTS)技术将其转换为语音,进而制作出本次评估的音频版本。


要构建一个具备语音转语音模型的强大语音Agent,模型需要能够在正确的时间调用正确的工具。OpenAI在三个维度上改进了函数调用:调用相关函数、在适当的时间调用函数以及使用适当的参数调用函数。在测量函数调用性能的ComplexFuncBench音频评估中,GPT-RealTime得分66.5%,超过旧模型分数。而我们在2024年12月发布的模型得分为49.7%。

此外,OpenAI还改进了异步函数调用。长时间运行的函数调用将不再中断会话流程,模型可以在等待结果时继续流畅地对话。此功能已在GPT-RealTime中原生提升支持,开发者无需更新代码。

ComplexFuncBench测量模型处理具有挑战性的函数调用任务的能力。它在多步调用、推理约束或隐式参数、处理非常长的输入等场景中评估性能。我们将原始文本提示转换为语音,以构建此评估来测试我们的模型。


二、保留语音细微差别,新增四大RealTime API新功能

与传统将语音转文本和文本转语音的多模型链式流程不同,Realtime API通过单个模型和API直接处理和生成音频,这减少了延迟,保留了语音中的细微差别,并使得其响应更自然、更具表现力。

RealTime API的新功能包括:

开发者可以通过在会话配置中传入远程MCP服务器的URL在会话中启用MCP支持。连接后,API会自动处理工具调用,无需开发者手动设置集成。

这种设置使开发者只需将会话指向不同的MCP服务器,就立即可用。

图像输入方面,开发者可以在Realtime API会话中添加图像、照片和截图,与音频或文本一起使用。现在模型可以基于用户实际看到的内容来构建对话,使用户能够提出诸如“你看到了什么?”或“阅读此截图中的文本”等问题。

与其将图像视为实时视频流,系统更像是将图片添加到对话中。开发者的应用程序可以决定与模型共享哪些图像以及何时共享,这样就能控制模型看到什么以及何时回应。

OpenAI还增加了使Realtime API更易于集成的功能,包括会话发起协议(SIP)支持、可重用提示。

SIP支持通过Realtime API直接连接开发者的应用程序到公共电话网络、PBX系统、办公电话和其他SIP终端。

可重用提示允许开发者保存和重用提,包含开发者消息、工具、变量以及示例用户/助手消息,且支持跨Realtime API会话使用,与Responses API的使用逻辑一致。

结语:设多层防护指南防止模型滥用

为了防止实时语音对话被滥用,Realtime API包含多层安全防护和缓解措施,OpenAI对Realtime API会话采用主动分类器,这意味着如果检测到某些对话违反了有害内容指南,可以中止这些对话。开发者还可以使用Agents SDK添加自己的额外安全防护措施。

当下,超逼真的实时语音对话已经展现出颇为广阔的应用场景,豆包实时语音对话、百度新推的数字员工等,都将语音作为与用户的主要交互形式,再加上OpenAI此次发布的新语音转语音模型,也展现出更强的推理能力和更自然的语音表现力,使其能够处理复杂的多步骤请求,在不同赛道构建AI Agent。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
安东尼奥:明天将看到中日足球巨大差距  但足球是圆的

安东尼奥:明天将看到中日足球巨大差距 但足球是圆的

风过乡
2026-01-23 16:55:04
向华强曝李亚鹏曾在香港办派对为嫣然天使基金筹款:自己捐了几百万,王菲、刘嘉玲等众星捧场

向华强曝李亚鹏曾在香港办派对为嫣然天使基金筹款:自己捐了几百万,王菲、刘嘉玲等众星捧场

扬子晚报
2026-01-22 21:34:18
给环卫工人戴定位器工牌,不动就罚款?建议先给出点子的领导们普及

给环卫工人戴定位器工牌,不动就罚款?建议先给出点子的领导们普及

小萝卜丝
2026-01-23 08:56:28
300万元一张票!演员黄景瑜将上太空,“很荣幸乘坐中国人自己的飞船”

300万元一张票!演员黄景瑜将上太空,“很荣幸乘坐中国人自己的飞船”

都市快报橙柿互动
2026-01-23 08:45:27
如此忽悠群众有意思吗?

如此忽悠群众有意思吗?

笔杆论道
2026-01-23 06:33:00
人要坏成什么样子,才能做出这等丧尽天良的事!

人要坏成什么样子,才能做出这等丧尽天良的事!

胖胖说他不胖
2026-01-23 10:00:15
视源股份32岁程序员猝死:底薪3千24小时待岗 公司多岗位要求“抗压能力强”

视源股份32岁程序员猝死:底薪3千24小时待岗 公司多岗位要求“抗压能力强”

中国能源网
2026-01-23 09:04:03
最快几天内,恐要开战!伊朗革命卫队开始转移大量导弹和无人机

最快几天内,恐要开战!伊朗革命卫队开始转移大量导弹和无人机

青青子衿
2026-01-23 02:15:44
工作室回应“潦草小马”走红:正全力投入制作,30人一天能做50个左右

工作室回应“潦草小马”走红:正全力投入制作,30人一天能做50个左右

环球网资讯
2026-01-22 08:55:15
美媒:美国看待中国的心态变了

美媒:美国看待中国的心态变了

环球时报国际
2026-01-23 00:09:22
大陆一锤定音,开出两岸对话条件,郑丽文将赴陆,马英九给出忠告

大陆一锤定音,开出两岸对话条件,郑丽文将赴陆,马英九给出忠告

策略述
2026-01-22 17:17:13
活久见!网传阜阳一28岁美女相亲点7个硬菜,男子直接打包走人…

活久见!网传阜阳一28岁美女相亲点7个硬菜,男子直接打包走人…

火山诗话
2026-01-22 07:27:33
特朗普警告欧洲:若抛售美国资产,将面临大规模报复;格陵兰岛协议将赋予美方“全面军事进入权”,且不会支付费用

特朗普警告欧洲:若抛售美国资产,将面临大规模报复;格陵兰岛协议将赋予美方“全面军事进入权”,且不会支付费用

每日经济新闻
2026-01-23 00:03:02
李亚鹏难掩激动:找到新地址还带公园,网友申请报名帮忙搬家

李亚鹏难掩激动:找到新地址还带公园,网友申请报名帮忙搬家

素素娱乐
2026-01-23 12:00:43
2026 年最严麻将馆整治,打牌不能再“任性”!

2026 年最严麻将馆整治,打牌不能再“任性”!

达文西看世界
2026-01-22 16:23:28
女子网购50天后退款后续:家境曝光两个孩子,商家索要2千只赔500

女子网购50天后退款后续:家境曝光两个孩子,商家索要2千只赔500

离离言几许
2026-01-23 00:01:41
越南足球专家:中国U23比西亚球队更难对付,中国足球仍略胜一筹

越南足球专家:中国U23比西亚球队更难对付,中国足球仍略胜一筹

足球大腕
2026-01-23 13:33:44
某国产品牌豪车暴跌98%,豪车不是有外形就行,需要核心技术

某国产品牌豪车暴跌98%,豪车不是有外形就行,需要核心技术

柏铭锐谈
2026-01-22 23:18:24
李亚鹏曝明星捐赠名单!邓超胡军百万,杨恭如千万,王菲超3000万

李亚鹏曝明星捐赠名单!邓超胡军百万,杨恭如千万,王菲超3000万

小郑说史
2026-01-23 12:13:01
买家2395万元拍到法拍房后悔拍,白白损失155万元保证金,平台:保证金不会退,其也不得再次参加竞买

买家2395万元拍到法拍房后悔拍,白白损失155万元保证金,平台:保证金不会退,其也不得再次参加竞买

极目新闻
2026-01-23 12:57:50
2026-01-23 19:07:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11112文章数 116944关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

走失被找回女硕士曾遭两村民强奸:一人还曾猥亵她女儿

头条要闻

走失被找回女硕士曾遭两村民强奸:一人还曾猥亵她女儿

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

手机
家居
数码
本地
公开课

手机要闻

曝20周年iPhone依然是居中灵动岛,真全面屏iPhone或2030年登场

家居要闻

在家度假 160平南洋混搭宅

数码要闻

iQOO 15 Ultra首发搭载“超感触控肩键”

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版