网易首页 > 网易号 > 正文 申请入驻

OpenAI DevDay公布五项重大创新,AI实时语音的时代来了!成本比GPT-3降低近1000倍!

0
分享至

OpenAI在昨天的DevDay上,公布了五项重大创新:实时API、提示词缓存、模型蒸馏、视觉微调、新广场玩法

这些新能力似乎预示了OpenAI的战略重心的变化——加大投入基础建设、增强其「开发者生态」,而不是直接在「AI应用领域」争夺终端用户。

与去年的盛大发布相比,OpenAI昨天的DevDay显得异常低调——没有展示重磅产品,而是对现有的AI工具和API套件,进行了渐进式的改进。

今年DevDay的展示重点,是增强开发人员的能力、以及展示社区故事。

分别用一句话为大家概括一下这五大更新:

  • Realtime API:让开发者可以构建近乎实时的“语音转语音”的体验,并可以选择使用 OpenAI 提供的六种声音。

  • 提示词缓存:类似于 Anthropic 几个月前推出的缓存功能,允许开发人员在 API 调用之间缓存常用上下文,从而降低成本并改善延迟。

  • 模型蒸馏:让开发人员可以使用较大的 AI 模型(例如 o1-preview 和 GPT-4o)来微调较小的模型(例如 GPT-4o mini)。

  • 视觉微调:使开发人员能够使用「图像」结合「文本」,来微调他们的 GPT-4o 应用程序,“看”的能力被极大强化。

  • 新广场玩法:提示词新的框架、用法等,以及结构化输出新的突破,这些让开发变得前所未有容易。

OpenAI 现场演示使用o1在30秒内构建iPhone iOS应用程序

对于OpenAI来说,最近一段时间可谓多事之秋:核心高管离职、产品兑现不及大众预期……

然而,伴随着重大融资进展频频,这家备受瞩目的独角兽似乎又回到了正轨,并且在努力说服开发者们,更充分地利用他们的AI模型来创造。

OpenAI 首席产品官凯文·韦尔 (Kevin Weil) 在活动前的记者会上表示:首席技术官米拉·穆拉蒂 (Mira Murati) 和首席研究官鲍勃·麦格鲁 (Bob McGrew) 的离职不会影响公司的发展。

OpenAI 指出,过去两年来,它已将开发人员访问其API的成本降低了99%——然而这很可能是受到 Meta 和谷歌等竞争对手不断压低价格的压力。

@swyx @ DevDay!

现场观众普遍对OpenAI的工程化能力很是认可——

「用o1模型在30秒内构建iPhone iOS应用程序」让APP开发的门槛进一步降低,更是展现了一种“人人都是开发者”的可能性。

语音实时对话的效果感到惊叹,X上也出现了一批基于纯语音交互的创业idea……

比起之前虚拟陪伴的语音对话,Realtime API能实现更贴近日常的实时交流——比如旅行规划、点餐、教育教学、电商购物等等,纯语音的实现又更近了一步。

带记录属性的各类AI硬件产品,未来的语音互动也很快将变得更加自然流畅。

@swyx @ DevDay!

1. 实时对话API

AI语音应用的时代来了!

OpenAI 发布的 Realtime API,目前处于公开测试阶段。

这项新产品使开发人员能够创建低延迟、多模式体验,尤其是在语音转语音应用程序中。

这意味着开发人员可以开始将 ChatGPT 的「语音控件」添加到应用程序中。

为了说明该 API 的潜力,OpenAI 演示了Wanderlust的更新版本,Wanderlust 是去年会议上展示的一款「旅行计划」应用程序。

借助 Realtime API,用户可以直接与应用对话,以自然说话的方式规划行程。该系统甚至允许在说话过程中打断,模仿人类日常的停顿等场景。

虽然旅行计划只是一个例子,但实时 API 为各个行业的语音应用程序开辟了广泛的可能性。

从「客户服务」到「教育」和「辅助功能工具」,开发人员现在拥有强大的新资源来创造更直观、响应更迅速的人工智能驱动体验。

Godement 解释道:“每当我们设计产品时,我们基本上都会同时考虑初创公司和企业。 因此,在 alpha 阶段,我们有许多企业使用 API,以及新产品的新模型。”

Realtime API,本质上简化了构建「语音助手」和其他「对话式AI工具」的过程,从此以后,就完全无需将多个模型拼接在一起进行转录、推理和文本到语音的转换。

早期应用Realtime API的玩家,如营养和健身指导应用程序Healthify、语言学习平台Speak,已经将 Realtime API 集成到他们的产品中。

这些实现展示了API在医疗保健、教育等领域,创造更自然、更具吸引力的用户体验的潜力。

Realtime API 的定价虽然并不便宜(每分钟音频输入 0.06 美元、每分钟音频输出 0.24 美元),但对于希望创建基于语音开发应用程序的人员来说,仍然可以代表一个重要的价值主张。

2. 提示词缓存

为开发人员大幅节省预算

“提示词缓存”功能,旨在降低开发人员的成本和延迟。


该系统自动对模型最近处理的输入标记应用 50% 的折扣,这可能会为经常重复使用上下文的应用程序带来大量节省。

OpenAI平台产品负责人Olivier Godement表示:“我们一直高负荷运转。就在两年前,GPT-3 还大获成功。现在,我们已将成本降低了近 1000 倍。我试图举出一个在两年内将成本降低近 1000 倍的技术例子——但我找不到。”

成本的大幅降低为初创企业和大型企业探索新的应用提供了重大机遇,而这些应用以前由于费用原因无法实现。

2024 OpenAI DevDay 上的定价表显示,AI 模型的使用成本大幅降低,与各种 GPT 模型中的非缓存令牌相比,缓存输入令牌可节省高达 50% 的成本。 新的 o1 模型更是反映了其先进的功能。

这也牵扯到结构化提示词,只有提示中的前缀完全匹配时,才有可能实现缓存命中。

要实现缓存优势,需要将静态内容(如说明和示例)放在提示的开头,并将可变内容(如用户特定信息)放在结尾。这也适用于图像和工具,它们在请求之间必须相同。

3. 模型蒸馏

让AI模型的训练更紧凑

也许整场DevDay最具变革性的变化,是引入了「模型蒸馏」。

这种集成的工作流程,允许开发人员使用o1-preview和GPT-4o等高级模型的输出来提高GPT-4o mini等更高效模型的性能。

日常训练中,完全可以使用较大的 AI 模型(例如 o1-preview 和 GPT-4o)来微调较小的模型(例如 GPT-4o mini)。

这种方法可以使小公司利用与先进模型类似的功能,而无需承担相同的计算成本。

它解决了人工智能行业长期存在的尖端、资源密集型系统与更易于访问但功能较弱的系统之间的差距。

以一家小型医疗技术初创公司为例,该公司正在为农村诊所开发一款人工智能诊断工具。

使用模型蒸馏,该公司可以训练一个紧凑型模型,该模型在标准笔记本电脑或平板电脑上运行,可以捕捉大型模型的大部分诊断能力。

这可以将复杂的人工智能能力带入资源受限的环境,从而有可能改善医疗服务不足地区的医疗保健结果。

4. 视觉微调:

视觉AI的新前沿

另一项重大更新是为 OpenAI 最新的大型语言模型GPT-4o引入视觉微调。

此功能允许开发人员使用图像和文本自定义模型的视觉理解能力。

此次更新的影响深远,可能会影响自动驾驶汽车、医学成像和视觉搜索功能等领域。

据 OpenAI 称,东南亚领先的食品配送和拼车公司Grab已经利用这项技术来改进其地图服务。

据报道,仅使用 100 个示例,Grab 就将车道计数准确率提高了 20%,限速标志定位准确率提高了 13%。

这个现实世界的应用程序,展示了视觉微调的可能性,可以使用小批量的视觉训练数据,显著增强各行各业的人工智能服务。

以“看”的形式,实现「纯视觉」的信息采集和输入,将极大延展未来的应用场景。

再结合「实时语音交互」,OpenAI在信息处理和交互的进展,为新一轮应用的爆发创造了可能。

能想到的场景:比如帮助视听残障人士,比如通过视觉识别紧急情况和危险,然后拨打求救电话等等

5. 新广场功能

构建可持续的AI生态系统

对提示词的结构框架以及其他用法作出了更多说明。

在一天前就有这部分的内容疑似泄漏,「系统提示词」也被人扒了出来。

主要包括:“了解任务:掌握主要目标、目标、要求、约束和预期输出。”

  • 最小更改:如果提供了现有提示,请仅在简单时对其进行改进。对于复杂的提示,在不改变原始结构的情况下提高清晰度并添加缺失的元素。

  • 结论前推理:鼓励在得出任何结论之前进行推理步骤。注意力!如果用户提供了随后发生推理的示例,则 REVERSE 顺序!永远不要以结论开始例子!

  • 推理顺序:调出提示和结论部分的推理部分(按名称划分的特定字段)。对于每个,确定执行此操作的 ORDER 以及是否需要反转。

  • 结论、分类或结果:应始终出现在最后。

6. OpenAI作地基

AI应用可能迎来新爆发

OpenAI 的 2024 DevDay 标志着该公司的战略转折点,优先考虑生态系统开发,而没有发布引人注目的新产品,比如Sora……

对公众来说,这种方式可能不那么令人兴奋,但却表明了对AI行业当前挑战和机遇的成熟理解。

今年的低调活动与2023年的DevDay形成了鲜明对比——去年通过推出GPT Store 和自定义GPT创建工具,引发了「iPhone时刻」般的兴奋。

然而,自那之后,AI领域发生了迅速变化——竞争对手取得了重大进展,对训练数据可用性的担忧也愈演愈烈。

2024 OpenAI DevDay日程

OpenAI 选择专注于「改进现有工具」并且「赋能开发人员」,这似乎是对愈演愈烈的AI行业竞争的的精心应对。

通过提高模型的效率和成本效益,OpenAI 旨在保持竞争优势,同时解决对资源强度和环境影响的担忧。

随着 OpenAI 从「颠覆者」转型为「平台提供商」,它的成功将在很大程度上取决于其培育蓬勃发展的「开发者生态系统」的能力。

通过提供改进的工具、降低成本、增加开发相关支持,OpenAI为AI领域的长期增长和稳定奠定了基础,也为新一轮多模态、视听结合的AI应用爆发创造了可能。

AI实时语音应用已经露出曙光,结合视觉的更加现实可靠的产品,也已经在路上。

可能很多人依然会把OpenAI的这次发布看作是“挤牙膏”,但不可否认,随着成本的降低和工程化落地的改善,新的应用、新的创新、新的更全能的开发者,也许会细水长流般绵绵不绝……

戏台已经搭好,下一幕,谁是新的主角呢?

参考阅读:

https://www.reddit.com/r/OpenAI/comments/1ftuy0v/openai_leaked_system_prompt_for_generating_system/

https://x.com/search?q=openai%20devday&src=typed_query&f=top

https://techcrunch.com/2024/10/01/openais-devday-brings-realtime-api-and-other-treats-for-ai-app-developers/

https://venturebeat.com/ai/openai-devday-2024-4-major-updates-that-will-make-ai-more-accessible-and-affordable/

https://startupnews.fyi/2024/10/01/openais-devday-brings-realtime-api-and-other-treats-for-ai-app-developers/

https://qz.com/sam-altman-says-doesnt-plan-giant-equity-stake-openai-1851659375

参考阅读:

新鲜真话,关注一下

朋友圈会发一些具体的案例和商业化日常~

AI交流,欢迎加我本人微信:FrankGPTs

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026医保严查:住院晚上私自回家,报销直接作废

2026医保严查:住院晚上私自回家,报销直接作废

匹夫来搞笑
2026-05-16 11:16:14
晚宴上,马斯克最放松喝得微醺,一直在搞怪,感觉像回到家一样

晚宴上,马斯克最放松喝得微醺,一直在搞怪,感觉像回到家一样

魔都姐姐杂谈
2026-05-15 00:46:56
即将HWG!罗马诺:穆里尼奥接受了皇马方面的所有条件

即将HWG!罗马诺:穆里尼奥接受了皇马方面的所有条件

懂球帝
2026-05-16 14:24:50
马斯克黄仁勋在空军一号热聊照曝光,喝了可乐,皮衣黄疑似用三星

马斯克黄仁勋在空军一号热聊照曝光,喝了可乐,皮衣黄疑似用三星

译言
2026-05-16 10:38:32
一月暴涨136%!员工持股3天全卖光,73人套现上亿元

一月暴涨136%!员工持股3天全卖光,73人套现上亿元

21世纪经济报道
2026-05-16 17:16:35
耿同学被下套?接到“神秘”电话!要求淡化上海大学论文造假事件

耿同学被下套?接到“神秘”电话!要求淡化上海大学论文造假事件

趣笔谈
2026-05-16 09:04:28
哈达德已身亡

哈达德已身亡

新京报政事儿
2026-05-16 18:36:12
歌手温岚因脓毒症休克紧急入住ICU,三甲医院医生解读:是感染界“天花板”,居家死亡率100%

歌手温岚因脓毒症休克紧急入住ICU,三甲医院医生解读:是感染界“天花板”,居家死亡率100%

环球网资讯
2026-05-16 07:50:46
上海炒股冠军罕见发声:能从股市赚钱的只有一种人,此文很短很深

上海炒股冠军罕见发声:能从股市赚钱的只有一种人,此文很短很深

股经纵横谈
2026-05-15 21:41:08
特朗普刚离北京,高市急晒热线电话,日本最怕的事还是发生了

特朗普刚离北京,高市急晒热线电话,日本最怕的事还是发生了

近史博览
2026-05-16 09:59:06
悲催!网传上海某车企大规模裁员,N+1补偿,5月22日为最后离职日

悲催!网传上海某车企大规模裁员,N+1补偿,5月22日为最后离职日

火山詩话
2026-05-16 08:56:55
三年不报警不公开,支付宝究竟在害怕什么?

三年不报警不公开,支付宝究竟在害怕什么?

听心堂
2026-05-15 12:20:38
“武汉史上票价最贵火车”今日发车:20999元起,最多容纳231人,全部为卧铺席位,有人从新加坡赶来乘坐

“武汉史上票价最贵火车”今日发车:20999元起,最多容纳231人,全部为卧铺席位,有人从新加坡赶来乘坐

极目新闻
2026-05-16 12:50:21
中美峰会,蔡英文表态后,国民党一人不装了,新党发声,不一般

中美峰会,蔡英文表态后,国民党一人不装了,新党发声,不一般

DS北风
2026-05-15 18:38:11
U16国少4-2韩国U16夺邀请赛冠军,吴比乐双响,袁博涵2传1射

U16国少4-2韩国U16夺邀请赛冠军,吴比乐双响,袁博涵2传1射

懂球帝
2026-05-16 16:01:14
看病大变天,6月份开始,挂号报销都有改变,早知早准备!

看病大变天,6月份开始,挂号报销都有改变,早知早准备!

小谈食刻美食
2026-05-15 07:25:43
这一刻我才明白:为什么男人都爱看篮球直播,而不愿看马拉松直播

这一刻我才明白:为什么男人都爱看篮球直播,而不愿看马拉松直播

马拉松跑步健身
2026-05-15 19:59:38
“家用&性能”一把抓的风云T9L,实力评分:夯爆了!

“家用&性能”一把抓的风云T9L,实力评分:夯爆了!

大侠上车
2026-05-15 09:13:22
敬酒前宾客全走完了!河南新娘当场大哭追责,店家一句话全网沉默

敬酒前宾客全走完了!河南新娘当场大哭追责,店家一句话全网沉默

行者聊官
2026-05-16 16:00:17
10道“国宝菜”排名:淮扬菜国宴菜单,吃过一半算你厉害!

10道“国宝菜”排名:淮扬菜国宴菜单,吃过一半算你厉害!

阿龙美食记
2026-05-15 14:23:55
2026-05-16 19:48:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4738文章数 37463关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

7人蒙面当街抢走幼童主谋竟是孩子生父 母亲奔波寻子

头条要闻

7人蒙面当街抢走幼童主谋竟是孩子生父 母亲奔波寻子

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

亲子
艺术
时尚
本地
房产

亲子要闻

一个姐姐半个妈,姐姐贴心守护弟弟,懂事得让人心疼

艺术要闻

23幅 张祖英油画作品集

从全网嘲到全网夸,鲁豫到底经历了什么?

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

无障碍浏览 进入关怀版