网易首页 > 网易号 > 正文 申请入驻

OpenAI圣诞第9天:满血o1 API放出,开发者大狂欢!实时API升级音频token暴降60%

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】OpenAI直播第九天,开发者们收到了一个超级大礼包。满血o1 API正式开放,实时API直接支持WebRTC,意味着未来人手一个Her。最最重要的是,API token直降60%。

圣诞日第九天,OpenAI向第三方开发者开放了最强模型o1。

API中的o1,可支持函数调用、开发者消息、结构化输出和视觉功能。

同时,在开发语音类App的API中,集成了更先进的GPT-4o版本,成本直降60%!

另外,用户和开发者可根据自己的偏好,用「偏好微调」轻松定制模型了。

Day 9,是名副其实的「对开发者最有用的一天」。

与此同时,团队还进行了了一场在线AMA,解答了开发者的诸多问题。

Day 9,给开发者的新功能

今天,OpenAI将正式在API中推出o1满血版。

自从9月推出o1-preview之后,开发者们已经在API上构建出了大量很酷的应用程序,比如智能体、客户支持、财务分析等,同时它的编程技能也很出色。

但开发者们反馈说,API中缺乏了一些核心功能,因此,OpenAI今天会一并推出这些新功能。

此外,还有一些小更新,比如推理强度参数。这是一个新的参数,告诉模型去花多少时间思考。

在解决简单问题时,这个参数可以节省许多时间和成本,在需要更多算力的复杂问题上,就可以花费更多资源。

开发者消息,视觉输入功能,函数调用功能

开发者消息功能,是系统消息的一种新形式,实际上是OpenAI指令层次结构工作的一部分。

它会用来教模型,按照什么顺序遵循哪种指令。因此,开发者可以完全控制开发者消息来引导模型。

此外,OpenAI还在API中推出了视觉输入功能。

很多用户强烈呼吁这个功能上线,可以想见,它在制造业、科学等领域,会提供非常大的帮助。

在demo中,研究者给了模型一份表格的照片扫描件,有若干张。

注意,研究者填写的时候,故意填错了一些数据。o1是否能检测出这些错误呢?

在开发者消息中,研究者要求模型找出错误。如果要正确找出,必须其他几张照片的扫描。

果然,模型注意到了某一行的算术错误,还注意到标准扣除额不准确这种非常细节的问题。

改正错误后,研究者提问道:如果我的应税收入是这个,我要缴纳多少所得税?

可以看到,o1在右侧提供了一组函数。

比如其中一个函数,就是以JSON架构呈现

这些操作都在应用程序后端完成,用户看不到任何函数调用或来自API的响应。

此外,研究者还定义了一个JSON架构,来规范响应的格式。

在上面这个「表单修正」架构中,包含了一组修正,每个修正都包含错误原因等内容,这样就可以向用户展示哪里出错了。

甚至还能为PDF渲染一个用户界面,高亮出出错的地方。在我们不想从模型中渲染Markdown时,结构化输出特别有用,它让我们可以直接自动提取JSON。

最终,模型正确输出了修正结果。

API使用场景评估

针对API用例,OpenAI研究者进行了一些评估。

首先,在函数调用功能上,新的o1模型在函数调用能力上显著优于GPT-4。

这包含了两个关键部分——在需要时调用正确的函数,以及在不需要时避免调用函数。

另外,我们还可以将函数调用与结构化输出结合。

可以看到,o1比起GPT-4,同样表现出色。

在结构化输出中,o1在评估中也显著优于其他模型。

这意味着,模型在指令遵循上的表示更佳,在给出特定条件约束时,偏离预期的可能性也更低。

在编码方面,o1在Livebench评估中,要远远优于o1-preview和GPT-4o,这是一个巨大的进步。

而在AIME评估中,o1再次显著优于o1-preview。

有趣的是,最右侧是带有结构化输出的o1。

在构建结构化输出时,研究者希望确保模型在使用此功能和未使用时表现同样出色。

可以看到,即使启动了此功能,模型的推理能力依旧保持。因此我们可以放心在应用程序中使用,不必担心结果的准确性。

另外,模型在延迟上的变化也很有趣。

o1使用的推理Token,比o1-preview少了60%,因此对应用程序来说,它的运行速度更快、成本更低。

最后,研究者强调,抱歉暂时不会在API中推出o1 Pro,虽然此类请求非常多。

从今天起,函数调用、编码、结构化输出、开发者消息和图像理解,就会向第五级用户开放了。几周时间内,将覆盖到所有用户。

实时API,Her可以自己构建了

Realtime API(实时API)在今年10月初,正式放出了公测版。

在OpenAI伦敦开发者日上,所有人或许早已对其强大的实时语音能力有所了解。现场,开发者体验主管Romain Huet秀如何通过实时API订购派。

想象一下,你可以直接通过这个API构建ChatGPT高级语音模式了!不论是订餐AI助手,还是旅游AI助手等等,有了它就可以实现许多非常酷炫的功能。

它能够支持网络传输协议WebSocket,因此,你可以通过服务器进行通信,发语音并接受响应。

而在今天,OpenAI正式宣布实时API将支持WebRTC——专为互联网而生。

我们常见的视频会议,或者低延迟的视频流传输,都采用了WebRTC。它能够实时处理互联网不断的变化,比如动态调整比特率、进行回声消除。

现在,实时API也能共享这些优势了。假设你要构建一个应用程序,能省去不少功夫,可以直接运行。

接下来,OpenAI研究人员展示了一个demo,如下是HTML代码,包含了一个音频元素,一个对等连接(peer connection),它代表着你和实时API之间的一对一连接。

演示的重点,就是创建这个对等连接。当实时API向你发送音频时,把它放入到音频元素中。

紧接着,就是捕获麦克风输入的声音,并将其添加到对等连接中。首先,传输一个音频流到OpenAI,然后在设置好对等链接后,执行一个offer/answer操作。

offer/answer的作用是收集本地的所有信息。开发者通过HTTP POST发送这些信息,然后模型会作出响应。

然后,WebRTC 会为你处理所有细节,就不需要再去操心拥塞控制、音频捕捉等等。

那么,这个与之前WebSocket集成,有什么区别?

前者代码行数会大大拉长,达到200到250行,而且,在此基础上还会遇到其他的问题,比如处理反压(back pressure)等等。

接下来,运行一行代码,来看看它实际的样子。

音频元素——「圣诞节还有多少天?圣诞节是12月25日,而今天是12月17日。这意味着离圣诞节还有8天」。

剩余所做的,就是将其代码复制粘贴12行代码,执行脚本,就完成了。

这里,你唯一需要修改的就是 API Token,然后你就可以下载这段代码并运行。

OpenAI官方已经放出了所有代码,大家都可以随时构建。

令人惊喜的是,研究员请出了一位小伙伴——小鹿,它里面有一个微型控制器,大小如同一枚硬币。

插上电源之后,小鹿突然间活了,「圣诞快乐!你们在谈论什么」?

‍研究人员回复道,「我们正在讨论如何将WebRTC集成到实时API中」。

小鹿表示,「这听起来对我来说有点复杂。我们能不能聊点更有趣的事情,比如送礼物」?

接下来,研究人员和小鹿完成一轮精彩对话,完全展现了实时API的强大应用,而这只是所有用例的冰山一角。

这样,你就可以将其配置在任何可以穿戴的设备上,比如眼镜、摄像头、麦克风等等。而且,全程也只需30-45分钟。

此外,OpenAI还对实时API做了其他的更新。

从现在开始,GPT-4o音频Token将比以前便宜 60%,并在API中提供了对4o-mini的支持,其音频音频Token成本降低到当前价格的1/10。

其次,他们还为实时API推出了对Python SDK 的支持,使集成更加简单。

最后,还有一些API改进,让开发者更容易使用函数编码和安全防护机制。

偏好微调和定制化

关于微调和定制化,是开发者非常重要的一项功能,能够针对使用场景去定制模型。

直播现场,OpenAI官宣了全新的微调方法——偏好微调(preference fine-tuning)。通过使用直接偏好优化(DPO)能帮助开发者创建更符合用户偏好的模型。

具体来说,它是在比较不同回答中定制模型,而非使用固定的目标。

过去几个月,OpenAI火力全开,但微调API已经发布有一年的时间了,这次究竟有什么不同?

目前,在API中,他们推出了监督微调、以及前几天新推出的强化微调(RFT)。

在监督微调中,开发者需要提供模型需要的精确输入和输出,比如创建一个聊天机器人,就需要提供用户的消息以及精确的回复。

而在偏好微调中,有所不同。

你不需要提供精确的输入和输出,仅需要提供一对一响应,其中一个回应偏好度比另一个更强。

然后,微调过程便会优化模型,让其学会区分这些响应之间的差异。

这些差异可能包括响应格式、风格指南,甚至是一些抽象的特质,比如有用性或创造力。

那么,这种方法有什么样的特定用例场景?

客户支持、内容创作、创意写作等等,尤其是,适用于那些需要考虑语气、风格和创造力的主观任务。

如果在此过程中,开发者认为模型结果过于冗长,或者给出答案并不相关,就可以通过强化偏好的行为,并弱化不偏好的行为,来引导它生成更简洁、更相关的响应。

另一个非常好的使用场景可能是,内容审核或内容管理。

接下来,研究人员演示了如何通过API实现简单微调,先进入微调页面,点击「创建微调」选项,会看到一个新方法的下拉菜单。

选择「直接偏好优化」方法,然后在选择基础模型——GPT-4o。最后,需要做的就是上传数据。

假设需要做一个聊天机器人,让其更具对话性。这下面这个示例这种,是向助手询问纽约市天气的两组响应。

在首选的响应中,回复更加详细,使用的是华氏度。而在不理想的响应中,回复更为简洁,使用了摄氏度。

然后,将这些示例放入JSONL文件中,每个示例都包含了输入消息、偏好/非偏好的输出。

数据上传之后,再提供一些超参数(选择默认值),然后点击「创建」。

这样,微调过程就启动了。根据数据集的大小,这一过程可能需要几分钟到几小时不等。

一旦完成之后,我们能够像在API中任何基础模型一样,从新模型中采样。

目前,OpenAI已经向合作伙伴提供了偏好微调的早期访问权限,并收到了不错的反馈。

举个栗子,Rogo AI开发了一个面向金融分析师的AI助手,通过使用OpenAI模型重写、重构用户查询,以生成更相关的答案。

在使用监督微调时,他们未能使模型表现超越基础模型。但通过偏好微调,他们在内部基准测试中的准确率从基础模型的75%提升超80%。

鉴于GPT4o偏好微调所取得的成果,OpenAI预计很快将为GPT4o mini提供相同功能。同时,其训练Token的定价将与监督微调相同。

总言之,今天的OpenAI发布,对于开发者来说,是一个大礼包。

满血版o1引入API,具备了完整的生产功能集,而且函数编码功能,从今天起逐步推广到Tier 5。

另外,实时API能够支持WebRTC集成,以及token价格下降,以及偏好微调让场景定制模型更加容易。

而这些还不是全部,OpenAI今天还在一直持续推出新功能。

首先,在提升开发者体验和产品质量方面,OpenAI发布了新的SDK,新增对Go和Java SDK的支持。与Python SDK和Node SDK类似,它们支持OpenAI上所有你需要的API端点。

其次,在简化流程上,他们也推出了一个全新的登录、注册、获取API密钥的流程。现在,不需要签署5份服务条款协议,开发者即可在几秒钟内获取API密钥。

最后还有一个小彩蛋,过去几个月,OpenAI在世界各地举办了大大小小开发者日。

如今,他们将这些现场视频全部公开了,只需进入OpenAI官方YouTube页面即可查看。

信息量有点大,接下来可以慢慢消化了。

参考资料:

https://community.openai.com/t/ama-on-the-17th-of-december-with-openais-api-team-post-your-questions-here/1057527/198

https://community.openai.com/t/all-the-questions-addressed-by-the-api-team-during-the-december-17-2024-ama/1059780

https://venturebeat.com/programming-development/openai-opens-its-most-powerful-model-o1-up-to-third-party-developers/

https://openai.com/12-days/?day=9

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广州俩女生坐公交去北京,跨27市2600公里,途中险些被半挂车撞

广州俩女生坐公交去北京,跨27市2600公里,途中险些被半挂车撞

轩逸阿II
2025-09-19 17:02:25
波兰锁边境中欧班列被卡,三百列车滞留白俄,对我们有何影响?

波兰锁边境中欧班列被卡,三百列车滞留白俄,对我们有何影响?

火星宏观
2025-09-18 22:02:49
一天袭击3个俄罗斯炼油厂,击中大型化工厂!美媒为乌克兰出主意

一天袭击3个俄罗斯炼油厂,击中大型化工厂!美媒为乌克兰出主意

鹰眼Defence
2025-09-19 16:05:27
中超最新积分榜:提前保级球队+1,河南队上岸,6队争4个保级名额

中超最新积分榜:提前保级球队+1,河南队上岸,6队争4个保级名额

中超伪球迷
2025-09-19 22:05:48
日本房价崩盘回忆:当年那些选择“不买房”的人,后来都怎么样了

日本房价崩盘回忆:当年那些选择“不买房”的人,后来都怎么样了

揽星河的笔记
2025-09-17 19:45:54
已确认:全部关闭!退出中国市场

已确认:全部关闭!退出中国市场

中吴网
2025-09-16 22:31:40
九三阅兵一周后,我们躲过了一场世界大战

九三阅兵一周后,我们躲过了一场世界大战

罗列思维
2025-09-10 18:44:59
柏拉图为什么伟大?因他在2400年前,就回答了今天的所有人生困惑

柏拉图为什么伟大?因他在2400年前,就回答了今天的所有人生困惑

诗意世界
2025-09-18 11:39:14
2016年,四川妹子远嫁沙特富豪,生混血宝宝,丈夫承诺只娶她一人

2016年,四川妹子远嫁沙特富豪,生混血宝宝,丈夫承诺只娶她一人

史韵流转
2025-09-19 08:27:28
北京大学副校长明明是副厅级,何时成了中管干部?原来真的搞错了

北京大学副校长明明是副厅级,何时成了中管干部?原来真的搞错了

鬼菜生活
2025-09-19 10:41:20
第一集就全裸出镜,网飞新剧太生猛了

第一集就全裸出镜,网飞新剧太生猛了

来看美剧
2025-09-19 17:49:07
大学老师开始“贷款上班”

大学老师开始“贷款上班”

东亚财评V
2025-09-17 07:08:06
“台独”大佬去世消息传出,不足一天,国民党火速表态,明确撇清关系

“台独”大佬去世消息传出,不足一天,国民党火速表态,明确撇清关系

奇思妙想生活家
2025-09-19 15:14:38
武汉大学图书馆事件最新进展:杨景媛没去香港,她目前处境曝光

武汉大学图书馆事件最新进展:杨景媛没去香港,她目前处境曝光

平老师666
2025-09-18 12:48:37
美上诉法院维持原判 特朗普需向卡罗尔支付8330万美元赔偿

美上诉法院维持原判 特朗普需向卡罗尔支付8330万美元赔偿

环球网资讯
2025-09-09 06:11:40
2-1,31岁罗马旧将贝洛蒂发威:无敌双响炮,率队2连胜反超AC米兰

2-1,31岁罗马旧将贝洛蒂发威:无敌双响炮,率队2连胜反超AC米兰

侧身凌空斩
2025-09-20 04:46:15
颠覆认知!美国最新突破性研究发现:菊粉竟能干掉脂肪肝!

颠覆认知!美国最新突破性研究发现:菊粉竟能干掉脂肪肝!

徐德文科学频道
2025-09-18 15:50:42
乾隆灭掉准噶尔,屠尽男丁灭族,对当时的世界造成了极大的震撼?

乾隆灭掉准噶尔,屠尽男丁灭族,对当时的世界造成了极大的震撼?

铭记历史呀
2025-09-17 17:52:21
速递|重磅!字节跳动正式公告:将按中国法律推进TikTok美国相关工作

速递|重磅!字节跳动正式公告:将按中国法律推进TikTok美国相关工作

ZFinance
2025-09-20 01:13:55
重大发现!安徽新探明7.6亿吨煤炭资源

重大发现!安徽新探明7.6亿吨煤炭资源

安徽发布
2025-09-19 14:30:54
2025-09-20 08:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13479文章数 66162关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

韩国前第一夫人穿拘留所病号服坐轮椅就医 戴电子脚镣

头条要闻

韩国前第一夫人穿拘留所病号服坐轮椅就医 戴电子脚镣

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

艺术
游戏
旅游
手机
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

和三月七一样爱自拍,还恶趣味让叽米加班,长夜月越来越神秘了

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

手机要闻

iPhone 17系列拆解确认SIM与eSIM版本电池容量获得提升

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版