网易首页 > 网易科技 > 网易科技 > 正文

OpenAI o1非GPT-4o直接进化,在成本与性能上妥协

0
分享至

9月14日消息,OpenAI已经推出了新模型OpenAI o1的两大变体——o1-preview与o1-mini,这两款模型都有许多值得深入探讨的内容。人工智能专家西蒙·威利森(Simon Willison)专门发文,深入剖析了这些新模型背后的设计理念与实现细节,揭示了它们在技术上的独特优势与不足。威利森表示,o1并不是简单的GPT-4o直接升级版,而是在强化“推理”能力的同时,做出了成本与性能上的权衡。

1. 训练思维链

OpenAI的声明是一个很好的起点:“我们研发了一系列新型人工智能模型,旨在让它们在做出响应前花更多时间思考。”

这些新模型可以视为思维链提示策略的深化拓展——“分步思维”策略的具体实践。实际上,人工智能社区在这个领域已探索了数年,这一策略首次在2022年5月发布的论文《大语言模型是零样本推理器》(Large Language Models are Zero-Shot Reasoners)中提出。

OpenAI发布的《与大语言模型共学推理》(Learning to Reason with LLMs)一文详细阐述了新模型的训练方法,揭示了其能力提升背后的秘密。文中指出:

“我们的大规模强化学习算法精心设计了训练流程,使模型在高效利用数据的同时,能够熟练运用思维链进行深度思考。我们发现,随着强化学习训练时间的增加以及模型在测试时分配更多思考时间,o1的性能持续显著提升。值得注意的是,这种扩展方法的限制与大语言模型预训练中的挑战有很大不同,我们正继续深入探索这些新界限。”

通过强化学习的训练,o1不仅学会了优化其思维链的使用,还掌握了自我提升的关键技能。o1能够识别并纠正错误,将复杂难题拆解为一系列更易处理的子任务。当现有方法失效时,它会尝试不同的方法直至找到最佳解法。这一过程极大提升了模型的推理能力。

实际上,这标志着模型在处理复杂提示方面实现了质的飞跃。面对那些需要回溯与深入“思考”的任务时,模型能够展现出更加出色的表现,而不再仅仅依赖于下一个Token预测。

威利森指出,虽然他对“推理”一词在大语言模型中的定义有保留,但鉴于OpenAI已明确采用此术语,并成功表达了新模型致力于解决的核心问题,他认为这种表达在此情境下是恰当且有效的。

2. 来自API文档的底层细节

关于新模型及其设计权衡,OpenAI在API文档中提供了许多有趣的细节:

对于依赖图像输入、函数调用或追求即时响应速度的应用场景,GPT-4o及其精简版GPT-4o mini仍是理想选择。然而,如果你的项目需要深度推理能力,且能够适应较长的响应时间,那么o1模型无疑是更优的选择。

威利森从OpenAI的文档中摘录了几个关键点:

API访问权限:目前,o1-preview与o1-mini的访问仅限于五级账户用户,且API积分累计需达到至少1,000美元方可解锁。

系统提示限制:模型集成了现有的聊天完成API,但仅支持用户与助手之间的消息交互,不支持系统提示功能。

其他功能限制:当前模型不提供流处理支持、工具集成、批处理调用或图像输入。

响应时间:鉴于模型解决问题所需推理量的不同,处理请求的时间可能介于几秒至几分钟不等。

尤为引人注目的是“推理Token”的引入。这些Token在API响应中不可见,却扮演着至关重要的角色,是驱动新模型能力的核心,且作为输出Token计费并计数。鉴于推理Token的重要性,OpenAI建议为充分利用新模型的提示预留约25,000个推理Token的预算。

为此,输出Token的配额显著提升:o1-preview的配额增至32,768个,而o1-mini则高达65,536个。相比于GPT-4o及其mini版(两者的配额均为16,384个),这一增加为用户提供了更多资源。

API文档还提供了一个新颖且关键的提示,旨在优化检索增强生成(RAG):在整合附加上下文或文档时,应严格筛选,保留最相关的信息,以避免模型生成过于复杂的响应。这与RAG的传统做法截然不同,后者倾向于将大量潜在相关文档纳入提示。

3. 隐藏的推理Token

令人遗憾的是,推理Token在API调用中处于隐藏状态。用户需要为这些Token支付费用,却无法得知其具体内容。OpenAI对此政策的解释如下:

“隐藏思维链的初衷在于确保模型‘思维’过程的独立性和表达自由,避免外界干预或操控其推理逻辑。展示模型的完整思维链可能暴露不一致性,并影响用户体验。”

这项决策基于多重考量:一方面是为了确保安全与策略的遵从性,另一方面则是为了保持技术上的竞争优势,避免竞争对手利用推理成果进行训练。

作为对大语言模型发展持保留意见的一方,威利森对此决定并不满意。他认为,在追求技术创新的同时,保持可解释性与透明度至关重要。关键细节的隐藏,意味着对透明度的一种削弱,感觉像是一个倒退的举措。

4.示例解读

OpenAI在“思维链”部分提供了许多示例,包括Bash脚本生成、填字游戏解答和化学溶液pH值计算等,初步展示了这些模型在ChatGPT用户界面下的思维链能力。但它并未展示原始的推理Token,而是通过一种优化机制,将复杂的推理步骤简化为易于理解的摘要。

OpenAI还额外提供了两份文档,展示了更为复杂的例子。在“使用推理进行数据验证”一例中,o1-preview演示了如何在11列CSV数据中生成示例,并通过多种策略验证数据的正确性;而“使用推理生成例程”则展示了如何将知识库文章转化为大语言模型能够解析并执行的标准化操作流程。

威利森也在社交媒体上征集了许多GPT-4o未能成功应对却在o1-preview上表现出色的提示案例。其中两个尤为引人注目:

字数计数挑战:“你对这个提示的回答有多少字?” o1-preview模型在给出“这个句子里有七个单词”之前,耗时约十秒并经历了五次推理过程。

幽默解析:“解释一下这个笑话:‘两头牛站在地里,一头牛问另一头:‘你怎么看疯牛病?’ 另一头说:‘无所谓,我是直升机。’” o1-preview给出了既合理又详细的解释,而其他模型对此无解。

尽管如此,优质的示例仍然较少。OpenAI研究员Jason Wei指出,尽管o1在AIME和GPQA测试中的表现非常强大,但这种效果并不总是直观可感。找到让GPT-4o失手而o1表现出色的提示并不容易,但当你找到时,o1的表现堪称神奇。大家都需要寻找更具挑战性的提示。

另一方面,沃顿商学院管理学教授、人工智能专家伊森·莫里克(Ethan Mollick)通过几周的预览体验,对o1给出了初步评价。他特别提到了一个填字游戏示例,其中o1-preview模型展现了清晰的推理步骤,如指出1 Across与1 Down的首字母不匹配,并主动建议替换答案以确保一致性。

5.推理模型的未来

人工智能领域这一新进展带来了诸多待解之谜与潜在机遇,社区正逐步探索这些模型的最佳应用场景。在此期间,威利森预计GPT-4o(及Claude 3.5 Sonnet等模型)将继续发挥重要作用。同时,我们也将见证这些推理模型如何扩展我们的思维模式,解决更多前所未有的任务。

此外,威利森期待其他AI实验室,特别是开放模型权重社区,能够积极跟进,利用各自独特的模型版本复现并深化这些思维链推理的成果。(小小)

延伸阅读
相关推荐
热点推荐
秦岚说父母都去世了,办葬礼时没有哭,她是独生女,现在成孤儿了

秦岚说父母都去世了,办葬礼时没有哭,她是独生女,现在成孤儿了

小娱乐悠悠
2026-04-18 00:57:35
《火遮眼》评分满分,被誉为年度最佳动作片,谢苗将成好莱坞巨星

《火遮眼》评分满分,被誉为年度最佳动作片,谢苗将成好莱坞巨星

影视高原说
2026-04-17 17:46:35
多名院士调查发现:吃一口香椿,就或等于进一次毒,真的假的?

多名院士调查发现:吃一口香椿,就或等于进一次毒,真的假的?

荆医生科普
2026-04-17 15:32:24
本周大跌近10%,美油一度跌破80美元

本周大跌近10%,美油一度跌破80美元

每日经济新闻
2026-04-18 08:36:58
洪龙同志工作期间突发心脏骤停,不幸因公牺牲

洪龙同志工作期间突发心脏骤停,不幸因公牺牲

新京报政事儿
2026-04-18 09:48:15
恒大0.69%清偿率:一个时代神话的墓志铭

恒大0.69%清偿率:一个时代神话的墓志铭

流苏晚晴
2026-04-17 18:20:43
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
麻了!曝可能交易71分先生!这可是骑士头号进攻核心

麻了!曝可能交易71分先生!这可是骑士头号进攻核心

篮球实战宝典
2026-04-17 23:50:07
为何说年龄超过79岁的人:即便身体健康,也没有多少来日方长?

为何说年龄超过79岁的人:即便身体健康,也没有多少来日方长?

医学原创故事会
2026-04-18 12:28:22
洪秀柱和郑丽文完全不是一路人!

洪秀柱和郑丽文完全不是一路人!

果妈聊娱乐
2026-04-15 08:52:10
女子利用天气预报频繁购买飞机延误险,5年买中900多次,获赔近300万,被抓时:我符合保险理赔要求

女子利用天气预报频繁购买飞机延误险,5年买中900多次,获赔近300万,被抓时:我符合保险理赔要求

谭老师地理大课堂
2026-04-15 20:11:42
“妈,我可能出不去了……”菏泽00后小伙打电话给母亲留完遗言,在火海浓烟中仗义救人!

“妈,我可能出不去了……”菏泽00后小伙打电话给母亲留完遗言,在火海浓烟中仗义救人!

菏泽日报
2026-04-17 11:29:24
贺希宁封神一夜!深圳坐稳前3 北京反超广东,季后赛首轮对阵明朗

贺希宁封神一夜!深圳坐稳前3 北京反超广东,季后赛首轮对阵明朗

后仰大风车
2026-04-17 22:51:18
一天中,最佳的性生活时间是在几点?早上好还是晚上好?出乎意料

一天中,最佳的性生活时间是在几点?早上好还是晚上好?出乎意料

皓皓情感说
2026-04-18 11:13:51
镇店之宝不再保密!莫氏鸡煲创始人累到想休息,公开全部配方

镇店之宝不再保密!莫氏鸡煲创始人累到想休息,公开全部配方

大鱼简科
2026-04-15 19:49:23
德甲神锋易主在即!凯恩剑指莱万55球纪录,迎生涯巅峰!

德甲神锋易主在即!凯恩剑指莱万55球纪录,迎生涯巅峰!

田先生篮球
2026-04-17 22:45:03
杜兰特离开太阳战绩更好?追梦:在我这不允许任何人诋毁他

杜兰特离开太阳战绩更好?追梦:在我这不允许任何人诋毁他

懂球帝
2026-04-18 15:19:17
滴滴、高德、T3等多家平台签字:每单抽成不超过27%,超过部分要返还给司机

滴滴、高德、T3等多家平台签字:每单抽成不超过27%,超过部分要返还给司机

网约车观察室
2026-04-18 09:53:23
王嘉尔在多伦多开演唱会,发现观众席挥舞中国国旗,立即伸手接过跑回舞台高举,全场欢呼沸腾

王嘉尔在多伦多开演唱会,发现观众席挥舞中国国旗,立即伸手接过跑回舞台高举,全场欢呼沸腾

观威海
2026-04-16 10:20:05
闹大了!中J某局的员工在网上掀桌子了!

闹大了!中J某局的员工在网上掀桌子了!

黯泉
2026-04-17 20:58:05
2026-04-18 15:31:00

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

牛弹琴:特朗普迎来最兴奋的一天 三个细节信息量很大

头条要闻

牛弹琴:特朗普迎来最兴奋的一天 三个细节信息量很大

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

《穿普拉达的女王2》疑似辱华?

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

游戏
家居
健康
艺术
公开课

魂师对决:永恒商店采购分析!如果买的多了这波还真就永恒了!

家居要闻

法式线条 时光静淌

干细胞抗衰4大误区,90%的人都中招

艺术要闻

何多苓油画新作(2026-2025)

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×