网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI全新发布o1模型 - 我们正式迈入了下一个时代。

2024-09-13 04:15:40　来源: 数字生命卡兹克

天津举报

0

分享至

大半夜的，OpenAI抽象了整整快半年的新模型。

在没有任何预告下，正式登场。

正式版名称不叫草莓，草莓只是内部的一个代号。他们的正式名字，叫：

为什么取名叫o1，OpenAI是这么说的：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻译过来是：

对于复杂推理任务来说，这是一个重要的进展，代表了人工智能能力的新水平。鉴于此，我们将计数器重置为 1，并将这一系列命名为 OpenAI o1。

这次模型的强悍，甚至让OpenAI不惜推掉了过去GPT系列的命名，重新起了一个o系列。

炸了，真的炸了。

我现在，头皮发麻，真的，这次OpenAI o1发布，也标志着，AI行业，正式进入了一个全新的纪元。

“我们通往AGI的路上，已经没有任何阻碍。”

在逻辑和推理能力上，我直接先放图，你们就知道，这玩意有多离谱。

AIME 2024，一个高水平的数学竞赛，GPT4o准确率为13.4%，而这次的o1 预览版，是56.7%，还未发布的o1正式版，是83.3%。

代码竞赛，GPT4o准确率为11.0%，o1 预览版为62%，o1正式版，是89%。

而最牛逼的博士级科学问题 (GPQA Diamond)，GPT4o是56.1，人类专家水平是69.7，o1达到了恐怖的78%。

我让Claude翻译了一下o1的图，丑是丑了点，但是能看的懂每项数据意思就行。

什么叫全面碾压，这就是。

特别是在测试测试化学、物理和生物学专业知识的基准GPQA-diamond上，o1 的表现全面超过了人类博士专家，这也是有史以来，第一个获得此成就的模型。

而整个模型之所以达到如此成就，基石就是Self-play RL，不知道这个的可以去看我前两天的预测文章：

通过Self-play RL，o1学会了磨练其思维链并完善所使用的策略。它学会了识别和纠正自己的错误。

它也学会了将复杂的步骤分解为更简单的步骤。

而且当当前的方法不起作用时，它也学会了尝试不同的方法。

他学会的这些，就是我们人类，最核心的思考方式：慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作，名叫：《思考，快与慢》。

非常详细的阐述了人类的两种思考方式。

第一种是快思考（系统1），特点是快速、自动、直觉性、无意识，举几个例子：

看到一个笑脸就知道对方心情很好。
1+1=2 这样简单的计算。
开车时遇到危险情况立即踩刹车。

这些就是快思考，也就是传统的大模型，死记硬背后学得的快速反应的能力。

第二种是慢思考（系统2），特点是缓慢、需要努力、逻辑性、有意识，举几个例子：

解决一道复杂的数学题
填写税务申报表
权衡利弊后做出重要决定

这就是慢思考，我们人类之所以强大的核心，也是AI要通往下一步AGI路上的基石。

而现在，o1终于踏出了坚实的一步，拥有了人类慢思考的特质，在回答前，会反复的思考、拆解、理解、推理，然后给出最终答案。

说实话，这些增强的推理能力在处理科学、编码、数学及类似领域的复杂问题时绝对极度有用。

例如o1可以被医疗研究人员用来注释细胞测序数据，被物理学家用来生成量子光学所需的复杂数学公式，以及被各个领域的开发人员用来构建和执行多步骤工作流，等等等等。

o1也绝对是全新一代的数据飞轮，如果答案正确，整个逻辑链就会变成一个包含正负奖励的训练示例的小型数据集。

以OpenAI的用户级别，未来的进化速度，只会更恐怖。

写到这，我忽然叹了口气，我觉得我跟一年以后的o1比起来，可能就是个纯废物了，真的。。。

目前，o1模型已经逐步向所有ChatGPT Plus和 Team用户开放，未来会考虑对免费用户开放。

分为两个模型，o1预览版和o1 mini，o1-mini就是更快更小更便宜，推理啥的都不错，极度适合数学和代码，就是世界知识会差很多，适用于需要推理但不需要广泛世界知识的场景。

o1预览版每周30条，o1-mini每周50条。

雪崩，甚至不是按以前的3小时来限制的，是每周30条，也能从侧面看出来，o1这个模型，有多贵了。

对于开发者来说，只对已经付过1000美刀的等级5开发者开放，每分钟限制20次。

都挺少的。

而且在功能上阉割挺大，但是毕竟早期，理解。

API的价格上，o1预览版每百万输入15美元，每百万输出60美元，这个推理成本...

o1-mini会便宜一些，每百万输入3美元，每百万输出12美元。

输出成本都是推理成本的4倍，对比一下GPT4o，分别是5美元和15美元。

o1-mini还是勉强有一些经济效应的，不过还是开始，后面等着OpenAI打骨折。

既然说o1已经对Plus用户开放，我就直接去我的号上看了眼，还不错，拿到了。

那自然，第一时间试一试。

目前不支持曾经的所有功能，也就是没有图片理解、图片生成、代码解释器、网页搜索等等，只有一个可以对话的裸模型。

我先是一个曾经很致命的问题：

“农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫该如何过河。”

思考了6秒时间，给了我一个很完美的回答。

还有之前一个坑遍所有大模型的调休问题：

“这是中国2024年9月9日（星期一）开始到10月13日的放假调休安排:上6休3上3休2上5休1上2休7再上5休1。

请你告诉我除了我本来该休的周末，我因为放假多休息了几天？”

在o1思考了整整30秒以后，给出了一天不差的极度精准的答案。

无敌，真的无敌。

再来一个更难的，就是曾经姜萍那个比赛的奥数题：

别问我题目什么意思，我看不懂，我是废物，这题曾经屠杀所有的大模型，这次，我们让o1也来试一下看看。

在o1思考了整整1分多钟之后，他给出了答案。

全...对...

我裂开了。

目前我自己试下来，感觉Prompt，未来可能也要重新摸索，在GPT为代表的快思考大模型时代，我们有很多所谓的一步一步思考之类的玩意，现在全都无效了，对o1甚至还有负效果。

OpenAI给出的最佳写法是：

保持提示简单直接：模型擅长理解和响应简短、清晰的指令，而不需要大量的指导。
避免思路链提示：由于这些模型在内部进行推理，因此不需要提示它们“逐步思考”或“解释你的推理”。
使用分隔符来提高清晰度：使用三重引号、XML 标签或章节标题等分隔符来清楚地指示输入的不同部分，帮助模型适当地解释不同的部分。
限制检索增强生成 (RAG) 中的附加上下文：提供附加上下文或文档时，仅包含最相关的信息，以防止模型过度复杂化其响应。

最后，我想说一下这个思考的时长。

现在o1是思考了一分钟，但是，如果是真正的AGI，说实话，思考的越慢可能会越刺激。

当他真的，可以去做证明数学定理，去做癌症药物研发，去做天体研究呢？

每一次的思考，可以达到几小时、几天、甚至几周呢？

最后的结果，可能会让所有人震惊的难以置信。

现在，没有人能想象到，那时候的AI，会是一个什么样的存在。

而o1的未来，在我看到，也绝对不止是一个普普通通的ChatGPT。

而是我们前往下个时代，最伟大的基石。

“我们通往AGI的路上，已经没有任何阻碍。”

现在，我毫不犹豫的坚信着这句话。

星光熠熠的下一个时代。

在今天。

正式到来了。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：卡兹克

>/ 投稿或爆料，请联系邮箱：wzglyay@gmail.com

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

热播综艺被指“一车明星安全带全是P的”，公安部交通管理局发声：安全不是做样子给别人看，安全更容不得自欺欺人

红网 2026-06-02 09:58:21
2063 跟贴 2063
鲜奶雪糕包装印“不加一滴水”配料表首位竟是水厂家：系旧包装，已改名“一滴水”

上游新闻 2026-05-29 18:03:05
1898 跟贴 1898

稻城亚丁景区弯道占比超八成，游客建议“接驳车合理收费”……记者实探→

环球网资讯 2026-06-02 21:36:26
70 跟贴 70

游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单，火锅店最新回应：高峰期排队上千桌，为顾全大局妥协

洪观新闻 2026-06-02 13:19:43
659 跟贴 659
印度拟购114架“阵风”战机，军方称必要时准备“辛杜尔行动2.0”

澎湃新闻 2026-06-02 19:30:33
42 跟贴 42

成龙向全球发出入境游邀约：欢迎感受无滤镜的真实中国

新京报 2026-06-01 12:09:13
405 跟贴 405

光明网评论员：电车该如何参与道路养护

澎湃新闻 2026-06-02 23:08:03
31 跟贴 31
河南献血新规落地献血超千毫升终生免费用血

人民资讯 2026-06-02 15:45:21
57 跟贴 57

曝杜伦与活塞在续约谈判中分歧巨大双方预期薪资存“巨大鸿沟”

北青网-北京青年报 2026-06-02 19:42:55
69 跟贴 69
人民日报有问有答：对随身登机行李收费，有依据吗？

澎湃新闻 2026-06-02 07:53:14
100 跟贴 100
浙江广厦主帅：G4无论结果如何都要拼到最后一刻

北青网-北京青年报 2026-06-02 13:50:14
162 跟贴 162
吃片皮鸭、喝红酒、品甜点…夏日，上海市集的烟火气和氛围感如何“炼成”？

上观新闻 2026-06-01 07:34:08
974 跟贴 974
健康 | 别慌，体检报告上这些都是“假病”→

学申论的谈妹 2026-06-02 22:01:28
21 跟贴 21
美国番茄价格大涨，美厨师：购买时“需反复权衡”

环球网资讯 2026-06-01 06:36:08
181 跟贴 181
以黎在华盛顿举行第四轮会谈

央视新闻客户端 2026-06-02 21:52:24
153 跟贴 153
挪威深海发现载有中国瓷器的18世纪沉船：大量青花瓷碗重见天日，文物达数千件，目前正开展船只溯源工作并努力还原历史真相

大风新闻 2026-06-02 12:15:18
0 跟贴 0
路边的惊喜：一次家庭旅行竟带回一只小生命，结局太治愈了

时光慢旅人 2026-06-03 01:47:59
0 跟贴 0
脑子里那个吓你的声音，其实一直在保护你

时光慢邮啊 2026-06-03 01:58:10
0 跟贴 0
欧洲企业CEO：中国抗生素卖得比口香糖还便宜我好气

澎湃新闻 2026-06-02 08:00:08
0 跟贴 0

男子自驾青海失联9个月，家属再赴事发地寻找救援人员计划向牧民发寻人信息寻找目击者

男子自驾青海失联9个月，家属再赴事发地寻找救援人员计划向牧民发寻人信息寻找目击者

红星新闻

2026-06-02 17:40:41

血压飙升！上海父亲晒聊天记录，“巨婴”儿子强行索要2万旅游费

血压飙升！上海父亲晒聊天记录，“巨婴”儿子强行索要2万旅游费

火山詩话

2026-06-02 14:27:07

裁判帮大忙！王博壮士断腕弃用孙总激出最强胡金秋，广厦扳回一局

裁判帮大忙！王博壮士断腕弃用孙总激出最强胡金秋，广厦扳回一局

后仰大风车

2026-06-02 21:42:22

亢奋女主硬刚导演：我是OnlyFans模特，裸戏别想删！

亢奋女主硬刚导演：我是OnlyFans模特，裸戏别想删！

自愈小日子

2026-06-02 00:21:55

福建一县委书记任上被查，昨天还参加走访慰问

福建一县委书记任上被查，昨天还参加走访慰问

人民资讯

2026-06-02 21:13:30

谌旭彬：百姓躺平摆烂，食税群体怎么办？

谌旭彬：百姓躺平摆烂，食税群体怎么办？

老郭在学习

2026-06-01 17:12:48

王守业贪污1.6亿，2005年“双规”后却被放出，他叫嚣：我摆平了

王守业贪污1.6亿，2005年“双规”后却被放出，他叫嚣：我摆平了

帝哥说史

2026-06-02 21:40:03

0-3首败！中国男足意外崩盘，以小打大完败非洲劲旅，争冠变难了

0-3首败！中国男足意外崩盘，以小打大完败非洲劲旅，争冠变难了

侃球熊弟

2026-06-02 22:38:29

离谱！16岁少年遭53岁男子诱导发生性关系，长达4年！最终感染HIV

离谱！16岁少年遭53岁男子诱导发生性关系，长达4年！最终感染HIV

乌娱子酱

2026-06-02 16:34:35

李晨郑恺，正式开除跑男

动物奇奇怪怪

2026-06-02 22:14:39

25万亿！国家启动史无前例超级大基建，信号强烈

25万亿！国家启动史无前例超级大基建，信号强烈

前瞻网

2026-06-02 10:49:44

随着中国男足0射门+0-3不敌非洲劲旅，土伦杯最新积分榜出炉

随着中国男足0射门+0-3不敌非洲劲旅，土伦杯最新积分榜出炉

侧身凌空斩

2026-06-02 23:06:26

突发！黄仁勋拿下宇树科技

李东阳朋友圈

2026-06-02 13:43:42

惊掉下巴！女生索要9000元换手机，男友转账附上“以结婚为目的”

惊掉下巴！女生索要9000元换手机，男友转账附上“以结婚为目的”

火山詩话

2026-06-02 16:32:30

俄乌猛烈互袭，ISW：俄军5月收益14平方公里，丧失281平方公里

俄乌猛烈互袭，ISW：俄军5月收益14平方公里，丧失281平方公里

史政先锋

2026-06-02 15:21:24

广厦三核79分拒横扫：胡金秋30分大爆发双小外49+14+15制胜

广厦三核79分拒横扫：胡金秋30分大爆发双小外49+14+15制胜

醉卧浮生

2026-06-02 21:32:14

一加盟商此前控诉被闭店，沪上阿姨称涉事加盟商制假售假获刑

一加盟商此前控诉被闭店，沪上阿姨称涉事加盟商制假售假获刑

南方都市报

2026-05-31 14:26:27

再这样错下去，中产的崩溃是早晚的事！

再这样错下去，中产的崩溃是早晚的事！

光远看经济

2026-06-02 19:41:45

《亢奋》女主怼主创：我演OnlyFans，你让我穿衣服？

《亢奋》女主怼主创：我演OnlyFans，你让我穿衣服？

时光慢旅人

2026-06-03 00:38:15

“办案人员篡改伪造证人笔录，没被追责还升职了”，云南镇雄公安局原副局长刑满出狱后公开举报

“办案人员篡改伪造证人笔录，没被追责还升职了”，云南镇雄公安局原副局长刑满出狱后公开举报

大风新闻

2026-06-02 19:35:11

数字生命卡兹克

反复横跳于不同的AI领域，努力分享一些很酷的AI干货

528文章数 650关注度

往期回顾全部

科技要闻

烧掉千亿后，美团、阿里、京东谁先止血？

头条要闻

演员魏宗万去世曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补，在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光又一款性能SUV要来了？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

健康

房产

数码

公开课

本地新闻

用剪纸的方式，打开江苏扬州

违规干细胞应用，暗藏致命隐患！

房产要闻

5200巨量投资曝光！未来五年，海南格局大变！

数码要闻

苹果watchOS 27前瞻：改进心率追踪、引入新表盘、升级Siri

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版