网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI发布o1推理模型,碾压GPT-4o,物化生水平比肩人类博士

0
分享至

对于复杂的推理任务来说,o1 代表了当前人工智能(AI)能力的新水平。

就在刚刚,OpenAI 的“草莓”模型正式发布,名为“o1”,这是一系列新的人工智能模型,旨在花更多时间思考后再做出回答。

与以前的科学、编码和数学模型相比,o1 模型可以推理复杂的任务,解决更难的问题。

就像人类一样,o1 系列模型会用更多时间思考问题,然后再做出回答。通过训练,这些模型学会了完善思考过程、尝试不同的策略,并认识到自己的错误。

据 OpenAI 介绍,在测试中,o1 的下一个更新模型在物理、化学和生物等具有挑战性的基准任务上的表现达到了博士生的水平

他们还发现,这一模型在数学和编码方面表现出色。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o 只正确解决了 13% 的问题,而 o1 模型的得分率则高达 83%。

此外,o1 模型的编码能力也在竞赛中得到了评估,在 Codeforces 竞赛中达到了第 89 个百分点。

作为早期模型,o1 还不具备 ChatGPT 的许多实用功能,如浏览网页信息、上传文件和图片等。对于许多常见情况,GPT-4o 在短期内会有更强的功能。

但 OpenAI 表示,o1 模型更擅长解决科学、编码、数学和类似领域的复杂问题。例如,医疗保健研究人员可以使用 o1 为细胞测序数据添加注释,物理学家可以使用 o1 生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用 o1 构建和执行多步骤工作流。

以下三个视频 demo 展示了o1 模型在解决复杂推理问题方面的强大能力。

视频|o1 解决了一个复杂的逻辑难题。

视频|o1 根据提示为视频游戏编码。

视频|o1 翻译了一个损坏的句子。

此外,在安全性方面,OpenAI 提出了一种新的安全训练方法,利用 o1 模型的推理能力,使它们遵守安全和对齐准则。通过在上下文中对安全规则进行推理,o1 模型可以更有效地应用这些规则。

衡量安全性的方法之一,是测试当用户试图绕过安全规则(即“越狱”)时,模型能在多大程度上继续遵循其安全规则。在最难的越狱测试中,GPT-4o 得分为 22 分(0-100 分),而 o1-preview 得分为 84 分。

此外,为了向开发人员提供更高效的解决方案,OpenAI 还同时发布了 o1-mini,这是一种速度更快、成本更低的推理模型,在编码方面尤为有效。作为一个较小的模型,o1-mini 比 o1-preview 便宜 80%,因此对于需要推理但不需要广泛世界知识的应用程序来说,它是一个经济高效的模型。

目前,o1 的预览版本和 o1-mini 已经在 ChatGPT(Plus 和 Team)和 API 上线。未来,o1-mini 将提供给所有 ChatGPT 免费用户使用。

作者:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
合川杀猪宴后续:呆呆“底裤”被扒,担心一幕发生,官方连夜下场

合川杀猪宴后续:呆呆“底裤”被扒,担心一幕发生,官方连夜下场

鋭娱之乐
2026-01-13 20:51:54
伊朗组织:有大规模处决示威者的危险,国际社会有责任保护平民

伊朗组织:有大规模处决示威者的危险,国际社会有责任保护平民

一种观点
2026-01-13 08:32:19
盯上6000米深海稀土!日本派船探查,距中国加强两用物项出口管制不到一周!高市早苗已决定提前大选

盯上6000米深海稀土!日本派船探查,距中国加强两用物项出口管制不到一周!高市早苗已决定提前大选

每日经济新闻
2026-01-13 15:11:06
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
时隔两年半降杠杆!多只权重股尾盘竞价现巨额压单,发生了什么?

时隔两年半降杠杆!多只权重股尾盘竞价现巨额压单,发生了什么?

每经牛眼
2026-01-14 16:07:36
中国共产党第二十届中央纪律检查委员会第五次全体会议公报

中国共产党第二十届中央纪律检查委员会第五次全体会议公报

新京报
2026-01-14 15:48:10
以前总有人吐槽阿娇个子矮身材胖,但现在明显阿Sa脸变了很不自然

以前总有人吐槽阿娇个子矮身材胖,但现在明显阿Sa脸变了很不自然

民间平哥
2026-01-14 16:20:13
傅首尔的困境有多难解?一露头就全网抵制,她不再被网友宽容了?

傅首尔的困境有多难解?一露头就全网抵制,她不再被网友宽容了?

小熊侃史
2026-01-09 07:35:03
比黄金白银还疯狂!价格飙上天!

比黄金白银还疯狂!价格飙上天!

魏家东
2026-01-14 14:16:32
为了流量,脸都不要了

为了流量,脸都不要了

梳子姐
2026-01-13 14:45:49
2-0掀翻纽卡 13亿欧曼城一只脚进决赛:7000万强援2连杀 17年纪录

2-0掀翻纽卡 13亿欧曼城一只脚进决赛:7000万强援2连杀 17年纪录

风过乡
2026-01-14 06:13:02
这只会装死的羊火了,有人出1万高价买它,羊主人拒绝:多少不卖

这只会装死的羊火了,有人出1万高价买它,羊主人拒绝:多少不卖

三农雷哥
2026-01-13 17:36:24
新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

医护健康科普
2025-08-31 17:07:58
72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

老特有话说
2026-01-07 00:40:03
委内瑞拉代总统将派特使赴美

委内瑞拉代总统将派特使赴美

新华社
2026-01-14 08:08:11
天普股份尾盘触及涨停 上演“准地天板”

天普股份尾盘触及涨停 上演“准地天板”

财联社
2026-01-14 14:46:04
失望!男篮顶级锋线打36分钟,只得5、分 球迷:郭士强还要他吗?

失望!男篮顶级锋线打36分钟,只得5、分 球迷:郭士强还要他吗?

体育哲人
2026-01-14 15:59:10
美国国父杰斐逊,曾与 14 岁黑奴育有六子却至死否认,直到两百年后,当年的真相才被查证揭晓

美国国父杰斐逊,曾与 14 岁黑奴育有六子却至死否认,直到两百年后,当年的真相才被查证揭晓

源溯历史
2026-01-13 00:28:21
人民网锐评中戏新疆班!言语犀利句句戳人心窝,谁在说谎一目了然

人民网锐评中戏新疆班!言语犀利句句戳人心窝,谁在说谎一目了然

哄动一时啊
2026-01-14 11:43:03
69年周总理担心苏联动用核武器,毛主席反问总理:你读过明史吗?

69年周总理担心苏联动用核武器,毛主席反问总理:你读过明史吗?

鹤羽说个事
2026-01-14 15:26:35
2026-01-14 17:12:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1429文章数 5081关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

宝能集团董事长姚振华实名举报 事关观致汽车破产重整

头条要闻

宝能集团董事长姚振华实名举报 事关观致汽车破产重整

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

姚振华举报:观致汽车资产被低价拍卖

汽车要闻

曝Model Y或降到20万以内!

态度原创

教育
艺术
亲子
游戏
家居

教育要闻

小升初压轴题,求圆的面积?

艺术要闻

八大山人『山水花鸟册』

亲子要闻

女子孕24周已宫口全开,医生紧急手术保胎至31周诞下宝宝

排队1小时,金价飙到看不懂!这是天下贰还是大荒股市开市

家居要闻

心之所向 现代建构之美

无障碍浏览 进入关怀版