网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI发布o1推理模型,碾压GPT-4o,物化生水平比肩人类博士

0
分享至

对于复杂的推理任务来说,o1 代表了当前人工智能(AI)能力的新水平。

就在刚刚,OpenAI 的“草莓”模型正式发布,名为“o1”,这是一系列新的人工智能模型,旨在花更多时间思考后再做出回答。

与以前的科学、编码和数学模型相比,o1 模型可以推理复杂的任务,解决更难的问题。

就像人类一样,o1 系列模型会用更多时间思考问题,然后再做出回答。通过训练,这些模型学会了完善思考过程、尝试不同的策略,并认识到自己的错误。

据 OpenAI 介绍,在测试中,o1 的下一个更新模型在物理、化学和生物等具有挑战性的基准任务上的表现达到了博士生的水平

他们还发现,这一模型在数学和编码方面表现出色。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o 只正确解决了 13% 的问题,而 o1 模型的得分率则高达 83%。

此外,o1 模型的编码能力也在竞赛中得到了评估,在 Codeforces 竞赛中达到了第 89 个百分点。

作为早期模型,o1 还不具备 ChatGPT 的许多实用功能,如浏览网页信息、上传文件和图片等。对于许多常见情况,GPT-4o 在短期内会有更强的功能。

但 OpenAI 表示,o1 模型更擅长解决科学、编码、数学和类似领域的复杂问题。例如,医疗保健研究人员可以使用 o1 为细胞测序数据添加注释,物理学家可以使用 o1 生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用 o1 构建和执行多步骤工作流。

以下三个视频 demo 展示了o1 模型在解决复杂推理问题方面的强大能力。

视频|o1 解决了一个复杂的逻辑难题。

视频|o1 根据提示为视频游戏编码。

视频|o1 翻译了一个损坏的句子。

此外,在安全性方面,OpenAI 提出了一种新的安全训练方法,利用 o1 模型的推理能力,使它们遵守安全和对齐准则。通过在上下文中对安全规则进行推理,o1 模型可以更有效地应用这些规则。

衡量安全性的方法之一,是测试当用户试图绕过安全规则(即“越狱”)时,模型能在多大程度上继续遵循其安全规则。在最难的越狱测试中,GPT-4o 得分为 22 分(0-100 分),而 o1-preview 得分为 84 分。

此外,为了向开发人员提供更高效的解决方案,OpenAI 还同时发布了 o1-mini,这是一种速度更快、成本更低的推理模型,在编码方面尤为有效。作为一个较小的模型,o1-mini 比 o1-preview 便宜 80%,因此对于需要推理但不需要广泛世界知识的应用程序来说,它是一个经济高效的模型。

目前,o1 的预览版本和 o1-mini 已经在 ChatGPT(Plus 和 Team)和 API 上线。未来,o1-mini 将提供给所有 ChatGPT 免费用户使用。

作者:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
惊艳!全红婵 “换头式” 长大,长发披肩秒变甜妹

惊艳!全红婵 “换头式” 长大,长发披肩秒变甜妹

带你逛体坛
2025-12-31 08:03:04
扔酱潮来袭,闫学晶坑惨代言厂家,佐香园上架新包装,法务行动了

扔酱潮来袭,闫学晶坑惨代言厂家,佐香园上架新包装,法务行动了

银河史记
2026-01-05 23:07:41
凯美瑞新增车型上市 售价19.48-21.18万元

凯美瑞新增车型上市 售价19.48-21.18万元

车质网
2026-01-07 14:41:06
美国官员:美方正在扣押悬挂俄国旗的油轮

美国官员:美方正在扣押悬挂俄国旗的油轮

新京报
2026-01-07 22:08:03
年过69不能吃核桃?医生提醒:不想进医院,这3种坚果最好少吃!

年过69不能吃核桃?医生提醒:不想进医院,这3种坚果最好少吃!

观星赏月
2026-01-08 04:47:06
比商业航天还猛?核聚变密度极限被突破   10大隐形冠军深度卡位

比商业航天还猛?核聚变密度极限被突破 10大隐形冠军深度卡位

元芳说投资
2026-01-08 06:00:12
女子开车不慎掉进池塘,71岁大爷跳河救人,事后女子上门感谢,竟在大爷家中看见自己小时候的照片.....

女子开车不慎掉进池塘,71岁大爷跳河救人,事后女子上门感谢,竟在大爷家中看见自己小时候的照片.....

乔话
2026-01-06 22:36:58
U23国足22点亚洲杯首秀 近10年最强一代誓破咒 5后卫首发战伊拉克

U23国足22点亚洲杯首秀 近10年最强一代誓破咒 5后卫首发战伊拉克

我爱英超
2026-01-08 06:43:30
联合国回应特朗普涉格陵兰岛言论:坚信成员国领土完整的不可侵犯性

联合国回应特朗普涉格陵兰岛言论:坚信成员国领土完整的不可侵犯性

澎湃新闻
2026-01-07 10:18:06
中国对日最强制裁,军民两用物品禁止对日军事出口,警惕日本动武

中国对日最强制裁,军民两用物品禁止对日军事出口,警惕日本动武

胖福的小木屋
2026-01-07 11:13:22
美国评出世界空军前三甲,中国在迫近式追赶,已经无力再拉开距离

美国评出世界空军前三甲,中国在迫近式追赶,已经无力再拉开距离

小熊侃史
2026-01-05 10:37:37
比田朴珺更潇洒!王石邀请众人到家打牌聚餐,3位美女暗送秋波

比田朴珺更潇洒!王石邀请众人到家打牌聚餐,3位美女暗送秋波

揽星河的笔记
2026-01-07 19:21:08
45岁董洁街头打电话被拍!苹果肌下垂褶子多,皱眉撇嘴一脸凶相

45岁董洁街头打电话被拍!苹果肌下垂褶子多,皱眉撇嘴一脸凶相

仙味少女心
2026-01-06 23:50:40
意外!阿奇姆彭刚从河南队离开,就转身加盟津门虎?于根伟乐开花

意外!阿奇姆彭刚从河南队离开,就转身加盟津门虎?于根伟乐开花

罗掌柜体育
2026-01-08 06:10:03
婚姻里的“哄”,是最高级的浪漫

婚姻里的“哄”,是最高级的浪漫

青苹果sht
2025-12-27 05:12:18
什么情况?广东男篮外援麦考尔与史密斯赛后爆发口角冲突引关注

什么情况?广东男篮外援麦考尔与史密斯赛后爆发口角冲突引关注

狼叔评论
2026-01-07 22:38:06
李在明带火上海,上海老表评韩国游客:嗓门大了点,但花钱爽快

李在明带火上海,上海老表评韩国游客:嗓门大了点,但花钱爽快

叹知
2026-01-08 10:41:36
零容忍!国家出手官媒批评闫学晶毫不留情句句捅心窝子引百姓共鸣

零容忍!国家出手官媒批评闫学晶毫不留情句句捅心窝子引百姓共鸣

娱乐小丸子
2026-01-08 09:36:28
各地都在取消期末统考,我在想:当教育变成“开盲盒”,我们该如何突围?

各地都在取消期末统考,我在想:当教育变成“开盲盒”,我们该如何突围?

萌芽研究所BUD
2026-01-07 22:48:46
不坐班,年赚几十万,他们专坑小微企业

不坐班,年赚几十万,他们专坑小微企业

中国新闻周刊
2026-01-07 10:51:07
2026-01-08 12:27:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1428文章数 5081关注度
往期回顾 全部

科技要闻

雷军:现在听到营销这两个字都有点恶心

头条要闻

美国高官谈对委行动:主宰世界的是实力、武力与权力

头条要闻

美国高官谈对委行动:主宰世界的是实力、武力与权力

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

不谈颠覆与奇迹,智驾企业还能聊点什么?

态度原创

健康
亲子
教育
公开课
军事航空

这些新疗法,让化疗不再那么痛苦

亲子要闻

汉堡到底是不是垃圾食品呢?

教育要闻

赤裸裸的现实!孩子入职中国电信县公司一年,气到想要离职

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版