网易首页 > 网易号 > 正文 申请入驻

刚刚,OpenAI发布o1推理模型,碾压GPT-4o,物化生水平比肩人类博士

0
分享至

对于复杂的推理任务来说,o1 代表了当前人工智能(AI)能力的新水平。

就在刚刚,OpenAI 的“草莓”模型正式发布,名为“o1”,这是一系列新的人工智能模型,旨在花更多时间思考后再做出回答。

与以前的科学、编码和数学模型相比,o1 模型可以推理复杂的任务,解决更难的问题。

就像人类一样,o1 系列模型会用更多时间思考问题,然后再做出回答。通过训练,这些模型学会了完善思考过程、尝试不同的策略,并认识到自己的错误。

据 OpenAI 介绍,在测试中,o1 的下一个更新模型在物理、化学和生物等具有挑战性的基准任务上的表现达到了博士生的水平

他们还发现,这一模型在数学和编码方面表现出色。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o 只正确解决了 13% 的问题,而 o1 模型的得分率则高达 83%。

此外,o1 模型的编码能力也在竞赛中得到了评估,在 Codeforces 竞赛中达到了第 89 个百分点。

作为早期模型,o1 还不具备 ChatGPT 的许多实用功能,如浏览网页信息、上传文件和图片等。对于许多常见情况,GPT-4o 在短期内会有更强的功能。

但 OpenAI 表示,o1 模型更擅长解决科学、编码、数学和类似领域的复杂问题。例如,医疗保健研究人员可以使用 o1 为细胞测序数据添加注释,物理学家可以使用 o1 生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用 o1 构建和执行多步骤工作流。

以下三个视频 demo 展示了o1 模型在解决复杂推理问题方面的强大能力。

视频|o1 解决了一个复杂的逻辑难题。

视频|o1 根据提示为视频游戏编码。

视频|o1 翻译了一个损坏的句子。

此外,在安全性方面,OpenAI 提出了一种新的安全训练方法,利用 o1 模型的推理能力,使它们遵守安全和对齐准则。通过在上下文中对安全规则进行推理,o1 模型可以更有效地应用这些规则。

衡量安全性的方法之一,是测试当用户试图绕过安全规则(即“越狱”)时,模型能在多大程度上继续遵循其安全规则。在最难的越狱测试中,GPT-4o 得分为 22 分(0-100 分),而 o1-preview 得分为 84 分。

此外,为了向开发人员提供更高效的解决方案,OpenAI 还同时发布了 o1-mini,这是一种速度更快、成本更低的推理模型,在编码方面尤为有效。作为一个较小的模型,o1-mini 比 o1-preview 便宜 80%,因此对于需要推理但不需要广泛世界知识的应用程序来说,它是一个经济高效的模型。

目前,o1 的预览版本和 o1-mini 已经在 ChatGPT(Plus 和 Team)和 API 上线。未来,o1-mini 将提供给所有 ChatGPT 免费用户使用。

作者:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山姆29.9元一盆被抢空!有人一次抱走七八盆……

山姆29.9元一盆被抢空!有人一次抱走七八盆……

浙江之声
2026-04-27 13:08:41
美印太司令:美国必须战胜伊朗,这样才能阻止中国武统

美印太司令:美国必须战胜伊朗,这样才能阻止中国武统

第一军情
2026-04-27 12:20:03
个人收款被查了!2026年个人收款高于这个数,要小心!

个人收款被查了!2026年个人收款高于这个数,要小心!

新浪财经
2026-04-21 22:04:32
挑衅!台记者故意称赖清德为 “总统”,国台办当场纠正仍拒不悔改

挑衅!台记者故意称赖清德为 “总统”,国台办当场纠正仍拒不悔改

爱看剧的阿峰
2026-04-26 13:13:56
58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

墨印斋
2026-04-24 16:43:38
洗头可能影响寿命?医生提醒:60岁以后,牢记洗头“5不要”

洗头可能影响寿命?医生提醒:60岁以后,牢记洗头“5不要”

芹姐说生活
2026-04-24 11:42:57
原来他就是赵心童恩师,因经济收入低转行教练,教出4位世界冠军

原来他就是赵心童恩师,因经济收入低转行教练,教出4位世界冠军

揽星河的笔记
2026-04-21 23:17:32
全场钻桌底,只有他在干饭!好莱坞大佬白宫枪战中悠闲进餐

全场钻桌底,只有他在干饭!好莱坞大佬白宫枪战中悠闲进餐

日新现场
2026-04-27 11:57:05
“铮铮铁骨”唤醒热血青春

“铮铮铁骨”唤醒热血青春

中国青年报
2026-04-27 06:04:10
强制“一夫多妻”的南美小国,老婆不能少于两个,少了就要坐牢?

强制“一夫多妻”的南美小国,老婆不能少于两个,少了就要坐牢?

北纬的咖啡豆
2026-04-14 17:02:17
于和伟评价《八千里路云和月》黄澄澄,只字不提演技,却一针见血

于和伟评价《八千里路云和月》黄澄澄,只字不提演技,却一针见血

陈述影视
2026-04-26 23:52:56
难怪美国一点不慌,原来真有内鬼输血!1200吨战略物资被悄悄贱卖

难怪美国一点不慌,原来真有内鬼输血!1200吨战略物资被悄悄贱卖

荣亭小吏
2026-04-27 09:33:54
新婚姻法来了,离婚将不复存在?3种情况不允许离婚!

新婚姻法来了,离婚将不复存在?3种情况不允许离婚!

巢客HOME
2026-04-26 20:24:39
美国要破防了!卢特尼克亲口承认:卖中国的H200,一块都没卖出去

美国要破防了!卢特尼克亲口承认:卖中国的H200,一块都没卖出去

老范谈史
2026-04-27 14:06:31
近10年崩得最狠的专业:从年薪几十万到月薪两千五!

近10年崩得最狠的专业:从年薪几十万到月薪两千五!

灯锦年
2026-04-21 13:28:31
以色列军队在黎巴嫩南部搜索,到处都是真主党丢弃的武器装备

以色列军队在黎巴嫩南部搜索,到处都是真主党丢弃的武器装备

起喜电影
2026-04-27 13:14:34
"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

毒sir财经
2025-12-08 22:57:40
“最长断粮17天”,乌克兰前线士兵骨瘦如柴照片遭曝光

“最长断粮17天”,乌克兰前线士兵骨瘦如柴照片遭曝光

观察者网
2026-04-25 08:51:03
拼命演戏还清一亿四千万巨债,豪门梦醒,现回浙江农家过踏实日子

拼命演戏还清一亿四千万巨债,豪门梦醒,现回浙江农家过踏实日子

观察者海风
2026-04-04 12:59:45
深圳一非机动车道突现近20厘米台阶致人摔伤,伤者:肉眼根本看不出来,希望能给安全隐患做个标识

深圳一非机动车道突现近20厘米台阶致人摔伤,伤者:肉眼根本看不出来,希望能给安全隐患做个标识

潇湘晨报
2026-04-27 12:15:24
2026-04-27 15:07:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

美海军考虑从外国购买军舰和零部件:日韩成潜在选择

头条要闻

美海军考虑从外国购买军舰和零部件:日韩成潜在选择

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

《奔跑吧14》刚播就把一手好牌打稀烂

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

在不确定中寻找确定性:大众汽车的中国解法

态度原创

健康
家居
数码
艺术
公开课

干细胞如何让烧烫伤皮肤"再生"?

家居要闻

江景风格 流动的秩序

数码要闻

一人千面唤醒场景革命,情绪价值激活净水器增长密码

艺术要闻

你绝对想不到,摄影能让她成为女神!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版