网易首页 > 网易号 > 正文 申请入驻

重磅!OpenAI o1模型还没有实现真正的逻辑推理能力

0
分享至

一、o1系列模型概况

9月13日OpenAI宣布发布o1系列模型,o1系列模型包括o1、o1-mini以及抢先版o1-preview,o1-preview和o1-mini模型已经可以使用。OpenAI宣布,“新模型在推理能力上代表了人工智能能力的新水平,因此,计数器将重置为1”。

根据OpenAI的自测,o1在竞赛编程问题(Codeforces)中排名第89个百分点,在美国数学奥林匹克竞赛(AIME)预选赛中位列美国前500名学生之列,并且在物理、生物和化学问题的基准测试(GPQA)中超过了人类博士水平的准确度。

OpenAI团队上下对o1模型充满了信心,OpenAI的CEO 山姆·奥特曼在社交媒体上表示:“需要耐心等待的时刻结束了!”、“这是我们至今为止最强大、最一致的一系列模型。“。

根据OpenAI的公开文档,o1主要利用了强化学习和思维链两种技术。首先,利用强化学习技术,通过奖惩训练o1自行寻找答案,o1会尝试不同的策略,发现自己的错误,并修改策略;其次,在解答问题时,再采用思维链技术,将复杂问题分解为多个连续关联的简单问题,类似于人类逐步解决问题的方式。

这使得o1的训练方式与之前的AI模型有着根本不同,OpenAI使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行训练,包括“推理数据”和专门为其量身定制的科学文献。

OpenAI发现,o1 模型通过训练时和测试时,准确性会随时间平稳提高,思考越久质量越高,安全性越高。借助新的训练方法,o1模型会更加准确,AI幻觉问题减少,但依然存在,而且通过对上下文的关联分析,获得了更高的“越狱测试”分值。

而且在绝大多数这些推理密集型任务中,比如数学计算、代码编程,以及测试化学、物理和生物学专业知识的基准GPQA-diamond上,o1 系列模型的性能均明显优于 GPT-4o。

根据OpenAI公布的信息,o1系列模型的特长并不相同,从数学能力看,o1最强,其次是o1-mini,最后是o1-preview,从成本看,o1最高,其次是o1-preview,最便宜是o1-mini。o1擅长准确生成和调试复杂代码,o1-preview具有较强的推理能力和广阔的世界知识,o1-mini速度更快、比o1-preview便宜80%的推理模型,在编程方面尤其高效。

但o1系列模型在关于世界的事实知识方面总体表现不佳,甚至不如GPT-4o等之前模型,需要更长时间、更高成本来回答问题,目前也缺乏从网络收集实时信息的能力,更易产生幻觉。

二、社会评测与同行水平

社会评测普遍认可o1 系列模型的逻辑推理能力优于 GPT-4o,但也有很多人提出了不同看法。

差评XPIN邀请了理综三科的博士测评,物理评价较高,而生物、化学评价较低,综合认为o1在认知上达到硕士水平,但创造力上仍远远达不到硕博水平。

文章地址:https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_9103761019903209191%22%7D&n_type=1&p_from=4

APPSO认为o1做题能力强,但复杂的生活场景推理仍不尽如人意。

文章地址:https://m.huxiu.com/article/3465156.html

每日经济新闻通过评测发现,o1在经典草莓测试、代码编写、小游戏制作、数学与经济学表现出色,对事实性知识与语言理解上表现反而不如GPT-4o。

文章地址:https://baijiahao.baidu.com/s?id=1810084250835787270&wfr=spider&for=pc

赛博禅心从o1输出语言风格分析,认为 o1“与其说是模型优化,不如说是工程优化”。

文章地址:https://www.sohu.com/a/808623091_121124377

此外,在o1发布之前,谷歌AI研究实验室DeepMind在7月底宣布,其AI系统在今年国际数学奥林匹克(IMO)中首次取得与银牌得主同等的成绩, Anthropic在 6月推出了Claude 3.5 Sonnet模型,在推理、编码等测试中的得分也超过了GPT-4o,竞争对手的AI模型与o1差距并不远

三、AlphaGo模型借鉴

OpenAI并没有公布oI的模型特征,只公布了利用了强化学习和思维链两种技术,思维链是由谷歌在2022 年提出,oI是第一个实现的,这是将复杂问题简化的方法。

但最为重要的是强化学习技术,强化学习的前驱是DeepMind的AlphaGo。

AlphaGo以前的围棋算法采用的是蒙特卡洛树搜索,试图利用计算机的算力优势进行海量模拟试错,但围棋人工智能也只能战胜业余棋手。

AlphaGo的成功取决于开发出了价值网络,将价值网络、策略网络和蒙特卡洛树搜索组合在一起,策略网络是指预测可能走法的概率分布,价值网络是指估计游戏状态的价值,蒙特卡洛树搜索是游戏树的核心搜索算法。

对于围棋而言,搜索的复杂度取决于搜索空间的宽度(每步的选择多寡)和深度(博弈的步数),围棋棋面有361个点,平均宽度约为250,深度约为150,AlphaGo用价值网络(value network)消减深度,用策略网络(policy network)消减宽度,利用局面评估函数,极大地缩小了蒙特卡洛树的搜索范围,提高了算法的成功概率。

AlphaGo用了一个13层的深度卷积神经网络来训练价值网络和策略网络,将棋盘每个位置编码48种经验特征,通过“自我对战”来进行深度学习,识别每个位置的隐含特征,积累了2000万盘高质量对局作为大数据基础。

机器学习的优点是通过人力所无法企及的海量运算,把人类说不清楚的复杂逻辑训练出来,放在多层神经网络海量系数里,以此改善价值网络、策略网。

此外,AlphaGoV18算力也有了极大提升,在以4:1胜李世石比赛中,使用的分布式机器有1202个CPU和176个GPU。围棋人工智能的算法、算力均获得了大幅提升,从而战胜了人类最高水平的棋手。

三、oI模型分析

oI必定会像AlphaGo那样设立目标,给出胜负规则,然后才能通过奖惩训练o1,o1才能通过蒙特卡洛树搜索,发现高价值答案,从而修改策略,不断自我积累与改进。

从数学、物理、化学、生物等学科看,oI在数学、物理等学科上,目标与胜负规则设定较为简单、明确,因此o1相比GPT-4o进步明显,但在化学、生物等学科上,目标与胜负规则设定相对较为复杂、模糊,因此训练成绩相对没有那么突出。这可能与‌化学、生物需要大量知识点的理解有关,o1在对事实性知识与语言理解上表现不如GPT-4o。

虽然AlphaGo可以在围棋比赛中战胜人类冠军,人工智能可以在大规模图像识别和人脸识别超越了人类的水平,人工智能系统诊断皮肤癌可以达到专业医生水平,但都是在需求明确、边界清晰、逻辑简单的前提下,也就是概念模型较为简单的前提下,人工智能可以利用算力优势超过人类,但当时人工智能在复杂逻辑推理、抽象概念理解上,还存在明显的局限性。

数学、物理和围棋虽然都强调逻辑思维,但侧重点不同。围棋侧重于空间布局和策略选择。数学、物理的基本概念和公理构成了一个演绎系统,通过这些基本元素推导出复杂的定理和公式,定理和公式具有唯一性和确定性。围棋中的走法往往有很多种可能性,数学、物理题的解法虽然也存在有多种可能,但在策略网络的宽度、价值网络的深度选择上要大大少于围棋,所以数学、物理的深度学习难度并不比围棋高。

数学、物理题的真正难点在于以数据驱动的暴力策略无法模拟人类的常识推理,比如向AI提问“如果一根香蕉重0.5磅,而我有7磅香蕉和9个橙子,我总共有多少个水果?“具有小学文化的人可以算出答案是23个水果。AI却回答:“你有16个水果、7根香蕉和9个橙子。” AI没有建立出对概念的精确认知,导致了数字的简单堆积。

o1的新训练数据集必定包括了精确的科学文献数据,与专业的推理数据,从而大大增强了o1的常识推理能力,因此才能在逻辑推理能力上胜过了GPT-4o。

四、oI模型的内在缺陷

但OpenAI o1的强化学习还没有实现真正的逻辑推理能力,逻辑推理能力是一种根据事物概念的内涵、外延与发展变化,推理出事物之间逻辑关系的能力,拥有真正的逻辑推理能力其实并不需要太多算力进行暴力计算。

o1通过奖惩训练进行大量强化学习,说明其虽然通过科学文献数据与推理数据,提升了AI的常识推理能力,但仍不足以建立AI对事物概念的内涵、外延与发展变化的准确认知,还需要通过大量具有目标、奖惩规则的学习进行修正,如果脱离了这些目标、奖惩规则,AI无法基于这些训练出来的逻辑在另一个领域进行准确的逻辑推理,这其实是“AI逻辑假象”,AI并没有准确认知事物背后的逻辑,只是通过大量学习构建出了已知领域事物的固有逻辑关系,而其他领域难以照搬与应用这些逻辑关系。

其实o1模型只是掌握已知领域事物固有逻辑关系的解题家,而非掌握普适逻辑能力的逻辑家!

《聚势:开创全球科技、商业、经济新趋势》即将上市,推演未来500年人类命运,重构人类战略,站在无尽的时间长河之上,以未来的眼光,穿透当今全球社会的重重迷雾,直面本质。更多精彩内容,敬请期待!

本文图片来自于网络与AI作图。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
于蕾:春晚接受观众意见,40年来一直是这么个传统

于蕾:春晚接受观众意见,40年来一直是这么个传统

澎湃新闻
2026-02-19 00:09:19
太顶了!明明什么都没露,却性感得要命!

太顶了!明明什么都没露,却性感得要命!

贵圈真乱
2025-12-20 12:02:06
架空:中华超现代,48单元防空垂32单元反舰垂,052B型通用驱逐舰

架空:中华超现代,48单元防空垂32单元反舰垂,052B型通用驱逐舰

啸鹰评
2026-02-17 23:56:25
朴槿惠出狱生活:住别墅,与小10岁律师为伴,如今生活安逸

朴槿惠出狱生活:住别墅,与小10岁律师为伴,如今生活安逸

肖兹探秘说
2026-01-09 19:55:57
龙洋回应了!回应春晚眼神争议:不是看提词器…

龙洋回应了!回应春晚眼神争议:不是看提词器…

魔都姐姐杂谈
2026-02-18 16:32:05
江疏影上海年夜饭曝光!七菜一汤加茅台,手上的戒指才是重点

江疏影上海年夜饭曝光!七菜一汤加茅台,手上的戒指才是重点

觉慧梦吟
2026-02-17 21:02:36
我们应庆幸,美国总统是特朗普,如果换成希拉里结果将大不同!

我们应庆幸,美国总统是特朗普,如果换成希拉里结果将大不同!

观星赏月
2026-02-17 22:42:14
欧冠刺激夜:尤文图斯2-5,皇马1-0,巴黎圣日耳曼3-2,穆帅染红

欧冠刺激夜:尤文图斯2-5,皇马1-0,巴黎圣日耳曼3-2,穆帅染红

侧身凌空斩
2026-02-18 06:18:49
王菲化妆师回应造型翻车,晒水滴耳环近照称:问就是大水滴反光

王菲化妆师回应造型翻车,晒水滴耳环近照称:问就是大水滴反光

月光作笺a
2026-02-17 23:32:13
纯电新能源所剩无几,其他集体塞回发动机,这事到底谁在“打脸”

纯电新能源所剩无几,其他集体塞回发动机,这事到底谁在“打脸”

过期少女致幻录
2026-02-09 14:20:53
张一鸣登顶,雷军排第十,2026富豪榜大洗牌:十年河东十年河西

张一鸣登顶,雷军排第十,2026富豪榜大洗牌:十年河东十年河西

大卫聊科技
2026-02-02 12:37:28
28万彩礼被父母扣下,女子10年不回娘家,母亲急了,她却说没退路

28万彩礼被父母扣下,女子10年不回娘家,母亲急了,她却说没退路

子芫伴你成长
2026-02-17 21:43:36
克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

老蝣说体育
2026-01-05 14:59:04
过完这个春节,中国AI只剩下阿里和字节

过完这个春节,中国AI只剩下阿里和字节

慢放
2026-02-17 17:26:24
18岁中国选手公开质疑裁判压分!网友指责国际滑联:花滑没周继红

18岁中国选手公开质疑裁判压分!网友指责国际滑联:花滑没周继红

念洲
2026-02-18 09:23:15
如果不差钱,退休后首选这3座城市久居,物价低,还舒服

如果不差钱,退休后首选这3座城市久居,物价低,还舒服

蜉蝣说
2026-02-14 16:06:23
奥塔门迪挑衅维尼修斯:亮出世界杯纹身,却遭斯内德嘲讽

奥塔门迪挑衅维尼修斯:亮出世界杯纹身,却遭斯内德嘲讽

星耀国际足坛
2026-02-18 14:37:46
挪威越野滑雪名将获个人冬奥第10金,在奥运历史总金牌榜仅次于菲尔普斯

挪威越野滑雪名将获个人冬奥第10金,在奥运历史总金牌榜仅次于菲尔普斯

懂球帝
2026-02-19 00:10:08
全球大反攻!发生什么了?A股要爆了!

全球大反攻!发生什么了?A股要爆了!

龙行天下虎
2026-02-18 22:20:30
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
2026-02-19 00:44:49
谢雨钢
谢雨钢
战略学之父、未来推演学之父,盛唐天策管理咨询创始人
31文章数 3关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

36岁徐梦桃卫冕:16年间参加5届冬奥 10年做4次大手术

头条要闻

36岁徐梦桃卫冕:16年间参加5届冬奥 10年做4次大手术

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

健康
游戏
本地
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

PS王牌引擎太强大!成为《死亡搁浅2》唯一选择

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

菲海警在南海投放不明物体 被中国海警全程监控并拍下

无障碍浏览 进入关怀版