网易首页 > 网易号 > 正文 申请入驻

新V观海外:OpenAI o1模型实测的惊艳感不足

0
分享至

经济观察报 社论 陈沛/文 OpenAI刚刚推出了全新的o1系列模型,包括o1-preview和o1-mini,被认为是OpenAI最近持续放风的代号为strawberry的模型项目,重点提升了模型高级推理能力。可是根据我对o1-preview模型的实测体验,惊艳感低于预期。

先思考,后回答

o1-preview模型收到问题后会先思考一段时间,自动选择必要的推理过程,然后生成结果。这是新模型最显著的特点。

例如,我先测试了一个简单的示例问题“向幼儿园小朋友解释什么是怀旧”,o1-preview模型执行了4个推理步骤:理解问题要求、生成一个简单的比喻、描述怀旧的感受、整体理解怀旧的概念。执行这4个推理步骤共思考了7秒,然后生成了答案。

之后我换了推理难度更高的“两根电线杆之间80米电缆”问题。这个问题我使用之前各个版本的GPT从来没有做出来过。而这次o1模型对这个问题足足思考了74秒,反复执行了28个推理步骤,最终得到了经过反复验证的正确答案。

初步测试下来,能明显感觉到o1-preview模型与之前模型的差异。之前的GPT系列模型的设定是无论如何先快速生成一些看上去非常自然的内容,但是其中的逻辑是否合理、是否正确则不会过多验证。而o1-preview模型则是会自行选择合适的分析逻辑,并且谨慎验证思路是否合理,避免快速给出不负责任的答案。

奥赛数学题依然做不对

由于OpenAI官方发布o1系列模型时,重点强调了新模型在数学竞赛和编码相关的测试基准方面的能力提升。因此我继续采用一道中国数学奥林匹克竞赛题“56元集合和15个子集求解最小正整数”进行测试。

这道题的正确答案应该是41。在我的测试中,o1-preview模型思考了64秒,反复执行了30个推理步骤,然后给出了50的答案。虽然没有做对,但是整体解题思路已经接近,如果在正常的考试判卷中,相信o1-preview给出的证明过程也能得到部分分数。

但是,这个测试并没有让我感到o1-preview模型的高级推理能力非常惊艳。因为就在不久前,DeepMind也发布过Alpha Proof和Alpha Geometry 2在国际奥数竞赛中的结果,虽然那个测试结果也有一定的取巧成分,但已表明这种通过模型自我对弈实现高级推理能力的做法,并不是OpenAI的最新突破。

仓促发布产品的毛坯感十足

除了奥赛数学题方面的惊艳感不足之外,这次o1-preview模型的整体用户体验还不完整。目前仅支持纯文本输入,这也限制了进一步测试新模型在处理几何问题等方面的高级推理能力。

特别是对于已经习惯GPT-4o的图片、语音、文档多模态处理能力的用户来说,就像是回到了ChatGPT刚发布时的感觉,没有数据分析功能,也不能访问网页内容。

而在这一版o1-preview用户体验中的最大亮点——自动思考和推理过程,其实也在之前其他AI Agent应用中出现过,似乎给用户带来的惊艳感也并不强烈。

总而言之,就像o1-preview名称所预示的含义,这版模型目前还只是预览版,后续正式发布时应该还会加上更多常见的产品功能。也许这次的新模型发布预示OpenAI开始模仿人类思考习惯,从“系统1”进军“系统2”踏上新的智能研究方向,但是o1-preview模型本身将注定只是一个过程产品。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
与董卿分手后,娶小20岁娇妻,如今62岁的他,婚姻幸福成人生赢家

与董卿分手后,娶小20岁娇妻,如今62岁的他,婚姻幸福成人生赢家

做一个合格的吃瓜群众
2026-04-19 11:00:20
曼联击败切尔西有运气帮忙,但在运气之外还有海文

曼联击败切尔西有运气帮忙,但在运气之外还有海文

写球的牧子
2026-04-19 08:25:01
57岁歌手陈红近况曝光!离婚后被前夫拿走12亿,儿子成为她的骄傲

57岁歌手陈红近况曝光!离婚后被前夫拿走12亿,儿子成为她的骄傲

代军哥哥谈娱乐
2026-04-18 09:57:07
骑士官方致谢中国球迷应援!哈登出战20胜7负太猛 阿特金森又大赞

骑士官方致谢中国球迷应援!哈登出战20胜7负太猛 阿特金森又大赞

颜小白的篮球梦
2026-04-19 07:00:03
雷军15小时不眠直播:车越来越好,手机却被“偷家”了

雷军15小时不眠直播:车越来越好,手机却被“偷家”了

无相商业趋势
2026-04-17 17:42:43
CBA|北汽男篮能否锁定常规赛前四?命运掌握在自己手中

CBA|北汽男篮能否锁定常规赛前四?命运掌握在自己手中

北青网-北京青年报
2026-04-19 10:16:12
欠他们一句道歉!5位被毁掉的外援:瞎眼、欠薪、断腿,巅峰全废

欠他们一句道歉!5位被毁掉的外援:瞎眼、欠薪、断腿,巅峰全废

圣西罗的太阳
2026-04-19 10:08:28
米切尔32分,连续9场G1砍30+历史最长!哈登22+10,总得分超伯德

米切尔32分,连续9场G1砍30+历史最长!哈登22+10,总得分超伯德

无术不学
2026-04-19 08:19:45
10亿违建豪宅一夜推平,背后“大人物”被扒,官媒:一点都不冤!

10亿违建豪宅一夜推平,背后“大人物”被扒,官媒:一点都不冤!

网络易不易
2026-04-19 06:05:07
印度油轮着急赶路被炮击!印总理恼羞成怒,紧急召见伊朗大使

印度油轮着急赶路被炮击!印总理恼羞成怒,紧急召见伊朗大使

丁铗惊悚影视解说
2026-04-19 09:23:17
医生忠告:肺癌早期不是咳嗽,而是频繁出现这3个症状,小心异常

医生忠告:肺癌早期不是咳嗽,而是频繁出现这3个症状,小心异常

芹姐说生活
2026-04-18 15:22:35
安徽一28岁美女相亲,不料,遇车祸右腿被截肢!相亲对象竟说:“嫁给我,医药费我出”

安徽一28岁美女相亲,不料,遇车祸右腿被截肢!相亲对象竟说:“嫁给我,医药费我出”

励职派
2026-04-17 12:44:31
一场3:1让申花喜获大发现,昔日废柴已成中场猛人,伊万没看错人

一场3:1让申花喜获大发现,昔日废柴已成中场猛人,伊万没看错人

零度眼看球
2026-04-19 07:03:44
央八首播!仅播1天,收视率第一,这部44集谍战太猛了!

央八首播!仅播1天,收视率第一,这部44集谍战太猛了!

情感大头说说
2026-04-19 11:08:57
78岁港星晚年生活:穷到1000块都没,曾拿400万帮女儿还债不领情

78岁港星晚年生活:穷到1000块都没,曾拿400万帮女儿还债不领情

揽星河的笔记
2026-02-26 14:12:59
张居正罢相三年后,万历才明白:恩师为何从不培养自己的心腹

张居正罢相三年后,万历才明白:恩师为何从不培养自己的心腹

老达子
2026-04-19 06:00:06
民进党刚想对访陆人员下手,国台办强硬发话撑腰

民进党刚想对访陆人员下手,国台办强硬发话撑腰

谛听骨语本尊
2026-04-18 14:30:43
古力娜扎:真空上阵是放飞自我还是资本博弈?

古力娜扎:真空上阵是放飞自我还是资本博弈?

娱乐领航家
2026-04-02 21:00:03
英媒:丁俊晖在32强中垫底!央媒:丁俊晖练习赛车提升击球精准度

英媒:丁俊晖在32强中垫底!央媒:丁俊晖练习赛车提升击球精准度

求球不落谛
2026-04-19 00:21:51
世锦赛最新战报!赵心童10-7晋级16强,张安达比赛中断丁俊晖出战

世锦赛最新战报!赵心童10-7晋级16强,张安达比赛中断丁俊晖出战

曹说体育
2026-04-19 10:49:19
2026-04-19 11:39:00
经济观察报 incentive-icons
经济观察报
经济观察报是专注于财经新闻与经济分析的全国性综合财经类媒体。聚焦商道、商技和商机。
114173文章数 1606719关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

体育要闻

掘金擒狼开门红:五花肉与小辣椒

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

本地
手机
亲子
健康
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

手机要闻

OPPO Find X9s Pro核心参数提前解析,卖多少钱合适呢?

亲子要闻

孩子总揉眼睛眨眼睛,不是困了!

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版