网易首页 > 网易号 > 正文 申请入驻

新V观海外:OpenAI o1模型实测的惊艳感不足

0
分享至

经济观察报 社论 陈沛/文 OpenAI刚刚推出了全新的o1系列模型,包括o1-preview和o1-mini,被认为是OpenAI最近持续放风的代号为strawberry的模型项目,重点提升了模型高级推理能力。可是根据我对o1-preview模型的实测体验,惊艳感低于预期。

先思考,后回答

o1-preview模型收到问题后会先思考一段时间,自动选择必要的推理过程,然后生成结果。这是新模型最显著的特点。

例如,我先测试了一个简单的示例问题“向幼儿园小朋友解释什么是怀旧”,o1-preview模型执行了4个推理步骤:理解问题要求、生成一个简单的比喻、描述怀旧的感受、整体理解怀旧的概念。执行这4个推理步骤共思考了7秒,然后生成了答案。

之后我换了推理难度更高的“两根电线杆之间80米电缆”问题。这个问题我使用之前各个版本的GPT从来没有做出来过。而这次o1模型对这个问题足足思考了74秒,反复执行了28个推理步骤,最终得到了经过反复验证的正确答案。

初步测试下来,能明显感觉到o1-preview模型与之前模型的差异。之前的GPT系列模型的设定是无论如何先快速生成一些看上去非常自然的内容,但是其中的逻辑是否合理、是否正确则不会过多验证。而o1-preview模型则是会自行选择合适的分析逻辑,并且谨慎验证思路是否合理,避免快速给出不负责任的答案。

奥赛数学题依然做不对

由于OpenAI官方发布o1系列模型时,重点强调了新模型在数学竞赛和编码相关的测试基准方面的能力提升。因此我继续采用一道中国数学奥林匹克竞赛题“56元集合和15个子集求解最小正整数”进行测试。

这道题的正确答案应该是41。在我的测试中,o1-preview模型思考了64秒,反复执行了30个推理步骤,然后给出了50的答案。虽然没有做对,但是整体解题思路已经接近,如果在正常的考试判卷中,相信o1-preview给出的证明过程也能得到部分分数。

但是,这个测试并没有让我感到o1-preview模型的高级推理能力非常惊艳。因为就在不久前,DeepMind也发布过Alpha Proof和Alpha Geometry 2在国际奥数竞赛中的结果,虽然那个测试结果也有一定的取巧成分,但已表明这种通过模型自我对弈实现高级推理能力的做法,并不是OpenAI的最新突破。

仓促发布产品的毛坯感十足

除了奥赛数学题方面的惊艳感不足之外,这次o1-preview模型的整体用户体验还不完整。目前仅支持纯文本输入,这也限制了进一步测试新模型在处理几何问题等方面的高级推理能力。

特别是对于已经习惯GPT-4o的图片、语音、文档多模态处理能力的用户来说,就像是回到了ChatGPT刚发布时的感觉,没有数据分析功能,也不能访问网页内容。

而在这一版o1-preview用户体验中的最大亮点——自动思考和推理过程,其实也在之前其他AI Agent应用中出现过,似乎给用户带来的惊艳感也并不强烈。

总而言之,就像o1-preview名称所预示的含义,这版模型目前还只是预览版,后续正式发布时应该还会加上更多常见的产品功能。也许这次的新模型发布预示OpenAI开始模仿人类思考习惯,从“系统1”进军“系统2”踏上新的智能研究方向,但是o1-preview模型本身将注定只是一个过程产品。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快灭国了,却执意和中国断交,“抱大腿”无望又求援,中方:不管

快灭国了,却执意和中国断交,“抱大腿”无望又求援,中方:不管

兴史兴谈
2026-04-10 03:12:14
郑丽文访问大陆,白岩松11字锐评一针见血,戳中海峡两岸人心窝

郑丽文访问大陆,白岩松11字锐评一针见血,戳中海峡两岸人心窝

小徐讲八卦
2026-04-09 06:09:20
朝鲜连续两天发射导弹,时机对准王毅访朝,释放什么特殊信号?

朝鲜连续两天发射导弹,时机对准王毅访朝,释放什么特殊信号?

小撇说事
2026-04-10 03:44:40
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

静若梨花
2026-03-01 16:25:46
堆积如山的 6.5 毫米弹药,让仿造机枪成晋绥军的求生希望

堆积如山的 6.5 毫米弹药,让仿造机枪成晋绥军的求生希望

唠叨说历史
2026-03-27 15:18:35
贵州退休夫妻跳楼身亡,账户流水400万,留遗言:没有活着的希望

贵州退休夫妻跳楼身亡,账户流水400万,留遗言:没有活着的希望

晓艾故事汇
2025-04-09 20:44:14
槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

槟榔包装上印着刘德华肖像,品牌方称并非代言,而是18年前《投名状》剧照宣发,律师解读

极目新闻
2026-04-07 19:20:23
退休后,永远不要在熟人面前,说以下6句话,切记切记

退休后,永远不要在熟人面前,说以下6句话,切记切记

东林夕亭
2026-04-02 16:44:39
伊朗这回开窍了!他们不炸军营,不炸核设施,专门炸这几个大工厂

伊朗这回开窍了!他们不炸军营,不炸核设施,专门炸这几个大工厂

鉴史录
2026-04-07 00:10:03
迟重瑞为什么不要陈丽华的遗产?其实他要了也没任何价值

迟重瑞为什么不要陈丽华的遗产?其实他要了也没任何价值

小明哗扑
2026-04-09 13:47:38
非夫妻开房,民警提醒:只要不干这个,谁管你是不是夫妻

非夫妻开房,民警提醒:只要不干这个,谁管你是不是夫妻

君说舆情
2026-04-07 08:35:16
刚亮底牌就被打肿脸!中方无上限封锁,美日“千里眼”彻底报废!

刚亮底牌就被打肿脸!中方无上限封锁,美日“千里眼”彻底报废!

观察者海风
2026-04-08 21:17:56
物业费会不会是压死失业人群的最后一根稻草?

物业费会不会是压死失业人群的最后一根稻草?

慧翔百科
2026-04-09 18:26:20
巴拿马外长称中国增查扣押船只呼吁尊重主权

巴拿马外长称中国增查扣押船只呼吁尊重主权

俄罗斯卫星通讯社
2026-04-09 15:22:59
打出了灾难级表现!骑士后场核心到了季后赛能否稍微靠谱一点呢?

打出了灾难级表现!骑士后场核心到了季后赛能否稍微靠谱一点呢?

稻谷与小麦
2026-04-10 01:27:46
郑丽文承诺:2028击败赖清德!国防部发声:解放军强化反“台独”

郑丽文承诺:2028击败赖清德!国防部发声:解放军强化反“台独”

林子说事
2026-04-09 18:01:35
新一轮县级机构改革后,这几类机关事业单位或成“超大局”!

新一轮县级机构改革后,这几类机关事业单位或成“超大局”!

细说职场
2026-04-09 09:31:01
贾静雯20岁女儿晒比基尼,戴唇钉有纹身很火辣,不随妈长却赢麻了

贾静雯20岁女儿晒比基尼,戴唇钉有纹身很火辣,不随妈长却赢麻了

嫹笔牂牂
2026-04-09 08:01:19
挥舞道德棒,莫让竞技成舆论围猎场

挥舞道德棒,莫让竞技成舆论围猎场

烽火瞭望者
2026-04-09 20:00:30
法日韩重构稀土供应链,中国依赖格局难破引担忧

法日韩重构稀土供应链,中国依赖格局难破引担忧

期盼美好明天
2026-04-10 04:31:04
2026-04-10 05:56:49
经济观察报 incentive-icons
经济观察报
经济观察报是专注于财经新闻与经济分析的全国性综合财经类媒体。聚焦商道、商技和商机。
114022文章数 1606685关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

特朗普警告伊朗:别收霍尔木兹通行费

头条要闻

特朗普警告伊朗:别收霍尔木兹通行费

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火又悬了,最糟糕的情况要来了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

房产
家居
数码
健康
军事航空

房产要闻

利润暴跌44%!那个春节被骂惨了的海峡股份 正在经历什么?

家居要闻

清新自然 复古风尚

数码要闻

华为多款新品在路上:Pura 90、阔折叠、AI眼镜、平板耳机全都有

干细胞抗衰4大误区,90%的人都中招

军事要闻

黎真主党发射火箭弹 回应以违反停火协议

无障碍浏览 进入关怀版