网易首页 > 网易号 > 正文 申请入驻

五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”

0
分享至

每经记者:郑雨航 每经实习记者:岳楚鹏 每经编辑:兰素英

传说中的“草莓”模型今天在没有任何预告下忽然上线了!

OpenAI最新发布的模型名为o1,是系列推理模型的首批版本,现阶段推出的是o1-preview(预览版)和o1-mini(迷你版)。

目前,o1-preview和o1-mini已经面向ChatGPT Plus和Team订阅用户开放,而Enterprise和Edu用户将于下周初获得访问权限。OpenAI表示,它计划向ChatGPT的所有免费用户提供o1-mini访问权限,但尚未确定发布日期。

据OpenAI介绍,在解决问题的能力方面,o1模型比以往任何模型都更接近人类思维,并且能够“推理”数学、编码和科学任务。

为了验证新模型的能力是否正如OpenAI所宣称的那么强大,《每日经济新闻》记者从经典“草莓测试”、代码编写、小游戏制作、数学与经济学,以及事实性知识这五大维度对o1-preview模型进行了测试。

结果显示,o1-preview表现出了超越OpenAI之前发布的大模型的编程和数学推理能力。例如,o1-preview能够编写出流畅运行的代码,并且在复杂环境中依然能够自行推理出解决方案。而且,记者在测试过程中也感觉到,o1-preview在人性化方面也有很大的提升,表现出了真人般的思考。不过,新模型也并非毫无缺点,在事实性知识测试就“翻车”了。


传说中的“草莓”来了

当地时间9月12日,OpenAI发布了一款名为o1的新模型,这是其计划中一系列“推理”模型中的第一个版本,也是此前业界盛传已久的“草莓”模型。

图片来源:X平台

对于OpenAI来说,o1代表着它朝着类人AI的目标又迈出了一步。OpenAI认为,o1代表着一种全新的能力,这一能力被认为如此重要,以至于公司决定从当前的GPT-4模型重新开始,完全放弃了“GPT”品牌,从1开始命名。

OpenAI表示,将从当前的GPT-4模型重新开始,“将计数器重置为 1”,甚至放弃了迄今为止定义了聊天机器人乃至整个生成式AI热潮的“GPT”品牌。o1建立了一个能够通过一系列离散步骤,谨慎而合乎逻辑地解决问题的系统,每个步骤都建立在上一个步骤的基础上,类似于人类的推理方式。

OpenAI首席科学家Jakub Pachocki表示,之前的模型在收到用户问询时会立即开始回答。“而这个模型(指的是o1)会慢慢来。它思考问题,并尝试分解问题,寻找角度,努力提供最佳答案。”这就像大多数人在幼年时被父母所要求的那样,先想好再说话。

OpenAI表示,o1在竞赛编程问题(Codeforces)中排名第89个百分点,在美国数学奥林匹克竞赛(AIME)预选赛中位列美国前500名学生之列,并且在物理、生物和化学问题的基准测试(GPQA)中超过了人类博士水平的准确度

在OpenAI发布的研究和博客文章中,o1看起来“推理”能力十分强大,不仅可解决高级数学和编码问题,还能解密复杂的密码,以及解答来自专家学者们关于遗传学、经济学和量子物理学的复杂问题。大量图表显示,在内部评估中,o1在编码、数学和各个科学领域的问题上已经超越了公司最先进的语言模型GPT-4o,甚至可能超越了人类。

图片来源:OpenAI官网


五大维度实测:代码编写、游戏制作等能力“惊艳”,但“栽”在了事实性知识测试

为了深入了解o1模型的强大能力,《每日经济新闻》记者从经典草莓测试、代码编写、小游戏制作、数学与经济学,以及事实性知识这五大维度对o1-preview模型进行了测试。

1)草莓测试

首先,记者用之前几乎所有大模型都“翻车”的一道简单题目进行了测试,即“单词strawberry里面到底有几个r”。从生成的结果看,o1-preview还是带来了一点小惊喜的。

2)代码编写

记者首先向o1-preview询问了一个在线编程平台leetcode里最有名的简单算法题:Two Sum(两数之和)问题。o1给出了很详尽的推理过程和答案。

随后记者故意要求优化答案,o1在思考9秒后意识到自己提供的已经是最优解法了,并就此进行了说明,另外还很“贴心”地提供了一个次优解。而在之前记者对其他模型的测试中,这些模型只会道歉然后将答案更改为次优解。

3)小游戏制作

在o1模型的演示中,OpenAI演示过“用一句话编写小游戏”的功能。测试过程中,记者让o1-preview帮忙介绍好用的代码工具,并协助编写一个乒乓小游戏。

o1-preview仅用了19秒就给出了一份能够流畅运行的代码,并且附上了学习指南和鼓励的话语,非常地人性化。

为避免o1-preview作弊,使用的是记忆能力,而不是使用推理能力进行回答,记者还请求o1-preview更换了一个代码运行环境:jupyter note。这一运行环境是针对数据分析进行特化的python环境,开发人员基本不会使用此环境开发小游戏。

经过思考后,o1依然给出了一个可以运行的代码。不过,相较于之前的代码,这份答案有着不少的bug,但这也从侧面说明这确实是思考出来的答案,而不是训练过程中加入的标准答案。

为进一步验证o1-preview的创新推理能力,记者随后又要求模型在这个小游戏的基础上开发一个更复杂有趣的小游戏。

这下,o1的表现真的有点惊喜。根据乒乓游戏的碰撞机制,该模型自行迭代出了一个向上登高的跳跃游戏。一般其他大模型需要用户把需求描述清楚才会输出一个比较好的答案,但记者在这次测试中没有进行任何的额外提示,o1就输出了一个能流畅运行,并且在记者眼中看来也足够有趣的小游戏。

4)科学类测试

在科学类测试方面,记者重点测试了o1-preview在数学和经济学上的表现。

首先,记者抛出的是一个数学推理问题,向o1-preview询问解决欧拉方程有限时间爆破的可能方法(这是著名华裔数学家、菲尔兹奖得主陶哲轩教授本周才发表的讨论文章)。

o1虽然没有给出明确解法,但却提供了一个解题思路,这一思路和陶哲轩教授文章部分吻合(虽然很少)

经济学方向上,记者向o1-preview询问了一个复杂的经济系统问题。从给出的反馈看,基本没有什么太大的问题,整体逻辑清晰,思考维度也是多样化的,给出的数学公式虽然有一点小差错但是无伤大体

5)事实性知识与语言理解

在这一环节,记者向o1-preview询问了明朝第一任皇帝的趣事,但o1就将趣事理解成了历史上实际发生过的事情,将朱元璋的历史故事整个叙述了出来。

同时,记者也将这一问题丢给了GPT-4o模型,作为对比,GPT-4o能很好地理解记者的问题,并讲了两个流传很广的民间小故事。

总体来看,OpenAI宣称o1模型能接近人类水平在某些方面上看起来并不是虚话

最让记者惊喜的是,OpenAI将模型思考的过程用文字展示给了用户,文字思考过程中,大模型大量使用了“我正在”“我认为”“我打算”等话语,感觉更加拟人化,就像一个真人在用户面前阐述自己的思考逻辑一般。

但这也并不意味着o1模型就是完美的。OpenAI也承认,在设计、写作、编辑文字等方面上,o1远不如GPT-4o。o1也没有浏览网页或处理文件和图像的能力。

而最让记者感到头疼的是,即使是一个很简单的请求,比如说将输出结果转换为中文,o1都会消耗十几秒钟的时间来思考,而GPT4o就会很快处理好这一请求。

就算在OpenAI的优势领域中,o1模型也会突然出现性能下降,模型输出懒惰的情况。已离职的OpenAI创始人Karpathy就吐槽道:“它一直拒绝为我解决黎曼假说。模型懒惰仍然是一个主要问题。”

OpenAI表示,公司会在之后的更新中解决这些问题,毕竟现在这只是推理模型的早期预览。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
骑士猛龙G4最后两分钟裁判报告:共出现7次漏判,骑士获利4次

骑士猛龙G4最后两分钟裁判报告:共出现7次漏判,骑士获利4次

懂球帝
2026-04-28 08:07:05
有点惨!燃油车再迎大降价:最大跌幅50%,豪华车带头“跳水”

有点惨!燃油车再迎大降价:最大跌幅50%,豪华车带头“跳水”

古事寻踪记
2026-04-28 07:21:43
男子打麻将身体不适倒地昏迷后死亡,家属起诉棋牌室及经营者索赔28万余元被驳回

男子打麻将身体不适倒地昏迷后死亡,家属起诉棋牌室及经营者索赔28万余元被驳回

红星新闻
2026-04-27 19:30:42
草草收场?美记称KD已打完火箭最后一战 火箭是否会拆队补强?

草草收场?美记称KD已打完火箭最后一战 火箭是否会拆队补强?

惊奇侃球
2026-04-28 09:33:58
特朗普,又变了

特朗普,又变了

南风窗
2026-04-27 16:22:26
扎克·施奈德首曝《蝙蝠侠大战超人》未公开海报!

扎克·施奈德首曝《蝙蝠侠大战超人》未公开海报!

3DM游戏
2026-04-27 09:20:10
孙杨私生子风波升级!孩子近况曝光,13岁在练击剑,长得很像爸爸

孙杨私生子风波升级!孩子近况曝光,13岁在练击剑,长得很像爸爸

小娱乐悠悠
2026-04-28 07:20:27
这就是张作霖年轻时的真实长相,比儿子张学良帅多了,罕见老照片

这就是张作霖年轻时的真实长相,比儿子张学良帅多了,罕见老照片

浔阳咸鱼
2026-04-27 09:30:21
首个退群北约的国家来了:已走程序,退意已决!

首个退群北约的国家来了:已走程序,退意已决!

福建睿平
2026-04-27 11:46:08
太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

太可怕了!继注射药物、热巴事件后,王阳再揭娱乐圈最脏的一面

橙星文娱
2026-04-17 13:19:56
日本大地震!“三餐变一顿”,开始呼叫中国?

日本大地震!“三餐变一顿”,开始呼叫中国?

小正说娱乐
2026-04-27 07:53:23
草蜢40周年演唱会,蔡一杰首度公开病情:脑癌已扩散,但永不言弃

草蜢40周年演唱会,蔡一杰首度公开病情:脑癌已扩散,但永不言弃

地理三体说
2026-04-27 22:33:41
高速上一新能源车电量耗尽,司机竟试图接路边监控电源给车充电!所幸交警及时发现:万一下雨漏电你怎么办?司机被罚款200元、记3分

高速上一新能源车电量耗尽,司机竟试图接路边监控电源给车充电!所幸交警及时发现:万一下雨漏电你怎么办?司机被罚款200元、记3分

扬子晚报
2026-04-27 07:27:12
克媒:莫德里奇颧骨骨折赛季报销,预计将戴面具出战世界杯

克媒:莫德里奇颧骨骨折赛季报销,预计将戴面具出战世界杯

懂球帝
2026-04-27 22:00:51
NBA选秀改革即将落地:战绩垫底的10支球队,获得状元签的概率统一为8%

NBA选秀改革即将落地:战绩垫底的10支球队,获得状元签的概率统一为8%

林子说事
2026-04-28 03:21:58
世界第一爆冷无缘八强!特鲁姆普12-13惜败,止步世锦赛第2轮

世界第一爆冷无缘八强!特鲁姆普12-13惜败,止步世锦赛第2轮

全景体育V
2026-04-28 05:44:20
7岁女孩独自走6公里上学,只有小狗相伴引发关注。

7岁女孩独自走6公里上学,只有小狗相伴引发关注。

一丝不苟的法律人
2026-04-27 14:58:35
周一围张颂文林家川三家聚会,张颂文妻儿罕见出镜,老婆气质绝了

周一围张颂文林家川三家聚会,张颂文妻儿罕见出镜,老婆气质绝了

手工制作阿歼
2026-04-28 07:21:57
不想访华了?特朗普联手27国针对中国,话音刚落,中方制裁令下达

不想访华了?特朗普联手27国针对中国,话音刚落,中方制裁令下达

霁寒飘雪
2026-04-28 09:41:52
回顾辽宁一厂长邀15名歌厅舞女做客,喝完酒后,将15人冲进下水道

回顾辽宁一厂长邀15名歌厅舞女做客,喝完酒后,将15人冲进下水道

谈史论天地
2026-04-27 15:00:03
2026-04-28 10:40:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1553249文章数 2725565关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

"探店"网红白冰偷税超900万被查 官方公布案件细节

头条要闻

"探店"网红白冰偷税超900万被查 官方公布案件细节

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

杨幂险遭蒸汽眼罩毁容!伤照曝光…

财经要闻

俞敏洪再遭重击

汽车要闻

领克900大五座正式上市 限时售价25.48万起

态度原创

本地
旅游
艺术
公开课
军事航空

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

旅游要闻

云南丘北:山水田园美景如画

艺术要闻

蒋中正校训引发热议,网友质疑其内容如小学生作品。

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗外长折返伊斯兰堡内情披露

无障碍浏览 进入关怀版