网易首页 > 网易号 > 正文 申请入驻

推理模型的“年终考试”,谁是国内目前最好的“o1”?

0
分享至

文|Alter

笛卡尔说:"我思,故我在。"

思考是文明存在的根本,是人类探索未知的永恒追求,现在也成了大模型技术演进的一个重要方向。

自OpenAI在9月中旬悄然发布o1模型后,一系列推理模型陆续开放测试。比如通义千问的QwQ、deepseek的R1、Kimi的K1以及智谱刚刚发布的GLM-Zero的初代版本GLM-Zero-Preview(智谱清言同步上线了智能体"Zero推理模型")。

正好到了年末,我们萌生了举办一场推理模型"年终考试"的想法。

在"考试"正式开始前,先来简单科普下推理模型的特点:相较于基座模型,推理模型在回答问题前会像人类一样进行更长时间的"思考",不断验证和纠错,更擅长编程、数学、科学等任务。

所以,这是一场面向"理科生"的考试。

需要说明的是,我们没有使用AIME2024、MATH500等专业的数据集,也无意对各个推理模型进行专业测评和排名,仅适用于多数人在日常生活中可能遇到的问题。

譬如给孩子辅导作业、应付面试时的"奇葩问题"、和朋友一起玩剧本杀时的推理游戏等等,和大家一起探索各个推理模型的"长项"和"短板"。

考试规则

一共有六道考题,分别用高三数学的单选题、多选题和计算题测试模型的数学计算能力,用一道常见的编程题目测试模型的编程能力,用一道逻辑问题和一道海龟汤问题测试模型的推理能力。

分数评定分为三个维度,最终根据推理结果(占比60%)、推理过程(占比25%)、推理时间(占比15%)加权平均。考虑到单次测试存在的不确定性,满分为100分,兜底分数为60分(即使做错了也有60分)。

考生名单:OpenAI o1、通义千问QwQ-32B-preview、deepseek深度思考(R1)、Kimi视觉思考版(K1)和智谱GLM-Zero。

下面,考试正式开始。

第一题:单选题

考虑到不少人曾经拿高考真题测试,为了防止可能的"作弊"行为,我们从《2024届浙江省镇海中学高三下学期期中数学试题》筛选了一道单选题目进行测试。(难度的话,至少本科毕业十年的我们是不会做的。)

鉴于测试的过程比较无趣,我们把5个模型的测试录屏放在了视频中,感兴趣的小伙伴可以点击观看,也可以直接查看最终的"考试"结果。

第一题成绩揭晓

五个推理模型均给出了正确答案。

其中o1模型的推理速度是最快的,推理过程简单高效,直接给出了计算过程和结果;可能是刚上线的缘故,GLM-Zero的推理速度相对慢一些,但推理过程是最符合人类思维的(在思维链中可以清晰地看到自我反思和优化、将复杂问题分解,并尝试用不同方法解决问题),可以作为解题的参考答案。另外三个模型的推理速度比o1稍慢,但在结果和推理过程上可以和o1媲美。

第二题:多选题

题目来源和单选题一样,难度有所增加,更考验模型处理复杂问题的能力,以及思考的方式和过程。(PS:我们在考前进行过类似题目的测试,部分模型每次都只给一个答案,所以在正式考试时特意给了多选题的提示。)

第二题成绩揭晓

五个推理模型中,只有三个模型给出了正确答案。

o1、GLM-Zero和QwQ回答正确,Kimi视觉思考版只给出了一个正确选项,deepseek深度思考的回答是"没有正确答案"(排除了图像识别问题)。在三个回答正确的模型中,GLM-Zero和QwQ表现出了不俗的归纳与演绎能力,提供了详细的解题过程,并通过反思进行多次验证,而且GLM-Zero的推理速度比上一题提升了不少。o1没有显示思考过程,直接给出了答案。

第三题:计算题

如果一个城市中 95%的人打了疫苗,而疫苗保护率是 90%,病毒传播率是5%,未接种者感染率是 50%,计算城市中总感染率。

这是一道AI拟定的题目,因为表述有点"模糊不清",但又不乏逻辑自洽,审题不仔细的话,很可能给出错误答案。(毕竟我们当年就在高考试卷上吃过"马虎"亏,也要让AI尝尝什么叫审题要认真!!!!)

第三题成绩揭晓

和预料的一样,有两个模型"翻了车"。

这道题不仅仅计算,还考验模型的思考过程,能否识别中题目中的逻辑漏洞,找到最合理的假设。GLM-Zero在速度上"逆袭"了,整体表现比o1的表现还要优秀。deepseek深度思考的推理过程看起来最完善,考虑到了多种可能,最终给到的是最合理的答案。Kimi和QwQ也考虑了多种可能,但在逻辑漏洞的理解上出现了偏差,最终沿着错误的方向进行计算,导致计算结果错误。

第四题:编程题

写一个程序,将一个字符串中的所有单词翻转(例如输入:"Hello World",输出:"World Hello")。

由于我们不是程序员,对代码的认知停留在了大一的C语言入门阶段,所以选择的编程题目比较基础,主要考验代码的合理性和可用性。(如果你是程序员的话,希望进行更深度的测试,并将结果同步给我们。)

第四题成绩揭晓

五个推理模型都达到了及格分。

其中GLM-Zero和Kimi的代码解释最为详细,虽然程序很简单,依然进行了逐行解释,对新手程序员非常友好。o1模型照旧简单高效,deepseek给出了两种不同的实现方式,且均测试有效。就推理速度来看,GLM-Zero考虑到了更复杂的测试情形,反复推理验证,导致耗时比其他模型长了不少。

第五题:推理题

一个房间里有三个开关,分别对应三个灯泡,你只能进入房间一次,如何确定哪个开关对应哪个灯泡?

据传是微软的面试题,主要考验面试者的逻辑思维和判断能力,推理模型能否通过微软的面试呢?(本来打算用"牛过桥"的问题,据说是华为的面试题,考虑到逻辑性和答案的一致性,最终还是选择了灯泡问题。)

第五题成绩揭晓

也许是问题过于"经典",五个模型均顺利过关。

其实也意味着,五个模型在推理上都有着不错的能力。就细节上来看,Kimi"不小心"出现了格式混乱,GLM-Zero和o1都在极短时间里给出了合理的推理过程和正确答案。之所以在得分上有差距,原因是deepseek和QwQ都特意补充"确保灯泡是白炽灯",弥补了题目本身的缺陷,在逻辑上更加合理。

第六题:海龟汤题

一名男子在弹钢琴时,突然一根弦断了,他立即停止弹奏并开始哭泣。这是为什么?

海龟汤问题的答案通常是开放的,涉及不同领域的知识,模型需要对语言细节进行精确理解,并在回答中清晰地表达推理过程。同时需要从表面信息推导出隐藏的逻辑,要求模型能够分析隐含的信息并进行深度推理。

第六题成绩揭晓

海龟汤题没有标准答案,主要考的是推理结果的合理性。

o1模型终于"翻车"了,将问题理解为了"脑筋急转弯",而且推理几乎没有逻辑;deepseek陷入了思考死循环,等待了4分多钟后,我们被迫停止了测试;kimi、GLM-Zero和QwQ的表现不相上下,只是Kimi再次出现了格式混乱。遗憾的是,作为"理科生"的推理模型,都没有进行富有创造性的故事描述。

考试小结

我们按照文初提到的考试规则,进行了平均分的计算,考虑到单次测试的偶发性(比如将多选题拆解为单选题,进一步测试两个"翻车"的模型,最终都给出了正确答案),可以说各个推理模型并未拉开太大的差距,并没有陷入同质化,而是各有所长。

o1模型胜在推理速度和推理正确率;QwQ-32B-preview的表现中规中矩;deepseek深度思考在数学计算和编程方面表现优秀;Kimi视觉思考版"自我反思"能力强,在发散问题上的逻辑自洽性最佳;GLM-Zero在数学计算、编程和推理上的综合表现不输o1,可以说是目前国内最好的推理模型。

不过,Open AI已经发布了o3模型,整体性能比o1提升了20%,国内的几个推理模型仍然有很大的提升空间。其中智谱已经公开表态将持续优化迭代强化学习技术,并将推出正式版的GLM-Zero,将深度思考的能力从数理逻辑扩展到更多更通用的技术。

正如OpenAI的介绍o1模型的博客文章里所提到的:"我们通往AGI的路上,已经没有任何阻碍。"

推理模型不仅能够模仿人类思维,还能跨越知识领域,将信息整合并生成新的知识,这正是AGI实现通用性的基础。

相较于我们的"单题测试",推理模型在产业中落地的可能更大。比如在金融、医疗、法律等决策过程常涉及多变量权衡的领域,推理模型可以分析大量数据、找出相关性,并提供优化的解决方案。

以医疗场景为例,基于推理的诊断模型可以帮助医生快速排查可能病因并建议治疗方案,从而提高诊断效率;再比如智谱在AutoGLM上示范的人机协作场景,推理模型能够更好地理解人类的意图、预测需求、并主动提出建议,将进一步提升Agent的能力,帮助用户解决更多类型的问题。

可以预见,2024年是大模型落地应用的元年,在推理模型的赋能下,2025年将是AI进一步提质增效的一年。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着上海申花3-2,成都蓉城1-1,中超最新积分榜出炉

随着上海申花3-2,成都蓉城1-1,中超最新积分榜出炉

俯身冲顶
2026-07-05 21:38:28
关店800家,连亏9个亿,“中国鞋王”日薄西山,创始人已倾家荡产

关店800家,连亏9个亿,“中国鞋王”日薄西山,创始人已倾家荡产

壹只灰鸽子
2026-07-03 13:35:04
世界杯乌龙球引来杀身之祸?32年后幕后大佬横死街头

世界杯乌龙球引来杀身之祸?32年后幕后大佬横死街头

老牛体育解说
2026-07-05 04:32:55
海外造假被查实,转身入职浙大,问题学者岂能随意引进?

海外造假被查实,转身入职浙大,问题学者岂能随意引进?

社会日日鲜
2026-07-05 14:25:04
零跑"神车"官宣:12.98万,新车上市

零跑"神车"官宣:12.98万,新车上市

科技堡垒
2026-07-05 11:25:03
心理学:如果一个人对家人一点就炸、说话不留情,对外人却稳重克制、彬彬有礼,不是双面性格,根源追下来就是这两个字

心理学:如果一个人对家人一点就炸、说话不留情,对外人却稳重克制、彬彬有礼,不是双面性格,根源追下来就是这两个字

心理观察局
2026-07-04 06:41:19
2026年最强反腐来了!中纪委:害群之马将清除到底!

2026年最强反腐来了!中纪委:害群之马将清除到底!

细说职场
2026-07-04 22:03:20
残忍?塞内加尔出局后全队机场苦等数小时 被告知足协已取消包机

残忍?塞内加尔出局后全队机场苦等数小时 被告知足协已取消包机

风过乡
2026-07-05 11:33:51
分析:勒布朗·詹姆斯不应加盟勇士、骑士、热火等6队的最大理由

分析:勒布朗·詹姆斯不应加盟勇士、骑士、热火等6队的最大理由

好火子
2026-07-06 03:23:21
最大风力17级以上!超强台风“巴威”即将进入福建警戒区!实时路径→

最大风力17级以上!超强台风“巴威”即将进入福建警戒区!实时路径→

业翔民安
2026-07-05 19:58:45
3-0、2-2!中甲疯狂一夜!广州豹领跑!最新积分榜出炉!

3-0、2-2!中甲疯狂一夜!广州豹领跑!最新积分榜出炉!

刘笤说体坛
2026-07-06 01:51:24
对等报复升级!乌克兰一夜闪击瘫痪13座发电站,俄乌大后方彻底沦为新前线

对等报复升级!乌克兰一夜闪击瘫痪13座发电站,俄乌大后方彻底沦为新前线

战域笔墨
2026-07-05 16:37:43
泽连斯基提议在已“解放”的康斯坦丁诺夫卡见面:普京不直接回应

泽连斯基提议在已“解放”的康斯坦丁诺夫卡见面:普京不直接回应

鹰眼Defence
2026-07-05 19:05:39
被AI识别为“无毒”后,一家三口吃下剧毒蘑菇,9岁男孩生死抢救8天

被AI识别为“无毒”后,一家三口吃下剧毒蘑菇,9岁男孩生死抢救8天

大风新闻
2026-07-05 13:04:31
哇塞!超赞!恭喜哈登

哇塞!超赞!恭喜哈登

体育新角度
2026-07-05 22:32:16
葬礼上,梅德韦杰夫连出三记毒招,给中国挖坑,伊朗接招必死

葬礼上,梅德韦杰夫连出三记毒招,给中国挖坑,伊朗接招必死

阿芒娱乐说
2026-07-05 21:27:28
离开黄有龙后,她转身嫁给富豪,4年连生3娃,43岁深陷抑郁症

离开黄有龙后,她转身嫁给富豪,4年连生3娃,43岁深陷抑郁症

日不西沉
2026-07-05 17:47:33
央行突然出手1万亿元!A股、楼市、存款利率,下半年都要变了?

央行突然出手1万亿元!A股、楼市、存款利率,下半年都要变了?

混沌录
2026-07-05 23:55:31
心理学上有个词叫:墨菲定律(男女关系铁律,无论和谁在一起,都要明白这两个潜规则)

心理学上有个词叫:墨菲定律(男女关系铁律,无论和谁在一起,都要明白这两个潜规则)

心理观察局
2026-07-05 09:18:04
中央巡查组明查暗访发现:再不治理迟早出大事!

中央巡查组明查暗访发现:再不治理迟早出大事!

娱乐圈的笔娱君
2026-07-06 02:14:30
2026-07-06 04:12:49
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
134588文章数 194006关注度
往期回顾 全部

教育要闻

公办幼儿园教师工资首次纳入财政保障,全面减轻教师非教育教学负担

头条要闻

四川深夜连发3次超4级地震 居民外出躲避回屋再遇地震

头条要闻

四川深夜连发3次超4级地震 居民外出躲避回屋再遇地震

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

数码
家居
艺术
公开课
军事航空

数码要闻

Intel Xe3P核显越来越近!Linux曝光新进展

家居要闻

传奇筑 日常诗

艺术要闻

伊朗超高层方案惊艳世界,曾获国际大奖!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京与特朗普通话85分钟 细节公布

无障碍浏览 进入关怀版