网易首页 > 网易号 > 正文 申请入驻

四款大模型实战推理,kimi输掉了裤衩

0
分享至

最新的推理模型哪家强?Grok3、Deepseek、chatgpt、kimi推理模型综合能力多维度实战测评

即deepseek后,chatgpt又推出来了o3mini并号称超越deepseek的r1推理模型,后面又是grok3的发布,号称市面最强推理大模型,相信大家都很好奇各家的推理模型,本篇文章将着重测评各家的推理模型,本文这次优化了测评形式,来展示更加公正、透明的测评给大家

首要的当然是 逻辑推理:

Sroan 有一个私人的保险箱,密码是 7 个 不同的数字。Guess #1: 9062437 Guess #2: 8593624 Guess #3: 4286915 Guess #4: 3450982 Sroan 说:你们 4 个人每人都猜对了位置不相邻的两个数字。(只有 “位置及其对应的数字” 都对才算对) 问:密码是什么?
正确答案为(4053927)

Grok3耗时129s成功过关

chatgpt过关,花费时间为3m36s

deepseek不过关,共花费时间8m12s

搞笑的来了Kimi在计算20分钟左右死机不动了,一看思维链也全是重复内容,排除网络异常,kimi宣告失败

逻辑推理2——排序问题

有 8 个人,分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上,每排有 4 个座位,共 8 个座位。相邻的定义是:若两个人坐在同一排并且座位编号相邻,则这两个人相邻。现要求 A 与 B 必须相邻,且 C 与 D 不相邻,问在上述条件下共有多少种不同的排法?正确答案为6528

Grok3过关,耗时55秒

Chatgpt38秒成功过关

Deppseek共花费3m17秒,同样时间比chatgpt长很多,但也顺利过关

Kimi这次推理时间不长,约2分钟,但是完美做错了答案

解析几何

已知过点 $A(-1, 0)$ 、 $B(1, 0)$ 两点的动抛物线的准线始终与圆 $x^2 + y^2 = 9$ 相切,该抛物线焦点 $P$ 的轨迹是某圆锥曲线 $E$ 的一部分。
(1) 求曲线 $E$ 的标准方程;
(2) 已知点 $C(-3, 0)$ , $D(2, 0)$ ,过点 $D$ 的动直线与曲线 $E$ 相交于 $M$ 、 $N$ ,设 $\triangle CMN$ 的外心为 $Q$ , $O$ 为坐标原点,问:直线 $OQ$ 与直线 $MN$ 的斜率之积是否为定值,如果为定值,求出该定值;如果不是定值,则说明理由。正确答案(x29+y28=1,−5)

Grok3过关,耗时204秒

Chatgpt再次轻松过关,耗时1m13s

Deppseek这次也过关了,但耗时长很多,6m19s,chatgpt的五倍

Kimi连续两次在计算20分钟左右自发死机(并非用户停止,用户停止会有显示,上方显示完成,但已经长时间宕机不动)故此我宣告kimi不过关

综合排序chatgpt o3mini>grok3>deepseek r1>kimi1.5

我们从实测来看,openai虽然风评越来越差,但产品还是越来越能打,时间短,做得对,grok3实际效果上还是略逊于o3mini,deepseek有惊艳的本地化文本生成能力,但在逻辑推理时间上还是长了些,至于kimi1.5就搞笑了,不是死机就是一直循环“过拟合“。

咨询合作联系助理:panshizhixin777

其他必读文章:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
WTT冠军赛:奥运亚军出局后喊话樊振东:我要跟我的好朋友去争冠

WTT冠军赛:奥运亚军出局后喊话樊振东:我要跟我的好朋友去争冠

十点街球体育
2026-01-12 00:00:03
欧尔班:向乌拨款8000亿欧元?“我们拒绝!”

欧尔班:向乌拨款8000亿欧元?“我们拒绝!”

参考消息
2026-01-12 10:09:04
齐河县委原书记孙修炜,被开除党籍和公职

齐河县委原书记孙修炜,被开除党籍和公职

鲁中晨报
2026-01-12 17:29:24
同门恩怨4:雪夜的离场

同门恩怨4:雪夜的离场

金昔说故事
2026-01-12 18:54:23
科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

徐德文科学频道
2026-01-06 19:51:55
林书豪看F4成都演唱会,坐前排被言承旭喊话好腼腆,戴帽子有胡子

林书豪看F4成都演唱会,坐前排被言承旭喊话好腼腆,戴帽子有胡子

小娱乐悠悠
2026-01-12 10:43:06
伊朗宗教高层:若哈梅内伊遭袭,将对美以发动全球圣战

伊朗宗教高层:若哈梅内伊遭袭,将对美以发动全球圣战

桂系007
2026-01-12 00:23:38
马筱梅晒婴儿服,豪宅内景被看光,她不让汪小菲在台北买房是对的

马筱梅晒婴儿服,豪宅内景被看光,她不让汪小菲在台北买房是对的

韩驰
2026-01-10 13:12:31
苹果 20 周年纪念版 iPhone 曝光,首次采用新形态

苹果 20 周年纪念版 iPhone 曝光,首次采用新形态

全是技能
2026-01-12 15:18:13
什么情况?辽粤大战争议画面曝光 徐杰被撞倒 技术台人员竟鼓掌

什么情况?辽粤大战争议画面曝光 徐杰被撞倒 技术台人员竟鼓掌

胖子喷球
2026-01-12 18:51:40
消失的150万契丹人找到了?DNA比对结果一出,原来就在我们身边

消失的150万契丹人找到了?DNA比对结果一出,原来就在我们身边

近史博览
2025-12-24 11:01:01
福建一厅局,新任一位副局长

福建一厅局,新任一位副局长

金台资讯
2026-01-12 16:01:06
宝妈吐槽儿子上小学非要把户口迁到女同学家里,评论区炸锅!

宝妈吐槽儿子上小学非要把户口迁到女同学家里,评论区炸锅!

夜深爱杂谈
2026-01-12 17:55:34
湖南一女子家的宅基地被邻居强占,全家出动去挖地基:人善被人欺

湖南一女子家的宅基地被邻居强占,全家出动去挖地基:人善被人欺

唐小糖说情感
2026-01-08 11:36:40
公司投票决定谁去西藏驻点,我投了自己一票,结果公布后我傻眼了

公司投票决定谁去西藏驻点,我投了自己一票,结果公布后我傻眼了

五元讲堂
2025-12-29 10:20:05
NBA历史最伟大球员TOP20发布!库里排名第10 奥尼尔第11?合理吗

NBA历史最伟大球员TOP20发布!库里排名第10 奥尼尔第11?合理吗

体坛八点半的那些事儿
2026-01-12 19:05:26
相声演员笑林:不抽烟,不喝酒,一天100个俯卧撑,59岁骤然离世

相声演员笑林:不抽烟,不喝酒,一天100个俯卧撑,59岁骤然离世

林雁飞
2026-01-10 15:24:20
台湾网民提出方案:去外国买岛迁移,将台湾还给大陆,可行吗?

台湾网民提出方案:去外国买岛迁移,将台湾还给大陆,可行吗?

米果说识
2025-12-29 14:27:22
刷到这图,卖房的房东都坐不住了

刷到这图,卖房的房东都坐不住了

大川东山再起
2026-01-10 21:27:16
被扔进废铁堆80年的“保命符”,美军为何哭着喊着要装回去?这背后是一笔血淋淋的账

被扔进废铁堆80年的“保命符”,美军为何哭着喊着要装回去?这背后是一笔血淋淋的账

寄史言志
2026-01-11 23:46:14
2026-01-12 20:16:49
磐石之心 incentive-icons
磐石之心
探究产业融合的秘密
2329文章数 49802关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

特朗普:伊朗谈判前美或先行动 正考虑"非常强硬选项"

头条要闻

特朗普:伊朗谈判前美或先行动 正考虑"非常强硬选项"

体育要闻

聪明的球员,不是教练教出来的

娱乐要闻

闫学晶:脱离群众太久 忘了自己的根

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

亲子
手机
家居
教育
艺术

亲子要闻

广东宝妈梁海燕去世,因羊水栓塞导致,十天花费超50万

手机要闻

消息称三星Galaxy S27 Ultra将搭HP6主摄,或多方面升级

家居要闻

包络石木为生 野性舒适

教育要闻

【资讯】第12场课堂教学数字化评价项目教研活动在河源举办

艺术要闻

画完这组画,他抑郁了,后来自杀了

无障碍浏览 进入关怀版