网易首页 > 网易号 > 正文 申请入驻

被指又一次DeepSeek时刻,实测kimi K2 Thinking被这几道题难住了

0
分享至

作者|子川

来源|AI先锋官

日前,月之暗面开源了最新一代大模型Kimi K2 Thinking。

新模型一经推出,好评如潮!

HuggingFace 联合创始人Thomas Wolf 甚至毫不吝啬的表示,“我们正在见证又一次 DeepSeek 时刻”。


知名学者Alvin Wang Graylin 也夸赞,其已经超越西方的闭源模型。


为什么此次月之暗面推出的Kimi K2 Thinking这么受欢迎?

我们接着往下看。

根据AI分析机构Artificial Analysis的评估,Kimi K2 Thinking在智能体相关任务中表现非常突出。

比如,在Artificial Analysis智能指数中,获得67分。


这一成绩使其领先于所有的其他开源模型,包括最近发布的MiniMax-M2和DeepSeek-V3.2-Exp,仅次于GPT-5。

在智能体工具调用 (²-Bench)测试中,Kimi K2 Thinking得分高达93%,是目前第三方机构测量到的最高分。


在在Humanity’s Last Exam(人类终极考试)评测中,Kimi K2 Thinking在无工具情况下的得分为22.3%,仅次于GPT-5和Grok 4。


这成绩已经不是国产SOTA了,当之无愧又一次的DeepSeek时刻。


据介绍, K2 Thinking 的参数规模高达万亿。

但其运行成本仍然很低,其 API 价格是百万 token 输入 0.15 美元(缓存命中)/0.6 美元(缓存未命中),每百万 token 输出 2.5 美元。


那K2 Thinking的实际效果到底如何?

老规矩,我们实测一番。

由于现在的模型的能力越来越强,并且有很多变量的存在,简单的题目已经无法测出模型的能力了。

于是我们决定用历届模型经常翻车的问题来逐一刁难它,看K2 Thinking究竟是否会翻车!(关闭搜索)

测试题一:爱心视觉错题

这是最近最火的一道视觉测试题,测试模型是否可以看到图片中的爱心。

目前没有一个模型回答正确,看K2 Thinking是否能回答正确。


K2 Thinking同样没看出图片中的爱心图标,它的回答是“一个圆形的图案漂浮在背景之上”。

测试题二:数值比较

测试题很简单,9.11-9.9=?

看这次K2 Thinking能否答对!


回答正确!并且还很贴心的把计算过程列出来了。

测试题三:数数题

“strawberryrrrrrr"中有几个字母“r"。

同样这道题对于我们来说非常简单,但对大模型的难度可不一般,此前多款顶尖模型拜倒在这道题的石榴裙下。

为了防止之前的题目会训练过,所有我们在“strawberry”的基础上,多在了6个“r”。


依旧回答正确,并且明确指出"strawberry"部分有 3个“r”,后面的"rrrrrr"部分有 6个“r”。

测试题四:竹子过门

一根5米长的竹竿,能不能通过高2米、宽2米的城门?

同样这道题我们也做了简单从处理。


终于,被这道题难到了,不过也很正常,这道题很多模型都回答不出。

下面再来道非常烧脑的逻辑题。

测试题五:爱因斯坦斑马问题

提示词:

1、 一条街上有五座不同颜色的房子,每座房子住着不同国籍的人,每个人有不同的职业,喝不同的饮料,养不同的宠物。

2、英国人住在红色的房子里;

3、西

班牙人养了一条狗;

4、日本人是一个油漆工;

5、意大利人喜欢喝茶;

6、挪威人住在左边的第一个房子里;

7、绿房子在白房子的右边;

8、摄影师养了一只蜗牛;

9、外交官住在黄房子里;

10、中间房子里的那个人喜欢喝牛奶;

11、喜欢喝咖啡的人住在绿房子里;

12、挪威人住在蓝色的房子旁边;

13、小提琴家喜欢喝橘子汁;

14、养狐狸的人所住的房子与医师的房子相邻;

15、养马的人所住的房子与外交官的房子相邻。

先给大家公布正确的答案。


回答错误,再次难倒。


为了更全面的了解K2 Thinking的能力,我们再来测试几道编程题。

测试题六:使用 p5.js 创建一个精彩的动画

整体体验非常流畅,效果十分不错。

上上难度,来一个非常经典的编程题。

测试题七:天气卡片

提示词:

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

基本上提示词上所有的功能都实现了,而且呈现的动画效果依旧流畅。

看来难度不够,最后再来一个非常复杂的游戏编程题。

测试题八:3D打砖游戏

提示词:

“创建一个完全由鼠标控制的3D打砖块游戏:

1.使用Three.js构建沉浸式3D场景,包含以下核心组件:可左右滑动的玩家挡板(Paddle):通过鼠标水平移动控制;具备物理属性的弹跳球体:初始速度适中,碰撞后遵循反射定律;多排彩色悬浮砖块(Bricks):不同颜色对应不同分值

2.物理效果要求:碰撞检测:球体与砖块/挡板/边界精确碰撞;动态反弹:挡板不同位置碰撞改变球的水平反弹角度;重力模拟:球体运动轨迹呈自然抛物线

3.游戏机制:计分系统:击碎砖块实时计分(普通砖=10分,金色砖=50分);生命值:初始3条命,球掉落底部则扣除生命;速度进化:每击碎10块砖,球速提升15%

4.视觉特效:砖块击碎时触发粒子爆炸效果;球体运动轨迹添加动态拖尾光效;挡板碰撞时出现环形冲击波动画

5.交互增强:实时显示分数和生命值HUD;游戏结束界面显示最终得分+重新开始按钮;添加碰撞音效(使用Web Audio API)”

同样这次功能都基本实现了,不过也出现些许bug,无法移动到最左侧。

看来这次程序员有福了,编程能力辣么强,而且价格又低,简直就是代替Claude sonnet 4.5的不二之选。

总的来说,K2 Thinking能力确实非常顶,上述的测试题都仅测试了一次,特别是编程题,完成度很高。

大家感兴趣的可以去体验一下,K2 Thinking已上线Kimi啦。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
热搜第一!多地官宣“连休6天”,春秋假怎样从热搜变成真红利?“娃放假,爹妈不放假”怎么破?

热搜第一!多地官宣“连休6天”,春秋假怎样从热搜变成真红利?“娃放假,爹妈不放假”怎么破?

金融界
2026-03-06 13:30:15
大风315 | 车辆正行驶,屏幕突然显示“3秒钟后关机”,宝骏云海断电趴窝;4S店:小电瓶损坏,较少见

大风315 | 车辆正行驶,屏幕突然显示“3秒钟后关机”,宝骏云海断电趴窝;4S店:小电瓶损坏,较少见

大风新闻
2026-03-06 13:45:07
特朗普:“泽连斯基是与俄达成协议的障碍”

特朗普:“泽连斯基是与俄达成协议的障碍”

参考消息
2026-03-06 15:16:04
美以开打一周欲拖盟友“下水” 伊朗再袭美“林肯”号航母

美以开打一周欲拖盟友“下水” 伊朗再袭美“林肯”号航母

大象新闻
2026-03-06 07:27:19
办事大厅收材料的人,半年都能收1600多万 省委书记怒了:“吃拿卡要、损害企业利益的,迟早都会被查处”

办事大厅收材料的人,半年都能收1600多万 省委书记怒了:“吃拿卡要、损害企业利益的,迟早都会被查处”

大风新闻
2026-03-06 16:46:09
美国公海动武被批评,印度一声不吭遭质疑,美军在印度洋炸毁伊朗军舰

美国公海动武被批评,印度一声不吭遭质疑,美军在印度洋炸毁伊朗军舰

环球网资讯
2026-03-06 06:57:07
伊朗封锁霍尔木兹海峡,五星红旗成为了“通行证”,美西方国家急了

伊朗封锁霍尔木兹海峡,五星红旗成为了“通行证”,美西方国家急了

麓谷隐士
2026-03-06 11:13:24
伊朗说要动用新一代导弹打击美以目标

伊朗说要动用新一代导弹打击美以目标

财联社
2026-03-06 18:09:35
民用北斗被干扰了?中国船员称所有系统全都失效,只能用传统手段

民用北斗被干扰了?中国船员称所有系统全都失效,只能用传统手段

南权先生
2026-03-05 15:22:09
17岁男生发现新物种筷子蛇 直接发SCI期刊封神

17岁男生发现新物种筷子蛇 直接发SCI期刊封神

快科技
2026-03-06 12:37:06
真没有钱解决不了的事吗?网友:如果有,那是因为你钱还不够多

真没有钱解决不了的事吗?网友:如果有,那是因为你钱还不够多

解读热点事件
2026-02-23 18:34:51
国内成品油价格将迎调整

国内成品油价格将迎调整

环球网资讯
2026-03-06 10:08:08
特殊时点,金正恩再上“最大的船”

特殊时点,金正恩再上“最大的船”

中国新闻周刊
2026-03-06 18:14:11
伊朗反击变弱,导弹和无人机数量断崖式下降,这是一个危险的信号

伊朗反击变弱,导弹和无人机数量断崖式下降,这是一个危险的信号

麓谷隐士
2026-03-06 07:37:46
耿爽,有新职

耿爽,有新职

南方都市报
2026-03-06 16:43:06
美以伊军事冲突最大副作用,是斩断了俄罗斯的“救命稻草”

美以伊军事冲突最大副作用,是斩断了俄罗斯的“救命稻草”

廖保平
2026-03-05 12:08:52
服装行业这么卷,人们还愿意为什么付费?

服装行业这么卷,人们还愿意为什么付费?

豹变
2026-03-06 08:00:03
伊朗官员:美国媒体在撒谎!伊朗没有向美国发送任何信息

伊朗官员:美国媒体在撒谎!伊朗没有向美国发送任何信息

西游日记
2026-03-05 14:03:18
伊朗越打越猛,特朗普骑虎难下!美国实际上已经输了

伊朗越打越猛,特朗普骑虎难下!美国实际上已经输了

哲叔视野
2026-03-06 09:26:23
叫停印度24万亿订单,印尼这步棋,向世界释放了危险又明确的信号

叫停印度24万亿订单,印尼这步棋,向世界释放了危险又明确的信号

新浪财经
2026-03-06 00:55:26
2026-03-06 18:31:00
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
448文章数 62关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

特朗普威胁:对古巴采取行动只是时间问题

头条要闻

特朗普威胁:对古巴采取行动只是时间问题

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

经济主题记者会 潘功胜吴清等出席演讲

汽车要闻

岚图梦想家OTA升级:华为乾崑智驾ADS V4.1满血登场

态度原创

房产
数码
亲子
教育
家居

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

数码要闻

三星Micro RGB以微米级画质,推动高端家庭影音行业升级

亲子要闻

83岁爷爷独居在东北,孙女邀请一起回北京没想到爷爷这么回答?

教育要闻

长大后我就成了你:深山“禁区”里的教育接力

家居要闻

暖棕撞色 轻法奶油风

无障碍浏览 进入关怀版