网易首页 > 网易号 > 正文 申请入驻

开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

0
分享至


迄今为止最大最好的开源模型,总参数达 1 万亿,屠榜多个基准测试,Kimi K2 Thinking 来了。


▲ Kimi K2 Thinking 在 TAU 榜单(智能体工具调用能力测试)上排名第一,超过 OpenAI 和 Anthropic 的旗舰模型

一登场就是斩获多个测试榜单的第一名,Kimi 也不玩开源只和开源比那一套,而是直接把 GPT-5、Claude 4.5 Sonnet 这样的闭源模型放一起,非常自信。


▲ 智谱、MiniMax 自然语言处理部门负责人、以及 HuggingFace 联合创始人纷纷在评论区留言祝贺

除了在工具使用的榜单上拿第一,人类最后考试(HLE)、BrowseComp、还有其他基准测试,Kimi K2 Thinking 基本上都占据了先进模型的前排位置。


▲ 在跨学科专家级问题的 HLE 榜单、以及自主搜索的三个榜单上,排名第一;编程能力的三个榜单,得分也接近最好的 Claude 或 GPT 模型

无论是对智能体能力要求极高的编程任务、还是通用的推理写作、深度搜索等方面,Kimi K2 Thinking 的性能表现可以说是,目前最接近封闭模型的开源模型

延续了 7 月份,发布 K2 时,将其定位为自主智能路线图的一部分,Kimi K2 Thinking 也是主打 Agentic Intelligence(智能体智能)。它是一个推理的混合专家(MoE)模型,总参数量 1T,激活参数 32B,上下文长度 256K。

K2 Thinking 能在智能体工具调用中交错思考,同时在保持任务目标的同时,持续进行 200 到 300 次顺序工具调用。尽管工具调用在类似的闭源模型上,已经成为某种程度上的标准,但 K2 Thinking 可能是第一个,具有如此多工具调用能力的开源模型。

对比 K2 0905,K2 Thinking 在具体的任务上的提升,我们总结了 Kimi 的技术博客,有这些亮点。

  • 解决需要百步推理的复杂难题:它能将一个庞大的目标分解为数百个子任务,然后像一个项目经理一样逐一执行。官方举例称,它曾通过 23 个交错的推理和工具调用,成功解决了一个博士级的数学难题。
  • 更准确的找到详细的信息:通过执行动态的思考 → 搜索 → 浏览器使用 → 思考 → 代码循环,K2 Thinkging 在面对模糊或冷门的搜索需求,能自己上网反复搜索、浏览网页、验证证据,直到找到精准答案。
  • 直接把想法变成可用的产品:K2 Thinking 特别擅长前端代码(如 HTML、React),和其他 Vibe Coding 产品一样,能直接把我们的想法写成一个功能完善、响应迅速的网页或软件产品。
  • 写出更有人味的文章:逻辑严谨的专业长文,想象力丰富的创意故事,甚至是需要同理心的情感建议,K2 Thinking 在聊天问答这些通用能力上,能做到更扎实、更细腻的推理写作。


目前,Kimi K2 Thinking 已经在 Kimi 官网的聊天模式上线。

但需要注意的是,Kimi 解释说为了保证用户能获得快速、轻量级的体验,当前的网页聊天版本有选择性地减少了部分工具的使用和调用次数。因此,直接在 kimi.com 上聊天,可能暂时无法完全复现上述基准测试中的极限分数。


▲测试中提醒「高峰算力不足,请耐心等待」

此外,能充分发挥 Kimi K2 Thinking 能力的完整智能体模式(Full Agentic Mode)将很快更新。开发者也可以通过 Kimi k2 thinking API 来体验。

我们也快速上手,实测了几个常见的项目,一起来看看实际的体验如何。

首先是编程任务,我们先让他做了一个技能五子棋的小游戏,要求是在普通的五子棋规则上,玩家可以使用技能。


速度很快,出乎我的意料,一两分钟的时间,它就实现了全部的代码,并且真的可以使用这些技能。

然后是骑自行车的鹈鹕,这个经典的测试大模型编程能力的项目,检验它的 SVG 代码生成。


虽然 K2 Thinking 写着推理模型,但是它的推理速度非常快,这段动态的 SVG 代码生成也只花了 1 分钟不到。虽然这个鹈鹕好像有点不太对劲。

开启长思考,即 K2 Thinking 的同时,能启用网络搜索,当我们要它完成一个天气卡片时,能看到 Kimi 会一边自动检索网络上的公开资料,一边完成代码的实现。


▲确实能调用浏览器的获取位置接口,但是在最后 Kimi 也提到,需要输入对应的地图 API 和 天气信息 API 等数据

现在已经是全民 vibe coding 的时代了,普通用户还是程序员,都能从 K2 Thinking 的编程能力里,更快速地实现自己的想法。

在智能体搜索这个任务上,我们问了他一些专业领域的问题,测试它如何分解复杂问题、主动搜索、并整合难找的网络信息的能力。


可以看到,Kimi 搜索的信息是比较全面的,当我规定了 2025 年以后,它网页搜索的资料,也大多集中在最近这段时间以来的报道。


最后它给出的报告,也详细的提到了三种 2025 的算法,以及主要的公司等内容。

其实工具调用,应该是 Kimi K2 Thinking 非常重要的能力,但是在我们的体验中,发现大多数时候,他只是调用网络搜索工具,而没有看到 200 多个工具流。

我们在输入一个物流逻辑问题时,很明显是可以调用 Python 等代码解释器来辅助计算,但是 Kimi 只是和其他深度思考的模型一样,一步步地推理。

关于 K2 Thinking 的写作能力,我们找了一个表面上看起来是两难的问题给它。


这个回答有够人性化吗。很明显不是空洞的套话,还提供了周到且具体的思考,也帮助我们平衡了原则和现实两个方面,还有可操作的后续步骤。

在 AI 模型军备竞赛的今天,单纯的问答,很明显已经无法满足,我们复杂的专业需求。像人类专家一样,通过一步一步的推理思考,主动使用各种工具,来解决极其复杂的难题,成了所有大模型的标配。

根据 Kimi 官方文档和技术分析的介绍,这次的思考能力突破关键在训练方式,即高效的量化技术(INT4 QAT),这也是一个值得关注的行业亮点。

K2 Thinking 在后训练阶段采用了量化感知训练 (QAT),让模型能以 INT4 精度本地运行,推理速度提升约 2 倍,同时保持最佳性能。

也就是说,它不是训练完再压缩,而是在训练过程中就贯穿低精度运算模型。这带来了两个巨大优势,一个是推理速度的提升,一个是长链条推理,不会因为量化而造成逻辑崩溃。


▲使用正确的量化技术,能节省 GPU 显存并加快推理速度

此外,它的所有基准测试成绩都是在 INT4 精度下报告的。说白了,这是一种「所见即所得」的性能,而不是实验室精心调制的数据,K2 Thinking 生来就能跑得动

我们的实测也能看到,Kimi K2 Thinking 确实不仅仅是一个营销噱头,工具调用、量化技术、以及超长规划,让它在智能体方向上,推理速度上,都有不错的表现。

虽然在某些方面,例如稳定的结果输出、以及对提示词更宽松的要求,还是比不上闭源模型。但是开源能做到这样,我的心里只有两个字,佩服。


过去两年,国产模型的竞争大概是从 Qwen、百度这些模型,对 ChatGPT 的疯狂追赶;到横空出世的 DeepSeek 把推理成本降低的同时,还做到了和 o3 等推理模型,相媲美的表现。

让国产 AI 开始走上了,完全不同于国外闭源模型的路线。OpenAI 发布一个 GPT-5 预热了大半年,Anthropic 的 Claude 系列模型发布周期也在长达几个月。

而 Kimi 在今年七月发布了 K2,九月发布了 K2 Instruct,十一月就迎来了 K2 Thinking;更不用说还有智谱、MiniMax、以及前段时间模型七连发的 Qwen。就连还在期待中的 DeepSeek R2,也更新 V3.2、OCR 等广受好评的模型。

并且,这些模型全部开源。在海外社交媒体平台上,一年前大家可能只知道中国有 DeepSeek,而现在,Qwen 已经是 Hugging Face 上模型下载榜单的 Top 10,Kimi 和智谱(Z.ai)的 GLM 系列模型、以及 MiniMax 都成了大多数用户青睐的模型。

K2 Thinking 的发布,我想是一个新的转折点,就是当我们的开源模型,也能拿到和闭源模型一样的基准分数时,闭源模型还可以讲什么样的故事来营销自己呢。


Gemini 3 据说在今年年底前将发布,而 OpenAI 似乎也害怕再像当时的 nano banana 一样,抢走他的市场,计划推出 GPT-5.1。

军备竞赛还在继续,而国产开源的力量,开始让我们看到,一个好用的 AI,不是屠榜多少测试,是在具有真实用户需求的领域,能真正地提供某些东西,并且惠及所有人。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大反转!狗主人上门打砸遭反杀续:重要证据出现,谁杀了谁不好说

大反转!狗主人上门打砸遭反杀续:重要证据出现,谁杀了谁不好说

吭哧有力
2025-11-14 10:22:35
成功着陆!权威解读神舟二十一号太空“生死速递”是如何做到的?

成功着陆!权威解读神舟二十一号太空“生死速递”是如何做到的?

科普岛
2025-11-14 18:58:19
生态环境部:下周起督察组将陆续对京津冀等地开展例行督察

生态环境部:下周起督察组将陆续对京津冀等地开展例行督察

界面新闻
2025-11-15 14:53:03
跑3趟社保局才摸清:灵活就业和职工社保,差的不只是一张工作证

跑3趟社保局才摸清:灵活就业和职工社保,差的不只是一张工作证

黑哥讲现代史
2025-11-15 06:36:09
26胜7负!樊振东回应4-2逆转王楚钦:他现在是国乒的绝对领军人物

26胜7负!樊振东回应4-2逆转王楚钦:他现在是国乒的绝对领军人物

风过乡
2025-11-15 14:36:33
哈登41+14+11加冕队史三双王 快船双加时险胜独行侠结束6连败

哈登41+14+11加冕队史三双王 快船双加时险胜独行侠结束6连败

醉卧浮生
2025-11-15 12:51:10
泰国王后在北京开心出席国宴!拎着标志性香炉包挽着泰王,惊艳了

泰国王后在北京开心出席国宴!拎着标志性香炉包挽着泰王,惊艳了

爱史纪
2025-11-15 09:59:38
网易号平台每日辟谣公告(十一月十四日)

网易号平台每日辟谣公告(十一月十四日)

网易号官方平台
2025-11-14 18:01:59
杭州市中心锁着一只神秘行李箱,长达半年!共有三道密码锁,背后有啥故事?

杭州市中心锁着一只神秘行李箱,长达半年!共有三道密码锁,背后有啥故事?

都市快报橙柿互动
2025-11-15 11:16:24
高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

寻墨阁
2025-11-12 21:14:07
真假?大批媒体曝吴亦凡狱中绝食去世?家人也失联,知情者发声

真假?大批媒体曝吴亦凡狱中绝食去世?家人也失联,知情者发声

180视角
2025-11-12 12:05:43
中日关系突变!日本自民党递交决议,可能直接驱逐中国总领事!

中日关系突变!日本自民党递交决议,可能直接驱逐中国总领事!

翻开历史和现实
2025-11-14 23:02:00
G联赛:杨瀚森首发30分钟首秀8+13+4 混音22分逆转获3连胜

G联赛:杨瀚森首发30分钟首秀8+13+4 混音22分逆转获3连胜

醉卧浮生
2025-11-15 12:19:09
800年来第一个访华的泰国国王,这是干嘛来了?

800年来第一个访华的泰国国王,这是干嘛来了?

观察者网
2025-11-14 16:04:07
日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

行者聊官
2025-11-12 16:59:14
吉林45岁卡车司机在俄罗斯不幸遇难,同事:他装了货准备回国,下车检查时被撞

吉林45岁卡车司机在俄罗斯不幸遇难,同事:他装了货准备回国,下车检查时被撞

极目新闻
2025-11-15 00:17:42
中国领事遭围攻,日本记者:要100多年前,我们就直接打过去了!

中国领事遭围攻,日本记者:要100多年前,我们就直接打过去了!

浅深说
2025-11-13 10:34:33
中国最大央企领导调整!

中国最大央企领导调整!

新浪财经
2025-11-15 10:41:02
杨兰兰最新消息!拒绝认罪,第四次庭审仍不现身

杨兰兰最新消息!拒绝认罪,第四次庭审仍不现身

霹雳炮
2025-11-14 19:22:49
昆山再赴上海,开启新一轮高质量融合发展新篇章

昆山再赴上海,开启新一轮高质量融合发展新篇章

正解局
2025-11-14 18:08:39
2025-11-15 15:11:00
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38027文章数 2600191关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

杭州路边锁着一只神秘行李箱长达半年 共有三道密码锁

头条要闻

杭州路边锁着一只神秘行李箱长达半年 共有三道密码锁

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

争议!评委张艺谋被质疑保送易烊千玺

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

数码
教育
手机
艺术
时尚

数码要闻

曝疑似小米Watch S5将支持UWB技术 采用表冠设计

教育要闻

作文《做过最勇敢的一件事》火了,无视考试底线,老师却给了满分

手机要闻

华为Mate 70 Air 采用行业通用方案,暂不支持后期升级运行内存

艺术要闻

1.7亿建成,1.5亿拆掉!荆州“天下第一关公”雕像

冬天的“销冠”,已被羽绒服预定

无障碍浏览 进入关怀版