网易首页 > 网易号 > 正文 申请入驻

离GPT-5最近的一次!中国1万亿参数开源巨兽突然爆火

0
分享至

新智元报道

编辑:倾倾 桃子

【新智元导读】Kimi K2 Thinking重磅开源,1万亿「思考Agent模型」在推理、智能体基准上干翻GPT-5。关键,还能连调300次工具,直出3D模拟。

昨天,月之暗面发布全新模型Kimi K2 Thinking,一上线就挤爆了服务器。

思考,是它的核心卖点,自称是开源的「思考Agent模型」。

它同样采用了MoE架构,总参数约1万亿,每次激活约320亿,上下文256K token。

在各大基准测试中,Kimi K2 Thinking性能表现亮眼。

尤其是,在BrowseComp、HLE测试中,实力完全碾压GPT-5、Claude Sonnet 4.5。

在Tau2 Bench Telecom基准测试中,K2 Thinking位列第一。

最关键的是,在无人干预情况下,K2 Thinking可连续调用200-300次工具。

国外研究者Nathan Lambert 称它为:「开源模型距闭源前沿最近的一次。」

这句话在技术圈广为流传,人们也开始重新审视这款模型。

不只是聊天工具,K2 Thinking更像是一个会自己推理、自己动手的智能体。

一款真正会思考的模型

Kimi K2 Thinking没有强调算力更大,而是强调更会「思考」。

这些配置让它在处理长文本、复杂任务时能维持更稳定的推理过程。

苹果大牛Awni Hannun测试后惊叹道:

1万亿参数,只用2台M3 Ultra芯片的Mac电脑即可流畅运行,而且int4压缩后性能几乎无损。

通过mlx-lm并行技术,它生成了大约3500个token,速度每秒15个token。

但真正让人关注的,是它的「思考能力」。

如前所述,K2 Thinking可以在一次任务中连续执行200到300次工具调用,全程无需人工干预。

有网友实测「工具调用」,立即制作出如下的数学和物理讲解动画。

不同于其他模型的胡编乱造,它在面对复杂问题时,会自己拆解步骤、搜索信息、调用外部工具、再整合结果。

团队把这种机制称为「交替思考」——模型在「思考」和「执行」之间循环往复,让推理更连贯。

K2 Thinking在性能上的表现也很亮眼。

在Humanity’s Last Exam(HLE)和 BrowseComp(网页搜索综合能力)任务上,成绩已经接近甚至超过GPT-5和Claude Sonnet 4.5。

Kimi K2 Thinking与GPT-5、Claude Sonnet 4.5在多项基准测试中的表现

除了推理表现,它在工程落地上也做了不少优化。

K2使用量化感知训练(QAT)对MoE模块进行INT4权重量化,在保证性能的同时,将生成速度提升了约两倍。

除了推理和搜索任务,K2 Thinking在编码、工具使用、数学推理等更细分的测试中表现也很突出。

在SWE-bench、LiveCodeBench、GPQA-Diamond等任务上,它的成绩已经超过DeepSeek、GPT-4 Turbo等多个主流模型,显示出更强的「执行力」。

Kimi K2 Thinking在多项编程与数学任务中的表现对比

这意味着,K2 Thinking的测试成绩就是它在真实环境下的表现,而非理想化打分。

它目前已经在kimi.com上线,并开源API和模型权重,开发者可以直接试用。

从实验室到真实场景,这个模型的「思考能力」明显超过了现有的其他模型。

智能体编码一流,300次工具调用

这一次,月之暗面没再让模型停留在论文里。

K2 Thinking不是展示品,而是一台真正能被人用起来的智能体。

发布当天,团队同步上线了kimi.com聊天模式、开放了API接口,还在Hugging Face公布了完整权重。

https://huggingface.co/moonshotai/Kimi-K2-Thinking?utm_source

开发者不需要等待内测邀请,也不用注册繁琐流程,任何人都能直接使用。

K2 Thinking的从训练开始,到优化,再到上线,周期不到半年。

在这个动辄以年为单位更新的大模型时代,这个速度意味着它已具备完整的工程化能力。

打开kimi.com,就能直接体验到K2 Thinking的思考过程。

与一般聊天模型不同,它在生成答案前,会清晰地展示自己的推理链。

此外,研究人员特别提到,K2 Thinking在软件和编码任务上进步显著。

它在 SWE-Multilingual测试中得分61.1% ,在SWE-Bench Verified测试中得分71.3%,在Terminal-Bench测试中得分47.1%。

这无疑证明了,该模型在HTML、React等方面的任务上有了很明显的进步。

写代码前,先写计划

当用户输入「分析我发给你的CSV文件,并生成图表来支持你的分析」时,K2不会直接输出代码。

他会先列出自己的行动方案:首先,加载数据集,接下来,筛选数据集,然后,分析内容,调用绘图库,最终生成结果。

有了行动方案,它才会逐步生成代码,执行、验证、修正。

如果出错,它会提示「正在重新规划」,然后自动尝试新方案。整个过程,都能在屏幕上看到。

最终,我们能得到K2生成的数据分析图表。

仅仅调用14次python,就能生成这样完美的可视化图表、准确的统计数据以及包含详细分析的交互网页。

私人定制行程:比管家还靠谱

你是否想过拥有一个完美管家?那K2可以满足你的需求。

你只要提出你的需求,比如「我的预算是1000美元,给我规划我的演唱会之旅」。

输入之后,K2就会像一位尽职尽责的管家,询问你的喜好、目的、工作安排,甚至查阅你的谷歌邮件。

之后,他开始搜索,查机票、看演唱会场次,甚至会考虑到演唱会附近的餐厅。简直比管家还贴心!

最后,结合各方数据,交出最适合你的演唱会计划。

而做到这些,仅仅调用了17次工具!很难想象如果亲自做计划,要耗时多久。

一针见血的数学讲解员

除了长段的提示词,短短几句话,K2 Thinking也能完美运行。

比如,对它说「解释二维梯度下降」。

它就能调用工具,以最直观、形象的方式向你作出解释:

蓝色的等高线越靠近中心,函数值越小;黄色的路径是优化算法从起点到最优点的下降轨迹;红色小箭头表示梯度(∇f)的方向;黄色点表示当前的模型参数位置,它沿着梯度的反方向移动。

配合上动图,一目了然。

触手可及的「细胞战」

不仅仅是数学,K2 Thinking甚至进军生物学领域!

你只要输入「做一个可以调节免疫参数的病毒模拟程序」,就可以得到一个可交互的病毒仿真系统。

红蓝两种粒子在屏幕上相互追逐、碰撞、吞噬。拖动滑块,就能调整病毒复制率、免疫细胞数量。

对于Kimi K2 Thinking真实表现,你怎么看?

参考资料:

https://www.interconnects.ai/p/kimi-k2-thinking-what-it-means

https://x.com/Kimi_Moonshot/status/1986449512538513505

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世乒赛决赛预测:中国男团3-1日本夺12连冠 女团3-0日本轻取7连冠

世乒赛决赛预测:中国男团3-1日本夺12连冠 女团3-0日本轻取7连冠

风过乡
2026-05-10 07:51:31
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
中国冲击3万美元人均GDP,将颠覆全球发达国家格局!

中国冲击3万美元人均GDP,将颠覆全球发达国家格局!

陈博世财经
2026-05-10 14:16:59
出来了?顾超自涉入反赌扫黑案件后,首度更新社交媒体

出来了?顾超自涉入反赌扫黑案件后,首度更新社交媒体

懂球帝
2026-05-10 09:33:22
西媒:弗里克的父亲于昨夜离世,他仍将带队出战国家德比

西媒:弗里克的父亲于昨夜离世,他仍将带队出战国家德比

懂球帝
2026-05-10 19:55:19
250亿!赖清德窜访代价来了,斯威士兰开始要债 卢秀燕却声援绿营

250亿!赖清德窜访代价来了,斯威士兰开始要债 卢秀燕却声援绿营

闻识
2026-05-10 18:17:01
陈海涛乐开了花,广东队赢球奖金翻倍!

陈海涛乐开了花,广东队赢球奖金翻倍!

体育哲人
2026-05-10 10:55:21
中国想要打通日本海出海口只有一条路,就是将哈桑区划入中国版图

中国想要打通日本海出海口只有一条路,就是将哈桑区划入中国版图

叹知
2026-05-10 07:10:07
斯诺克巨星邀请赛:塞尔比4-3夺赛点!冲世锦赛后首胜,老马告急

斯诺克巨星邀请赛:塞尔比4-3夺赛点!冲世锦赛后首胜,老马告急

刘姚尧的文字城堡
2026-05-10 16:35:35
马卡:姆巴佩最后一练结束前5分钟突感腘绳肌不适,所有人都很惊讶

马卡:姆巴佩最后一练结束前5分钟突感腘绳肌不适,所有人都很惊讶

懂球帝
2026-05-10 19:12:06
伊朗媒体:美F-35战机在阿曼湾上空请求紧急降落

伊朗媒体:美F-35战机在阿曼湾上空请求紧急降落

新华社
2026-05-10 18:02:03
红场阅兵落幕中方代表离场,普京喊话乌克兰,四年战争即将结束

红场阅兵落幕中方代表离场,普京喊话乌克兰,四年战争即将结束

谛听骨语本尊
2026-05-10 21:14:48
女人一直暗恋着你,会有以下几个信号,别不懂

女人一直暗恋着你,会有以下几个信号,别不懂

叶飞飞情感屋
2026-05-09 19:09:32
摩纳哥夏琳王妃惊艳晚会,罕见与丈夫同框,三次逃婚失败接受现实

摩纳哥夏琳王妃惊艳晚会,罕见与丈夫同框,三次逃婚失败接受现实

译言
2026-05-10 06:37:12
黄瓜立大功?医生发现:经常吃黄瓜的人,不出半年,或有4大改善

黄瓜立大功?医生发现:经常吃黄瓜的人,不出半年,或有4大改善

芹姐说生活
2026-05-09 21:08:03
里子面子都丢了,森林北自曝身体出了问题,汪峰的体面被撕碎

里子面子都丢了,森林北自曝身体出了问题,汪峰的体面被撕碎

素衣读史
2025-11-19 16:09:14
累计4黄停赛,山东外援阿尔瓦罗将无缘下轮主场战重庆铜梁龙

累计4黄停赛,山东外援阿尔瓦罗将无缘下轮主场战重庆铜梁龙

懂球帝
2026-05-10 19:03:30
河南37岁单亲妈妈与男子网恋遭遇“杀猪盘”,诱惑投资“伦敦金”被骗53万元,事发前在股市赚了七八万

河南37岁单亲妈妈与男子网恋遭遇“杀猪盘”,诱惑投资“伦敦金”被骗53万元,事发前在股市赚了七八万

极目新闻
2026-05-10 20:05:26
释永信被一女子爆料:她们姐妹住少林寺3天,争着往释永信房间跑

释永信被一女子爆料:她们姐妹住少林寺3天,争着往释永信房间跑

江山挥笔
2026-03-23 15:40:31
王思聪晒出一墙皮卡丘,说想换两条牛仔裤

王思聪晒出一墙皮卡丘,说想换两条牛仔裤

国创漫话
2026-05-09 23:40:19
2026-05-10 22:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15178文章数 66856关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

房产
亲子
艺术
家居
公开课

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

亲子要闻

“顺”还是“剖”?从成为母亲的选择说起

艺术要闻

震撼!Rico Reinhold带你领略欧美复古艺术写真!

家居要闻

菁英人居 全能豪宅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版