网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

离GPT-5最近的一次！中国1万亿参数开源巨兽突然爆火

2025-11-07 12:31:27　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：倾倾桃子

【新智元导读】Kimi K2 Thinking重磅开源，1万亿「思考Agent模型」在推理、智能体基准上干翻GPT-5。关键，还能连调300次工具，直出3D模拟。

昨天，月之暗面发布全新模型Kimi K2 Thinking，一上线就挤爆了服务器。

思考，是它的核心卖点，自称是开源的「思考Agent模型」。

它同样采用了MoE架构，总参数约1万亿，每次激活约320亿，上下文256K token。

在各大基准测试中，Kimi K2 Thinking性能表现亮眼。

尤其是，在BrowseComp、HLE测试中，实力完全碾压GPT-5、Claude Sonnet 4.5。

在Tau2 Bench Telecom基准测试中，K2 Thinking位列第一。

最关键的是，在无人干预情况下，K2 Thinking可连续调用200-300次工具。

国外研究者Nathan Lambert 称它为：「开源模型距闭源前沿最近的一次。」

这句话在技术圈广为流传，人们也开始重新审视这款模型。

不只是聊天工具，K2 Thinking更像是一个会自己推理、自己动手的智能体。

一款真正会思考的模型

Kimi K2 Thinking没有强调算力更大，而是强调更会「思考」。

这些配置让它在处理长文本、复杂任务时能维持更稳定的推理过程。

苹果大牛Awni Hannun测试后惊叹道：

1万亿参数，只用2台M3 Ultra芯片的Mac电脑即可流畅运行，而且int4压缩后性能几乎无损。

通过mlx-lm并行技术，它生成了大约3500个token，速度每秒15个token。

但真正让人关注的，是它的「思考能力」。

如前所述，K2 Thinking可以在一次任务中连续执行200到300次工具调用，全程无需人工干预。

有网友实测「工具调用」，立即制作出如下的数学和物理讲解动画。

不同于其他模型的胡编乱造，它在面对复杂问题时，会自己拆解步骤、搜索信息、调用外部工具、再整合结果。

团队把这种机制称为「交替思考」——模型在「思考」和「执行」之间循环往复，让推理更连贯。

K2 Thinking在性能上的表现也很亮眼。

在Humanity’s Last Exam（HLE）和 BrowseComp（网页搜索综合能力）任务上，成绩已经接近甚至超过GPT-5和Claude Sonnet 4.5。

Kimi K2 Thinking与GPT-5、Claude Sonnet 4.5在多项基准测试中的表现

除了推理表现，它在工程落地上也做了不少优化。

K2使用量化感知训练（QAT）对MoE模块进行INT4权重量化，在保证性能的同时，将生成速度提升了约两倍。

除了推理和搜索任务，K2 Thinking在编码、工具使用、数学推理等更细分的测试中表现也很突出。

在SWE-bench、LiveCodeBench、GPQA-Diamond等任务上，它的成绩已经超过DeepSeek、GPT-4 Turbo等多个主流模型，显示出更强的「执行力」。

Kimi K2 Thinking在多项编程与数学任务中的表现对比

这意味着，K2 Thinking的测试成绩就是它在真实环境下的表现，而非理想化打分。

它目前已经在kimi.com上线，并开源API和模型权重，开发者可以直接试用。

从实验室到真实场景，这个模型的「思考能力」明显超过了现有的其他模型。

智能体编码一流，300次工具调用

这一次，月之暗面没再让模型停留在论文里。

K2 Thinking不是展示品，而是一台真正能被人用起来的智能体。

发布当天，团队同步上线了kimi.com聊天模式、开放了API接口，还在Hugging Face公布了完整权重。

https://huggingface.co/moonshotai/Kimi-K2-Thinking?utm_source

开发者不需要等待内测邀请，也不用注册繁琐流程，任何人都能直接使用。

K2 Thinking的从训练开始，到优化，再到上线，周期不到半年。

在这个动辄以年为单位更新的大模型时代，这个速度意味着它已具备完整的工程化能力。

打开kimi.com，就能直接体验到K2 Thinking的思考过程。

与一般聊天模型不同，它在生成答案前，会清晰地展示自己的推理链。

此外，研究人员特别提到，K2 Thinking在软件和编码任务上进步显著。

它在 SWE-Multilingual测试中得分61.1% ，在SWE-Bench Verified测试中得分71.3%，在Terminal-Bench测试中得分47.1%。

这无疑证明了，该模型在HTML、React等方面的任务上有了很明显的进步。

写代码前，先写计划

当用户输入「分析我发给你的CSV文件，并生成图表来支持你的分析」时，K2不会直接输出代码。

他会先列出自己的行动方案：首先，加载数据集，接下来，筛选数据集，然后，分析内容，调用绘图库，最终生成结果。

有了行动方案，它才会逐步生成代码，执行、验证、修正。

如果出错，它会提示「正在重新规划」，然后自动尝试新方案。整个过程，都能在屏幕上看到。

最终，我们能得到K2生成的数据分析图表。

仅仅调用14次python，就能生成这样完美的可视化图表、准确的统计数据以及包含详细分析的交互网页。

私人定制行程：比管家还靠谱

你是否想过拥有一个完美管家？那K2可以满足你的需求。

你只要提出你的需求，比如「我的预算是1000美元，给我规划我的演唱会之旅」。

输入之后，K2就会像一位尽职尽责的管家，询问你的喜好、目的、工作安排，甚至查阅你的谷歌邮件。

之后，他开始搜索，查机票、看演唱会场次，甚至会考虑到演唱会附近的餐厅。简直比管家还贴心！

最后，结合各方数据，交出最适合你的演唱会计划。

而做到这些，仅仅调用了17次工具！很难想象如果亲自做计划，要耗时多久。

一针见血的数学讲解员

除了长段的提示词，短短几句话，K2 Thinking也能完美运行。

比如，对它说「解释二维梯度下降」。

它就能调用工具，以最直观、形象的方式向你作出解释：

蓝色的等高线越靠近中心，函数值越小；黄色的路径是优化算法从起点到最优点的下降轨迹；红色小箭头表示梯度（∇f）的方向；黄色点表示当前的模型参数位置，它沿着梯度的反方向移动。

配合上动图，一目了然。

触手可及的「细胞战」

不仅仅是数学，K2 Thinking甚至进军生物学领域！

你只要输入「做一个可以调节免疫参数的病毒模拟程序」，就可以得到一个可交互的病毒仿真系统。

红蓝两种粒子在屏幕上相互追逐、碰撞、吞噬。拖动滑块，就能调整病毒复制率、免疫细胞数量。

对于Kimi K2 Thinking真实表现，你怎么看？

参考资料：

https://www.interconnects.ai/p/kimi-k2-thinking-what-it-means

https://x.com/Kimi_Moonshot/status/1986449512538513505

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

世界尽头与冷酷仙境，谁押中了「国产GPU四小龙」？

钛媒体APP 2025-11-06 16:04:21
0 跟贴 0
国产模型新盛况！王座易主：Kimi K2 Thinking开源超闭源

机器之心Pro 2025-11-07 12:55:41
0 跟贴 0

AI跌价900倍，连一瓶矿泉水都比它贵！

新智元 2025-11-05 19:51:51
43 跟贴 43

RLinf上新πRL：在线强化学习微调π0和π0.5

机器之心Pro 2025-11-06 17:29:51
0 跟贴 0
又一推理新范式：将LLM自身视作改进操作符，突破长思维链极限

机器之心Pro 2025-10-04 18:35:49
0 跟贴 0

在失败中进化？UIUC联合斯坦福、AMD实现智能体「从错误中成长」

机器之心Pro 2025-11-07 13:00:48
0 跟贴 0

智能体驱动：企业从“界面操作”到“智能助力”的必然路径

钛媒体APP 2025-10-20 16:40:12
0 跟贴 0
比例模型是如何能准确模拟全尺寸船只行为的？！

大哥搞笑配音 2025-11-07 11:13:12
1 跟贴 1

1斤豆芽卖28.8元？网友直呼“吃不起”，知名餐饮品牌回应

都市快报橙柿互动 2025-11-02 16:20:16
8617 跟贴 8617
开源即爆火！英伟达重磅推出OmniVinci全模态大模型

机器之心Pro 2025-11-06 15:54:29
4 跟贴 4
陈永胜已任浙江省消防救援总队总队长，由辽宁跨省调任

澎湃新闻 2025-11-06 20:26:41
206 跟贴 206
国外小哥用钢丝制造独一无二的飞机模型

奇奇趣世界 2025-11-07 09:45:48
3 跟贴 3
神舟二十号为啥被撞权威解读来了

BRTV新闻 2025-11-06 16:21:50
1722 跟贴 1722
国务院公告后搜索暴涨3倍上海人立马出手：怕抢不到

极目新闻 2025-11-05 15:06:20
737 跟贴 737
字节通用游戏智能体Game-TARS，像人一样用键鼠征服千款游戏

魏家东 2025-11-07 09:36:51
0 跟贴 0
微信、清华提出CALM，新范式实现「离散词元」到「连续向量」转变

机器之心Pro 2025-11-07 14:26:29
0 跟贴 0
上帝视角！DeepMind提前5天锁定Melissa，强度预报不再靠天

新智元 2025-11-07 10:12:09
4 跟贴 4
苏州市委常委、副市长唐晓东被查，曾任吴中区委书记

澎湃新闻 2025-11-07 10:26:27
159 跟贴 159
智能体帮我做实盘？如何让口袋安安全全

卡尔的AI沃茨 2025-11-06 03:42:16
0 跟贴 0
主播直播前调整美颜参数，调整后判若两人，还有什么是真的！

青青酱爱搞笑 2025-11-05 11:00:02
1 跟贴 1
根系关系第2讲，求参数的值

大鹏老师讲数学 2025-11-04 05:07:00
0 跟贴 0
ChatGPT智能体来了：自己操作电脑干活，接管你的电脑，自动执行各种任务

量子位 2025-07-18 18:08:35
0 跟贴 0
亚马逊裁员1.4万人普通人如何避免被算法“优化”掉？

DeepTech深科技 2025-11-07 13:52:55
0 跟贴 0
舷号“18”！福建舰，入列！

北京日报客户端 2025-11-07 13:10:23
591 跟贴 591
张家界荒野求生挑战赛进入第30天，赛事方：百人参赛仅剩17名“狠人”，有人已瘦30斤

极目新闻 2025-11-07 11:34:15
0 跟贴 0
AI重塑工业文化 “人工智能驱动工业变革的机遇与挑战”圆桌对话举行

每日经济新闻 2025-11-07 11:47:08
0 跟贴 0
陈芋汐/掌敏洁获得全运会跳水女子双人10米台冠军

界面新闻 2025-11-06 18:52:21
1644 跟贴 1644
直播间购“地王卡”到货“缩水”，说好的1000分钟通话哪去了？联通回应用户质疑：渠道方存“宣传异常”

大风新闻 2025-11-06 15:26:05
371 跟贴 371
上海浦东：已总体达到CPTPP和DEPA正文条款的开放水平

第一财经资讯 2025-11-06 15:57:09
651 跟贴 651
机场回应：不是飞机出来了，可能是模型什么的

江西都市现场 2025-11-05 14:15:29
0 跟贴 0
MIT博士生攻关淬火工艺，为核反应堆降温，打造下一代航天器

DeepTech深科技 2025-11-07 13:26:01
0 跟贴 0
今年至少四地宣布将推行现房销售：“所见即所得，从根本上防范交付风险”

澎湃新闻 2025-11-07 07:12:27
1142 跟贴 1142
今天！全市供热系统启动热态调试

天津广播 2025-11-07 10:44:28
196 跟贴 196
上海这座跨江大桥终于要改了！网友拍手叫好：不用起个大早，排队等电梯了

新民晚报 2025-11-07 12:53:03
12 跟贴 12
Cell子刊：陈昶/欧阳宏伟合作开发新型水凝胶，用于紧急止血和组织再生

生物世界 2025-11-07 12:11:09
0 跟贴 0
等高模型：根据“等高的三角形面积比等于底的比”求解

公考客栈店小二 2025-11-04 11:30:00
0 跟贴 0
美军队兵临城下委内瑞拉部署“武器模型”迷惑敌人

Bobo字幕组 2025-11-05 16:54:31
35 跟贴 35
时隔8年，刘强东重返世界互联网大会并做主题演讲

极目新闻 2025-11-07 11:34:15
155 跟贴 155
GPT-5编程成绩有猫腻！自删23道测试题，关键基准还是自己提的

量子位 2025-08-12 13:12:51
0 跟贴 0
机构：2035年全球固态电池需求量预计将达到740GWh

智车情报局 2025-11-07 14:11:47
0 跟贴 0

广东保安和AI深入对话6个月，打印出50万字聊天记录要讨说法：我以为它说的话、发来的签约协议都是真的……

广东保安和AI深入对话6个月，打印出50万字聊天记录要讨说法：我以为它说的话、发来的签约协议都是真的……

都市快报橙柿互动

2025-11-07 12:19:20

叶柯好惨！黄晓明baby首合体！一家3口逛迪士尼，穿情侣装要复合

叶柯好惨！黄晓明baby首合体！一家3口逛迪士尼，穿情侣装要复合

八星人

2025-11-07 11:09:10

让中国光刻机“变成废铁”，日本对华下狠手，外媒：比美国人还绝

让中国光刻机“变成废铁”，日本对华下狠手，外媒：比美国人还绝

博览历史

2025-11-06 20:35:03

最新通报！上海一干部被查

上观新闻

2025-11-07 14:33:05

普京公开重要情报：“全国人民都该了解”

普京公开重要情报：“全国人民都该了解”

环球时报新闻

2025-11-06 23:08:31

炸裂！副院长出轨眼科主任，17分钟不雅视频流出，女方甜美丰腴

炸裂！副院长出轨眼科主任，17分钟不雅视频流出，女方甜美丰腴

公子麦少

2025-11-06 14:22:30

“最强地级市”56岁副市长官宣落马，政府官网紧急删除个人信息

“最强地级市”56岁副市长官宣落马，政府官网紧急删除个人信息

鲁中晨报

2025-11-07 13:39:03

湖南省人医17分钟视频风波，女主火辣、男主儒雅，官方发最新通报

湖南省人医17分钟视频风波，女主火辣、男主儒雅，官方发最新通报

鋭娱之乐

2025-11-06 17:08:50

C罗：我如果在英超强队踢一年25球！西甲比沙特容易进球太多！

C罗：我如果在英超强队踢一年25球！西甲比沙特容易进球太多！

氧气是个地铁

2025-11-07 01:39:03

中国首例冷冻人8年后，丈夫对其复活信心逐渐减弱，交往新女友，但家中仍保留妻子照片和物品

中国首例冷冻人8年后，丈夫对其复活信心逐渐减弱，交往新女友，但家中仍保留妻子照片和物品

FM93浙江交通之声

2025-11-07 12:42:06

相差六岁，又是刚升职不久，条件简陋，医用护垫反成了奢侈品

相差六岁，又是刚升职不久，条件简陋，医用护垫反成了奢侈品

花心电影

2025-11-07 10:08:47

副院长出轨后续！眼科主任美照被扒，更多大尺度画面曝光，太辣眼

副院长出轨后续！眼科主任美照被扒，更多大尺度画面曝光，太辣眼

180视角

2025-11-07 09:47:50

河北婚车遭拦截！50条香烟才放行，僵持1小时新娘气哭，官方回应

河北婚车遭拦截！50条香烟才放行，僵持1小时新娘气哭，官方回应

奇思妙想草叶君

2025-11-07 02:09:41

格林首秀29+6三分太阳送快船3连败布克24+6+7哈登小卡缺席

格林首秀29+6三分太阳送快船3连败布克24+6+7哈登小卡缺席

醉卧浮生

2025-11-07 12:27:59

奥委会急疯了！2036奥运邀约无人接，中国神回复让全球集体沉默

奥委会急疯了！2036奥运邀约无人接，中国神回复让全球集体沉默

霁寒飘雪

2025-11-06 19:35:42

70岁保洁员的数学梦，被2000多万人看见

70岁保洁员的数学梦，被2000多万人看见

剥洋葱people

2025-11-07 08:37:38

世界足球先生11人候选名单出炉：巴黎4巨星+巴萨3人！哈兰德无缘

世界足球先生11人候选名单出炉：巴黎4巨星+巴萨3人！哈兰德无缘

我爱英超

2025-11-07 07:29:24

丰田进博会的“出行味道”：一场满足所有人移动出行的温情盛宴

丰田进博会的“出行味道”：一场满足所有人移动出行的温情盛宴

买车大师

2025-11-06 18:05:47

纽约市的犹太人，有 33%的人在市长竞选中把票投给马姆达尼

纽约市的犹太人，有 33%的人在市长竞选中把票投给马姆达尼

老王说正义

2025-11-07 00:03:31

杭州一小区物业退出不干了，选聘进场4年，称业主拖欠物业费1200多万元

杭州一小区物业退出不干了，选聘进场4年，称业主拖欠物业费1200多万元

大风新闻

2025-11-07 08:57:02

AI产业主平台领航智能+时代

13807文章数 66238关注度

往期回顾全部

科技要闻

75%赞成！特斯拉股东同意马斯克天价薪酬

头条要闻

男子半价买哪吒"烂尾车"：价格真香不倒闭都不会买

头条要闻

男子半价买哪吒"烂尾车"：价格真香不倒闭都不会买

体育要闻

是天才更是强者，18岁的全红婵迈过三道坎

娱乐要闻

白百何回应东京电影节争议

财经要闻

老登们的社交货币全崩了

汽车要闻

小鹏X9增程版综合续航1606公里有底气挑战赛那？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

时尚

游戏

教育

家居

旅游要闻

好city丨@长春网友，您所期盼的地质宫即将点亮！

冬季的“松弛感”，怎么穿？

理智之下，共鸣之上——揭开叙事向卡牌战斗RPG《疯狂面纱》的心灵世界

教育要闻

万万没想到！新加坡藏着这3类工作签证，90%职场人没听过

家居要闻

现代自由功能美学居所

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版