网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Kimi新模型开源即SOTA

2026-04-21 18:13:19　来源: 新浪财经

北京举报

0

分享至

来源：市场资讯

（来源：51CTO技术栈）

编辑 | 玉澄

今天，月之暗面开源模型 Kimi K2.6 重磅发布！

这一模型是其迄今为止最强的代码模型，不仅在全球开源SOTA中领先，而且击败了GPT-5.4和Claude Opus 4.6。

一个开源模型，对闭源模型几乎形成了压制性优势。

同时，Kimi K2.6 可以连续编码 12 小时，只需一个提示词就能调用300 个子 Agent 并行完成 4000 个协作步骤。

为 Kimi 团队喝彩打call！Bravo！！！

有位网友评价：“新的Kimi模型简直是头猛兽。”

还有人说“AI军备竞赛不是美中之争。这是封闭式和开放式的区别。而Closed一直在输。”

这次浓墨重彩的更新中不仅有精彩的跑分，其长时程编码和Agent集群功能也非常值得好好说道说道。话不多说，首先让我们来看基准跑分。

基准测试

在编程和Agent方面的基准测试情况是：

在这些编码和Agent的基准测试中 K2.6 几乎全部领先，另外推理和视觉也都没落下：

Toolathlon: 50.0
MathVision w/ Python: 93.2
Charxiv w/ python：86.7

在X上，还有人将K2.6 与 K2.5、Mythos、Opus 4.7 以及基于 K2.5 的 Cursor Composer 2 进行了全方位比较，最后得出结论：这是一个非常好非常好的模型。

长时程编程：连续编码12小时

K2.6这次耐力拉满，在长程代码任务上完成了教科书级的突破。

面对不同编程语言（如 Rust、Go、Python）和任务场景（如前端、运维、性能优化），K2.6 都轻松拿捏，相较于 K2.5 能力显著提升，具备更可靠的泛化能力。

在官方让K2.6完成的真实场景挑战中，K2.6做到的“连续编码12小时”让社区中的众多网友啧啧称赞。

这次挑战的全程经过是K2.6 在 Mac 本地做到了一个“不可能完成的任务”：下载并部署 Qwen3.5-0.8B 模型。最绝的是，它选择用极其冷门的 Zig 语言重新实现并优化推理过程。

在这次任务中它不仅连续作战 12 小时，不眠不休；还经历了 14 轮迭代、超过 4000 次工具调用。

最终，它战果是将吞吐量从初始的 15 tokens/s 狂飙到了 193 tokens/s！最终甚至比知名工具 LM Studio 还要快 20%。这泛化能力，只能说：还有谁？

另一个挑战更加硬核，面对拥有 8 年历史的开源金融引擎 exchange-core，K2.6 像顶级架构师一样，对其进行了深度调优和硬核重构。

它盯着 CPU 和内存分配火焰图找 Bug，历经 13 小时的连续作业，修改了 4,000 多行核心代码，甚至大胆改变了线程拓扑结构。

最终在系统性能几乎触顶的情况下，硬生生把中位吞吐量提升了 185%（0.43 飙到 1.24 MT/s），峰值吞吐量更是暴涨 133%！

现在的Kimi K2.6可以说是能带飞的超级编程队友，不仅能深挖性能瓶颈、精通全栈语言，还能打“长久战”。

前端设计优于 Gemini 3

除此之外，K2.6 还能用编码驱动设计，无论是极具设计感和视觉冲击的网页首屏，还是动感十足的滚动触发效果，它都能信手拈来。

凭借进阶的多模态编程能力，它能精准地“看懂”图像和视频素材，并瞬间把它们转化成像素级的网页代码。你的灵感，它能秒变现实。

此外，月之暗面还专门创建了前端开发设计评测标准Kimi Design Bench，包括视觉输入任务、落地页构建、全栈应用开发以及通用 Web 开发这四个维度。

对比 Google AI Studio 里的 Gemini 3 模型，在这套评测中 K2.6 展示出了极其明显的断层式领先优势！

能力扩张的Agent集群

相较于K2.5能调动的100个子Agent和同时执行1500个步骤，K2.6的能力规模已扩大至最多能指挥300个子Agent和执行多达4000个协作步骤。

在K2.6 的世界里，Agent 集群不仅能动态拆解复杂任务，还能自主调度不同技能特长的 Agent 互补协作。

搜索、深研、分析、创作，每个 Agent 都有自己的“绝活”。跑一次任务，它能顺手把文档、网页、PPT 和表格全给你做出来。简直像是完整的智力团队钻到了你的电脑里。

在实测展示中，面对全球 100 个半导体标的，Agent 集群一口气设计并执行了 5 套量化策略，把麦肯锡风格的 PPT 逻辑直接“吸取”为可复用技能，最终交出了一套专业建模表格和全套汇报 PPT。估计投行分析师看了可能都想直呼“内行”。

更适配OpenClaw/Hermes

在Agent方面，除了规模化的Agent集群，K2.6的开发还考虑了与OpenClaw/Hermes地框架如何更好地协同。

K2.6 在需要跨应用、全天候待命的OpenClaw/Hermes式任务中，自主执行能力显著增强。

在Kimi的官方博客中，他们提到团队的RL基础设施团队搞了个硬核测试：让基于 K2.6 的 Agent 连续自主运行了 5 天！

从日志中可以看到，K2.6 的API调用不仅更加精准，而且更加稳定，同时“安全意识”也变更强了。

此外，在在 Kimi 内部的“魔鬼基准测试” Claw Bench 中，K2.6 比 K2.5 的综合性能提升了10%。

K2.6当Agent群群主

有意思的是，Kimi团队还探索一个Agent领域的新方向：Claw群组。

这是他们正在小范围内测的神秘功能。

Claw群组主打“海纳百川，有容乃大”，无论Agent 是跑在本地笔记本、手机还是云端服务器上，还是来自不同供应商、使用的是不同模型，都可进群。

而且，每个进群的Agent 都可以携带自己的专属工具包、独特技能和“持久化记忆”。

在这个群里，K2.6 担任的是核心协调者的角色。它能把不同任务配置给最适合的Agent，还可以在Agent突然“掉线”或者任务卡壳时，重新分配任务或生成子任务来救场。

从任务启动到验证再到最后交付，K2.6 全程盯盘，如同一个稳健的项目管理经理。

这次K2.6的发布可以说真正打破了“闭源垄断”，开启了开源前沿时代。

过去，前沿能力几乎被OpenAI、Anthropic等少数闭源巨头把控，研究者和开发者只能通过昂贵API“租用”。Kimi K2.6是首个同时在多个核心Agent/编码基准上超越闭源SOTA的开放权重模型，这标志着“开源已能匹敌甚至领先闭源”。

它直接把最先进的Agentic AI（能自主长期规划、调用工具、协同工作的AI）推向了社区，任何有GPU的人都能下载、微调、部署。这极大降低创业和创新成本、也会极大加速全行业创新速度，促进了全球科技平等。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

大模型公司不搞浏览器搞Agent，实测找到原因了

量子位 2025-10-31 16:54:34
3 跟贴 3
Claude Code 源码泄露了，有人用Python复刻了一个极简版

机器之心Pro 2026-04-02 11:30:10
4 跟贴 4

匿名大象模型被蚂蚁认领！推理速度冲到第一，还能生成百万小说

智东西 2026-04-22 15:14:37
21 跟贴 21

编程已死，键盘长草！Claude Code之父对谈Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
74 跟贴 74
DeepSeek突然更新！

智东西 2026-04-22 18:26:16
75 跟贴 75

腾讯云全栈开源Cube沙箱！支持零代码迁移Agent环境

智东西 2026-04-22 11:30:15
0 跟贴 0

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

机器之心Pro 2026-04-22 11:01:55
0 跟贴 0
13小时编码、5天自主运行！Kimi K2.6开源“硬刚”闭源巨头，长程战力能否撕开AGI工业化新赛道？

每日经济新闻 2026-04-22 14:51:33
0 跟贴 0

单Agent时代结束，AI们开始组团上班

量子位 2026-04-22 09:30:49
0 跟贴 0
中国创造一门新编程语言的黄金时代来了？

虎嗅APP 2025-12-23 03:54:05
0 跟贴 0
K2.6 是杨植麟的第一场路演

钛媒体APP 2026-04-22 18:47:47
0 跟贴 0
神秘模型「大象」：仅100B拿下SOTA，Token效率超高！

量子位 2026-04-22 18:26:33
0 跟贴 0
大爷驾驶MPV强穿挂壁公路，出来时全车被刮花

荔枝新闻 2026-04-22 05:14:55
201 跟贴 201
首篇自进化智能体系统技术报告:Token成本直降近10倍,省钱又高效

机器之心Pro 2026-04-22 10:26:17
0 跟贴 0
真正的龙虾平权，是零门槛的全民生产力

虎嗅APP 2026-04-22 20:37:14
0 跟贴 0
格力回应铝线电机争议：相关工程机已停产，海信称靠多三两铜多500元时代已终结

红星资本局 2026-04-21 20:40:16
17349 跟贴 17349
AI智能体不是越多越强：信息冗余构成了LLM Agent Scaling的瓶颈

机器之心Pro 2026-02-27 14:45:03
0 跟贴 0
Cursor已死，Cursor重生 | AI产业观察

钛媒体APP 2026-04-22 17:11:08
1 跟贴 1
中国历史为何总是北方统一南方？其底层逻辑是什么？

为了更好 2026-04-19 14:49:59
9 跟贴 9
“90后”的他半月内两上《新闻联播》，现在又交新作业

贝壳财经 2026-04-22 15:16:18
0 跟贴 0
V8发动机模型

制造科技 2026-04-19 17:41:19
0 跟贴 0
"取消午休改16点下班"火了上海人一针见血

鲁中晨报 2026-04-22 14:28:23
352 跟贴 352
“荣格揭秘：冷淡如何引发恐惧，权力逻辑揭示人性！”

星云母体在分娩n 2026-04-19 06:49:10
1 跟贴 1
Anthropic逼急谷歌！布林亲自下令组突击队，Gemini编程要追上Claude

新智元 2026-04-21 13:30:39
0 跟贴 0
单Agent时代正式结束：一个干不过，就上300个-3

机器之心Pro 2026-04-22 00:08:00
0 跟贴 0
谢锋:中国大蒜做梦也没想到会被美列为"国家安全威胁"

极目新闻 2026-04-22 08:45:19
367 跟贴 367
MiniMax不需要讨好开源

钛媒体APP 2026-04-21 19:23:11
0 跟贴 0
它喊着防止追尾，却又有意急刹，设计这个逻辑的公司真无敌了！

旅行指南者 2026-04-20 09:47:38
0 跟贴 0
支持远程操控和通用GUI操作3

机器之心Pro 2026-03-02 13:36:13
0 跟贴 0
今年最强嘴替，我自己搓出来的

新周刊 2026-04-21 22:11:29
54 跟贴 54
宁马线开通场面太火爆，有乘客等三趟车没挤上

现代快报 2026-04-22 14:20:23
306 跟贴 306
动物专家农田设局：野鹿模型引猛兽来袭大揭秘

烟寒若雨s 2026-04-21 03:56:14
1 跟贴 1
论发型的重要性！女生分享6个不挑“建模”的发型

奇妙观探 2026-04-19 15:19:36
0 跟贴 0
英特尔首提智能体PC概念数字员工元年“龙虾”“爱马仕”接连爆火软硬件厂商紧抓机遇

财联社 2026-04-22 21:13:39
0 跟贴 0
中国军舰大片震撼上新：雷达一开周围都是透明的

环球网资讯 2026-04-22 09:00:22
2213 跟贴 2213
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
专家号刚放出就瞬间"秒空" 上海三甲医院紧急报警

大风新闻 2026-04-22 15:12:13
0 跟贴 0
快充挑桩、续航虚、迭代快？现在买电车得选900V ？ | 吴佩频道

吴佩频道 2026-04-20 18:06:22
5 跟贴 5
从人工到机器，插秧逻辑已经变了！

秘密大爆炸 2026-04-22 10:16:34
1 跟贴 1
定了！广州一年级七年级新生不分重点班

南方都市报 2026-04-22 16:51:55
714 跟贴 714

美股涨幅扩大纳斯达克指数涨1%

美股涨幅扩大纳斯达克指数涨1%

每日经济新闻

2026-04-22 22:12:29

沪上父母太头疼！孩子直呼：感觉抬不起头，不买就没朋友！怎么破？

沪上父母太头疼！孩子直呼：感觉抬不起头，不买就没朋友！怎么破？

新民晚报

2026-04-22 15:23:35

中国女篮前景解析：世界杯陷死亡之组 12进8死磕澳洲或欧洲劲旅

中国女篮前景解析：世界杯陷死亡之组 12进8死磕澳洲或欧洲劲旅

醉卧浮生

2026-04-22 16:55:23

近四成中国网民手机装AI，豆包月活逼近3.5亿，元宝跌出前三，Kimi、智谱为何“掉队”？｜2026年一季度AI应用价值榜

近四成中国网民手机装AI，豆包月活逼近3.5亿，元宝跌出前三，Kimi、智谱为何“掉队”？｜2026年一季度AI应用价值榜

每日经济新闻

2026-04-21 23:08:15

多出门，能改命

洞读君

2026-04-18 21:05:03

狐狸尾巴藏不住！离婚不到一年陈妍希本性难改，陈晓的决定是对的

狐狸尾巴藏不住！离婚不到一年陈妍希本性难改，陈晓的决定是对的

八卦王者

2026-04-22 09:39:13

山西女篮87-80力克四川女篮，赛后球员表现评分：3满分 2优秀 3及格

山西女篮87-80力克四川女篮，赛后球员表现评分：3满分 2优秀 3及格

生活新鲜市

2026-04-23 02:24:35

空军全军覆没？伊朗突亮地下底牌！美以傻眼了，就这样被骗几十亿

空军全军覆没？伊朗突亮地下底牌！美以傻眼了，就这样被骗几十亿

拾这一抹残妆月

2026-04-21 17:43:13

苹果换CEO原因：库克不够果断、搞垮了Vision Pro、汽车等项目

苹果换CEO原因：库克不够果断、搞垮了Vision Pro、汽车等项目

Switch2来了

2026-04-22 17:00:33

浙江狂揽31万人，上海净赚5万，江苏却负增长，“铁三角”塌了

浙江狂揽31万人，上海净赚5万，江苏却负增长，“铁三角”塌了

混沌录

2026-04-22 19:51:05

日媒：一旦中国男乒无缘卫冕世乒赛期待樊振东回归的呼声必然迅速高涨

日媒：一旦中国男乒无缘卫冕世乒赛期待樊振东回归的呼声必然迅速高涨

舟望停云

2026-04-22 19:08:04

时光服：输出专精“四蛆兄弟”，垫底半年无一加强，玩家扒出真相

时光服：输出专精“四蛆兄弟”，垫底半年无一加强，玩家扒出真相

胖哥游戏说

2026-04-22 17:31:34

为了赚钱毫无底线？割完澳洲富婆，梅根终于把算盘打到了儿女身上

为了赚钱毫无底线？割完澳洲富婆，梅根终于把算盘打到了儿女身上

白露文娱志

2026-04-22 13:30:18

新加坡外长警告：如果中美开战，霍尔木兹海峡危机只能算“彩排”

新加坡外长警告：如果中美开战，霍尔木兹海峡危机只能算“彩排”

观察者网

2026-04-22 18:59:08

长治31岁研究生跳楼，警方排除他杀，压垮她的不是生活，是催婚！

长治31岁研究生跳楼，警方排除他杀，压垮她的不是生活，是催婚！

川渝视觉

2026-04-22 16:56:59

罗塞尼尔平均每场英超取1.30分，是切尔西本世纪第二差的主帅

罗塞尼尔平均每场英超取1.30分，是切尔西本世纪第二差的主帅

懂球帝

2026-04-23 01:20:11

5种人工养殖的海鱼，几乎没有纯野生的，最后一种号称“药罐子”

5种人工养殖的海鱼，几乎没有纯野生的，最后一种号称“药罐子”

秀厨娘

2026-04-16 11:24:34

刘国梁被质疑逼走樊振东？内幕真相曝光，一句话回应彻底打脸流言

刘国梁被质疑逼走樊振东？内幕真相曝光，一句话回应彻底打脸流言

拳击时空

2026-04-22 05:58:12

塞门约：现在每一场都是决赛，我们来这里就是想赢球

塞门约：现在每一场都是决赛，我们来这里就是想赢球

懂球帝

2026-04-23 02:45:10

上海交大调查842名心梗人士，吃惊发现：患心梗的人，有5共性

上海交大调查842名心梗人士，吃惊发现：患心梗的人，有5共性

任医生聊健康

2026-04-21 14:22:19

新浪财经是一家创建于1999年8月的财经平台

2970383文章数 6863关注度

往期回顾全部

科技要闻

对话梅涛：没有视频底座，具身智能走不远

头条要闻

伊朗：特朗普“又说谎了”

头条要闻

伊朗：特朗普“又说谎了”

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

蜜雪冰城泰国代言人被扒出辱华黑历史

财经要闻

医院专家号"秒空"！警方牵出黑色产业链

汽车要闻

纯电续航301km+激光雷达宋Pro DM-i飞驰版9.99万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

时尚

教育

公开课

军事航空

数码要闻

大疆DJI Osmo Mobile 8P体验：「单兵创作者」的终极方案

用了8年还心动，这笔钱是花得真值啊

教育要闻

3分钟学会一个雅思7分句/段（第340期）

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

特朗普宣布延长停火伊朗表态

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版