网易首页 > 网易号 > 正文 申请入驻

Kimi新模型开源即SOTA

0
分享至

来源:市场资讯

(来源:51CTO技术栈)


编辑 | 玉澄

今天,月之暗面开源模型 Kimi K2.6 重磅发布!

这一模型是其迄今为止最强的代码模型,不仅在全球开源SOTA中领先,而且击败了GPT-5.4和Claude Opus 4.6。

一个开源模型,对闭源模型几乎形成了压制性优势。

同时,Kimi K2.6 可以连续编码 12 小时,只需一个提示词就能调用300 个子 Agent 并行完成 4000 个协作步骤。

为 Kimi 团队喝彩打call!Bravo!!!


有位网友评价:“新的Kimi模型简直是头猛兽。”


还有人说“AI军备竞赛不是美中之争。这是封闭式和开放式的区别。而Closed一直在输。”


这次浓墨重彩的更新中不仅有精彩的跑分,其长时程编码和Agent集群功能也非常值得好好说道说道。话不多说,首先让我们来看基准跑分。

基准测试

在编程和Agent方面的基准测试情况是:



在这些编码和Agent的基准测试中 K2.6 几乎全部领先,另外推理和视觉也都没落下:

  • Toolathlon: 50.0

  • MathVision w/ Python: 93.2

  • Charxiv w/ python:86.7

在X上,还有人将K2.6 与 K2.5、Mythos、Opus 4.7 以及基于 K2.5 的 Cursor Composer 2 进行了全方位比较,最后得出结论:这是一个非常好非常好的模型。



长时程编程:连续编码12小时

K2.6这次耐力拉满,在长程代码任务上完成了教科书级的突破。

面对不同编程语言(如 Rust、Go、Python)和任务场景(如前端、运维、性能优化),K2.6 都轻松拿捏,相较于 K2.5 能力显著提升,具备更可靠的泛化能力。

在官方让K2.6完成的真实场景挑战中,K2.6做到的“连续编码12小时”让社区中的众多网友啧啧称赞。

这次挑战的全程经过是K2.6 在 Mac 本地做到了一个“不可能完成的任务”:下载并部署 Qwen3.5-0.8B 模型。最绝的是,它选择用极其冷门的 Zig 语言重新实现并优化推理过程。

在这次任务中它不仅连续作战 12 小时,不眠不休;还经历了 14 轮迭代、超过 4000 次工具调用。

最终, 它战果是将吞吐量从初始的 15 tokens/s 狂飙到了 193 tokens/s!最终甚至比知名工具 LM Studio 还要快 20%。这泛化能力,只能说:还有谁?


另一个挑战更加硬核,面对拥有 8 年历史的开源金融引擎 exchange-core,K2.6 像顶级架构师一样,对其进行了深度调优和硬核重构。

它盯着 CPU 和内存分配火焰图找 Bug,历经 13 小时的连续作业,修改了 4,000 多行核心代码,甚至大胆改变了线程拓扑结构。

最终在系统性能几乎触顶的情况下,硬生生把中位吞吐量提升了 185%(0.43 飙到 1.24 MT/s),峰值吞吐量更是暴涨 133%!

现在的Kimi K2.6可以说是能带飞的超级编程队友,不仅能深挖性能瓶颈、精通全栈语言,还能打“长久战”。


前端设计优于 Gemini 3

除此之外,K2.6 还能用编码驱动设计,无论是极具设计感和视觉冲击的网页首屏,还是动感十足的滚动触发效果,它都能信手拈来。


凭借进阶的多模态编程能力,它能精准地“看懂”图像和视频素材,并瞬间把它们转化成像素级的网页代码。你的灵感,它能秒变现实。

此外,月之暗面还专门创建了前端开发设计评测标准Kimi Design Bench,包括视觉输入任务、落地页构建、全栈应用开发以及通用 Web 开发这四个维度。

对比 Google AI Studio 里的 Gemini 3 模型,在这套评测中 K2.6 展示出了极其明显的断层式领先优势!


能力扩张的Agent集群

相较于K2.5能调动的100个子Agent和同时执行1500个步骤,K2.6的能力规模已扩大至最多能指挥300个子Agent和执行多达4000个协作步骤。

在K2.6 的世界里,Agent 集群不仅能动态拆解复杂任务,还能自主调度不同技能特长的 Agent 互补协作。

搜索、深研、分析、创作,每个 Agent 都有自己的“绝活”。跑一次任务,它能顺手把文档、网页、PPT 和表格全给你做出来。简直像是完整的智力团队钻到了你的电脑里。

在实测展示中,面对全球 100 个半导体标的,Agent 集群一口气设计并执行了 5 套量化策略,把麦肯锡风格的 PPT 逻辑直接“吸取”为可复用技能,最终交出了一套专业建模表格和全套汇报 PPT。估计投行分析师看了可能都想直呼“内行”。


更适配OpenClaw/Hermes

在Agent方面,除了规模化的Agent集群,K2.6的开发还考虑了与OpenClaw/Hermes地框架如何更好地协同。

K2.6 在需要跨应用、全天候待命的OpenClaw/Hermes式任务中,自主执行能力显著增强。

在Kimi的官方博客中,他们提到团队的RL基础设施团队搞了个硬核测试:让基于 K2.6 的 Agent 连续自主运行了 5 天!


从日志中可以看到,K2.6 的API调用不仅更加精准,而且更加稳定,同时“安全意识”也变更强了。


此外,在在 Kimi 内部的“魔鬼基准测试” Claw Bench 中,K2.6 比 K2.5 的综合性能提升了10%。

K2.6当Agent群群主

有意思的是,Kimi团队还探索一个Agent领域的新方向:Claw群组。

这是他们正在小范围内测的神秘功能。


Claw群组主打“海纳百川,有容乃大”,无论Agent 是跑在本地笔记本、手机还是云端服务器上,还是来自不同供应商、使用的是不同模型,都可进群。

而且,每个进群的Agent 都可以携带自己的专属工具包、独特技能和“持久化记忆”。

在这个群里,K2.6 担任的是核心协调者的角色。它能把不同任务配置给最适合的Agent,还可以在Agent突然“掉线”或者任务卡壳时,重新分配任务或生成子任务来救场。

从任务启动到验证再到最后交付,K2.6 全程盯盘,如同一个稳健的项目管理经理。

这次K2.6的发布可以说真正打破了“闭源垄断”,开启了开源前沿时代。

过去,前沿能力几乎被OpenAI、Anthropic等少数闭源巨头把控,研究者和开发者只能通过昂贵API“租用”。Kimi K2.6是首个同时在多个核心Agent/编码基准上超越闭源SOTA的开放权重模型,这标志着“开源已能匹敌甚至领先闭源”。

它直接把最先进的Agentic AI(能自主长期规划、调用工具、协同工作的AI)推向了社区,任何有GPU的人都能下载、微调、部署。这极大降低创业和创新成本、也会极大加速全行业创新速度,促进了全球科技平等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美股涨幅扩大 纳斯达克指数涨1%

美股涨幅扩大 纳斯达克指数涨1%

每日经济新闻
2026-04-22 22:12:29
沪上父母太头疼!孩子直呼:感觉抬不起头,不买就没朋友!怎么破?

沪上父母太头疼!孩子直呼:感觉抬不起头,不买就没朋友!怎么破?

新民晚报
2026-04-22 15:23:35
中国女篮前景解析:世界杯陷死亡之组 12进8死磕澳洲或欧洲劲旅

中国女篮前景解析:世界杯陷死亡之组 12进8死磕澳洲或欧洲劲旅

醉卧浮生
2026-04-22 16:55:23
近四成中国网民手机装AI,豆包月活逼近3.5亿,元宝跌出前三,Kimi、智谱为何“掉队”?|2026年一季度AI应用价值榜

近四成中国网民手机装AI,豆包月活逼近3.5亿,元宝跌出前三,Kimi、智谱为何“掉队”?|2026年一季度AI应用价值榜

每日经济新闻
2026-04-21 23:08:15
多出门,能改命

多出门,能改命

洞读君
2026-04-18 21:05:03
狐狸尾巴藏不住!离婚不到一年陈妍希本性难改,陈晓的决定是对的

狐狸尾巴藏不住!离婚不到一年陈妍希本性难改,陈晓的决定是对的

八卦王者
2026-04-22 09:39:13
山西女篮87-80力克四川女篮,赛后球员表现评分:3满分 2优秀 3及格

山西女篮87-80力克四川女篮,赛后球员表现评分:3满分 2优秀 3及格

生活新鲜市
2026-04-23 02:24:35
空军全军覆没?伊朗突亮地下底牌!美以傻眼了,就这样被骗几十亿

空军全军覆没?伊朗突亮地下底牌!美以傻眼了,就这样被骗几十亿

拾这一抹残妆月
2026-04-21 17:43:13
苹果换CEO原因:库克不够果断、搞垮了Vision Pro、汽车等项目

苹果换CEO原因:库克不够果断、搞垮了Vision Pro、汽车等项目

Switch2来了
2026-04-22 17:00:33
浙江狂揽31万人,上海净赚5万,江苏却负增长,“铁三角”塌了

浙江狂揽31万人,上海净赚5万,江苏却负增长,“铁三角”塌了

混沌录
2026-04-22 19:51:05
日媒:一旦中国男乒无缘卫冕世乒赛 期待樊振东回归的呼声必然迅速高涨

日媒:一旦中国男乒无缘卫冕世乒赛 期待樊振东回归的呼声必然迅速高涨

舟望停云
2026-04-22 19:08:04
时光服:输出专精“四蛆兄弟”,垫底半年无一加强,玩家扒出真相

时光服:输出专精“四蛆兄弟”,垫底半年无一加强,玩家扒出真相

胖哥游戏说
2026-04-22 17:31:34
为了赚钱毫无底线?割完澳洲富婆,梅根终于把算盘打到了儿女身上

为了赚钱毫无底线?割完澳洲富婆,梅根终于把算盘打到了儿女身上

白露文娱志
2026-04-22 13:30:18
新加坡外长警告:如果中美开战,霍尔木兹海峡危机只能算“彩排”

新加坡外长警告:如果中美开战,霍尔木兹海峡危机只能算“彩排”

观察者网
2026-04-22 18:59:08
长治31岁研究生跳楼,警方排除他杀,压垮她的不是生活,是催婚!

长治31岁研究生跳楼,警方排除他杀,压垮她的不是生活,是催婚!

川渝视觉
2026-04-22 16:56:59
罗塞尼尔平均每场英超取1.30分,是切尔西本世纪第二差的主帅

罗塞尼尔平均每场英超取1.30分,是切尔西本世纪第二差的主帅

懂球帝
2026-04-23 01:20:11
5种人工养殖的海鱼,几乎没有纯野生的,最后一种号称“药罐子”

5种人工养殖的海鱼,几乎没有纯野生的,最后一种号称“药罐子”

秀厨娘
2026-04-16 11:24:34
刘国梁被质疑逼走樊振东?内幕真相曝光,一句话回应彻底打脸流言

刘国梁被质疑逼走樊振东?内幕真相曝光,一句话回应彻底打脸流言

拳击时空
2026-04-22 05:58:12
塞门约:现在每一场都是决赛,我们来这里就是想赢球

塞门约:现在每一场都是决赛,我们来这里就是想赢球

懂球帝
2026-04-23 02:45:10
上海交大调查842名心梗人士,吃惊发现:患心梗的人,有5共性

上海交大调查842名心梗人士,吃惊发现:患心梗的人,有5共性

任医生聊健康
2026-04-21 14:22:19
2026-04-23 04:03:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2970383文章数 6863关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

伊朗:特朗普“又说谎了”

头条要闻

伊朗:特朗普“又说谎了”

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

蜜雪冰城泰国代言人 被扒出辱华黑历史

财经要闻

医院专家号"秒空"!警方牵出黑色产业链

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

数码
时尚
教育
公开课
军事航空

数码要闻

大疆DJI Osmo Mobile 8P体验:「单兵创作者」的终极方案

用了8年还心动,这笔钱是花得真值啊

教育要闻

3分钟学会一个雅思7分句/段(第340期)

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普宣布延长停火 伊朗表态

无障碍浏览 进入关怀版