网易首页 > 网易号 > 正文 申请入驻

新版 Kimi 突然发布!首个万亿开源模型不是 R2 是 K2,OpenAI 临时推迟开源 | 附实测体验

0
分享至

  不到半年,国产开源大模型的牌局已经翻了一轮。

  年初还是「AI 六小虎」齐头并进,如今却只剩寥寥几家还能站上牌桌。DeepSeek 一招「开源即发布」,凭借高性能和极致性价比迅速占据用户的心智,也顺势拿下了国产大模型开源叙事的话语权。

  此后,六小虎中不少公司接连遭遇融资受阻、产品停更、团队重组,甚至逐渐淡出公众视野。与此同时,当 DeepSeek 把开源模型卷出了实用门槛,也让其他玩家不得不加速入局。

  

  今天,轮到 Kimi 接棒出手,正式发布并开源 Kimi K2 模型。

  Kimi-K2-Base:未经过指令微调的基础预训练模型,适合科研与自定义场景;

  Kimi-K2-Instruct:通用指令微调版本(非思考模型),擅长大多数问答与 Agent 任务

  官方介绍称,Kimi K2 基于 MoE 架构打造,参数总规模达 1T,激活参数 32B,在代码生成、Agent 调度、数学推理等任务中具备竞争力。

  在 SWE Bench Verified、Tau2、AceBench 等基准测试中,K2 均取得开源模型中的 SOTA 成绩。其中,自主编程(Agentic Coding)、工具调用(Tool Use)和数学推理(Math & Reasoning)三大能力维度都有不错的表现。

  

  值得注意的是,上述评测中的所有模型均为非思考模型。在 Tau2-Bench 测试中,平均值按照任务加权计算。在 Swe-Bench 多语言测试中,仅评估了 Claude 4 Sonnet,因为 Claude 4 Opus 的成本过高。

  实际体验下来,写作能力的提升是这次版本升级中比较明显的一环。

  比如面对「描写一个夏天的午后,一碗西瓜、一个电风扇、一张旧沙发。要求不出现『热』字,也不直接写『我很舒服』,要让人读出闷热与松弛」时,K2 给出的文本既有画面感,又不失情绪的克制表达。语言克制、节奏松弛,甚至带有文学感。

  

  再比如这个相对复杂的案例:「写一篇看似是『在便利店偶遇前任』的平淡故事,但要隐藏一个副线:主角其实身患重病,正在做最后的生活整理。请控制情绪层次,不能直说,结尾只用一句隐喻点明真相。」

  K2 完全没有写出生病或死亡字眼,而是通过道具、行为、细节缓缓推进情绪张力。故事结构完整,结尾一瓶未开的汽水安静地躺在垃圾桶顶端,成为情绪隐线的收束。令我惊喜的是,甚至还补上了人物小传。

  

  上下滑动查看更多内容

  不过,隐喻密度偏高且引用并不合理,却也犯了和 DeepSeek 同样的毛病,尤其少量句式略显设计感过重,仍有提升的空间。

  在 Agent/Coding 任务上,Kimi K2 宣称支持 ToolCall 架构,可无缝接入 Owl、Cline、RooCode 等主流框架,具备自动指令拆解和任务链构建能力。目前 Agent 能力已开放 API 使用。

  在编程类任务上,K2 虽然整体完成度高,但瑕疵也比较明显,比如还是那个经典的天气卡片案例,Kimi 能完成基础的构建,但 UI 粗糙、动效生硬,在视觉体验上逊色不少。

  

  再拉高难度,我要求生成一个按周划分的前端学习计划,输出为 HTML 页面,支持模块展开与收起交互。这一任务对结构组织、内容节奏和 JS 逻辑的要求更高。K2 给出的结果中规中矩。

  

  我输入任务:「用 three.js 和 cannon-es.js 实现烟囱倒塌爆破效果」。K2 尝试联网查找资料并组合代码,整体思路在线,执行力尚可,但视觉效果依然较弱。

  

  当然,也有一些比较不错的案例。比如海外博主 @chetaslua 使用提示词「make a website that shows 3D Simulation of Asteroids hitting Earth in html」,产出效果更为成熟,得到的画面如下:

  

  由于 K2 兼容 OpenAI 和 Anthropic 的 API 协议,网友 @Khazzz1c 也使用 K2 在 Claude Code 上开发了一个打字游戏,并评价这个模型 「cracked AF」,这是俚语,意思是「强到离谱、好得不正常」。

  

  在 Kimi K2 背后,是月之暗面 Kimi 团队自研的一整套技术路径。

  技术博客显示,他们在训练万亿参数大模型时,摒弃传统的 Adam 优化器,改用自研的 Muon 体系,并引入 MuonClip 机制,有效缓解 attention logits 过大的问题,从而确保模型在 15.5T token 训练过程中无一次 loss spike,训练稳定性和 token 使用效率双双提升。

  同时,团队还构建了一条可大规模生成多轮工具使用场景的数据合成 pipeline,覆盖数百领域、数千种工具,并且,训练样本则由 LLM 自动筛选评估,确保数据质量。

  

  在训练策略上,Kimi K2 进一步强化了通用强化学习能力,不仅在代码、数学等可验证任务上进行强化学习,还通过「自我评价」机制解决奖励稀缺问题,显著增强了模型的泛化能力。

  开源层面,Kimi K2 的 Instruct 模型及 FP8 权重文件已上传至 Hugging Face,(传送门:https://huggingface.co/moonshotai/Kimi-K2-Instruct) 根据官方部署说明,Kimi K2 的 FP8 版本可在主流 H200 等平台上运行,支持最长 128K 上下文,最低部署要求为 16 张 GPU 的集群环境。

  目前包括 vLLM、SGLang、ktransformers 在内的主流推理引擎均已支持该模型,部署路径已被打通,但对普通开发者而言,算力的门槛仍不容忽视。

  商业化方面,Kimi K2 的 API 服务也已正式上线,提供最长 128K 上下文支持,定价为每百万输入 tokens 收费 4 元、输出 tokens 收费 16 元。

  

  而有趣的是,与 Kimi 的大方开源相比,OpenAI CEO Sam Altman 刚刚宣布推迟原定下周发布的开放权重模型,理由是仍需补充安全测试与高风险区域审查,且未确定延期时长。

  这么一对比,Kimi 还是敞亮太多了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深度 | 中东硝烟弥漫,东北亚和北极同期上演两场军演,世界越来越危险?

深度 | 中东硝烟弥漫,东北亚和北极同期上演两场军演,世界越来越危险?

上观新闻
2026-03-09 20:52:41
都在劝你养龙虾,却不说有多贵:有人月花两万直呼不如雇大学生…

都在劝你养龙虾,却不说有多贵:有人月花两万直呼不如雇大学生…

柴狗夫斯基
2026-03-09 08:24:14
今日油价突变:国内油价大幅上调695元/吨!3月10日柴油汽油价格

今日油价突变:国内油价大幅上调695元/吨!3月10日柴油汽油价格

有料财经
2026-03-10 00:26:12
特朗普家族再出手!儿子们力挺新无人机公司直指五角大楼百亿订单

特朗普家族再出手!儿子们力挺新无人机公司直指五角大楼百亿订单

Nee看
2026-03-09 23:49:09
哈梅内伊以身入局,带走大批叛徒,为儿子铺路?美以噩梦才刚开始

哈梅内伊以身入局,带走大批叛徒,为儿子铺路?美以噩梦才刚开始

卷史
2026-03-10 04:06:07
新加坡急了,外长几乎是拍着桌子,让中国“尊重”马六甲的地位。

新加坡急了,外长几乎是拍着桌子,让中国“尊重”马六甲的地位。

南权先生
2026-01-26 15:41:26
15胜1负,14胜3负,都拦不住了!本赛季最有冠军相的两支球队诞生

15胜1负,14胜3负,都拦不住了!本赛季最有冠军相的两支球队诞生

老梁体育漫谈
2026-03-10 00:18:54
港口遭巴拿马政府非法接管,长和索赔20亿美元

港口遭巴拿马政府非法接管,长和索赔20亿美元

环球网资讯
2026-03-09 06:50:10
前中天主播吴中纯淋巴癌猝逝!蔡正元:非常不舍

前中天主播吴中纯淋巴癌猝逝!蔡正元:非常不舍

可乐谈情感
2026-03-10 01:11:53
今年清明上坟牢记:5人不去,3个时间要避开,平安才是最大的孝心

今年清明上坟牢记:5人不去,3个时间要避开,平安才是最大的孝心

周哥一影视
2026-03-10 00:44:00
这些“不吉祥花”,养在家里“花旺人不旺”,别再把它们当作宝了

这些“不吉祥花”,养在家里“花旺人不旺”,别再把它们当作宝了

三农老历
2026-02-22 19:23:10
裴珠泫:漂亮又 “大”,像个圆滚滚的弹力球在健身房蹦跶!

裴珠泫:漂亮又 “大”,像个圆滚滚的弹力球在健身房蹦跶!

科学发掘
2026-03-09 15:29:54
毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

南书房
2025-09-28 23:01:03
重庆谈判时,蒋介石提出让毛泽东当省长,毛主席问:去哪个省?

重庆谈判时,蒋介石提出让毛泽东当省长,毛主席问:去哪个省?

老范谈史
2025-11-28 10:34:33
与名模离婚净身出户5年后,40岁的前男篮国手孙悦,今已判若两人

与名模离婚净身出户5年后,40岁的前男篮国手孙悦,今已判若两人

小熊侃史
2026-02-16 07:10:12
台湾即将有望统一!五大信号正在释放:武力统一或将进入倒计时?

台湾即将有望统一!五大信号正在释放:武力统一或将进入倒计时?

南宗历史
2026-03-08 22:36:31
在线吃瓜,北京北控球员廖三宁被爆出轨

在线吃瓜,北京北控球员廖三宁被爆出轨

郭夷包工头
2026-03-09 20:59:43
羽坛排名大动荡,男单第一易主,王祉怡落后一万分,大黑马创新高

羽坛排名大动荡,男单第一易主,王祉怡落后一万分,大黑马创新高

大嘴说台球
2026-03-09 23:36:00
99.3分碾压全场!乌克兰无人机打爆美军招标,西方军工颜面扫地

99.3分碾压全场!乌克兰无人机打爆美军招标,西方军工颜面扫地

老马拉车莫少装
2026-03-09 08:20:06
美股科技股,开盘集体下跌

美股科技股,开盘集体下跌

第一财经资讯
2026-03-09 22:23:10
2026-03-10 07:31:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6166文章数 26793关注度
往期回顾 全部

科技要闻

OpenClaw更新,"养虾"再也不会犯健忘症了

头条要闻

媒体:美军用极残酷方式击沉伊朗军舰 令世界不寒而栗

头条要闻

媒体:美军用极残酷方式击沉伊朗军舰 令世界不寒而栗

体育要闻

36连胜终结!大魔王也是可以战胜的

娱乐要闻

薛之谦老婆怀二胎,现身产检心情愉快

财经要闻

油价破100美元年内涨80% 全球市场剧震

汽车要闻

对标奔驰小号G级 路虎小型卫士最新消息曝光

态度原创

艺术
数码
健康
手机
公开课

艺术要闻

扎哈·哈迪德事务所未来或更名

数码要闻

苹果iPhone17e体验:加量不加价,值不值得入手呢?

转头就晕的耳石症,能开车上班吗?

手机要闻

折叠屏iPhone新的设计图:内屏比例接近iPad,或命名iPhone Ultra

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版