网易首页 > 网易号 > 正文 申请入驻

K2证明忽视MoonShot将是巨大的错误

0
分享至

这一轮的AI“六小虎”,仍有四家在场上,都渴望一场DeepSeek式的胜利。最近一家证明自己的是MoonShot(月之暗面),它同样可以震惊一下硅谷。

周末,硅谷的开源社区、云厂商与AI开发者都在讨论MoonShot最新开源大模型K2。它的总参数规模达到了万亿级别(1T),是目前开源模型中最大的,激活参数320亿。

尽管理论上Meta的Llama4-Behemoth更大,为2万亿,但它是“期货”,也许不会再发布了;而DeepSeek的V3则是6710亿参数。OpenAI原本也有一款开源模型计划发布,但恰好在K2发布后,奥特曼再次推迟了。也许将两者联系起来是牵强的。但是,K2再次证明中国正在成为中主导开放创新的关键力量,却是不争的事实。

K2的表现相当出色,尤其是在智能体相关任务领域。它在基准测试SWE Bench Verified(编程)、Tau2(智能体)中仅次于Claude 4 Opus,在AceBench(工具调用)中仅次于GPT-4.1。它也相当便宜,官方API服务与DeepSeek的R1相当,但最大支持上下文长度(128K)要高于R1(64K)。HuggingFace联合创始人Thomas Wolf认为,K2足以证明开源模型仍在继续挑战最新的闭源权重模型。

更直接且更有力的证据是,硅谷喜欢用它。发布后,它很快成为了HuggingFace上热度(trending)第一的开源模型。目前,新兴云厂商NovitaAI与Parasail已经将其托管上线。Perplexity首席执行官Aravind Srinivas在内部测试后,也决定尽快对其展开后训练;上一款被Perplexity纳入AI搜索的中国模型是DeepSeek的R1。

从V3/R1到M1再到K2,中国正在主导开源模型的技术趋势,而且它面向全球市场,包括硅谷的AI开发者们。Grok4发布了,但马斯克承诺的Grok3还未开源;OpenAI再次延期了它的开源模型;Meta的。远低于西方同行的低训练成本,让DeepSeek震惊了整个硅谷;此后,MiniMax(稀宇科技)M1与MoonShot的K2,再次证明了中国初创企业高效的开源创新。

中国本土AI卷得厉害。MiniMax(稀宇科技)与MoonShot(月之暗面)看上去一直都有点相互“不对付”。自去年底DeepSeek激活了开源模型的竞争后,年初,MiniMax开源了MiniMax-01,MoonShot发布了K1.5;上个月,MiniMaxM1与视频生成模型Hailuo02,MoonShot则先后拿出了编程模型Kimi-Dev-72B、深度研究智能体Kimi-Researcher,以及昨晚的K2。

但它们效率更高。无论是DeepSeek还是MiniMax或者MoonShot,它们的估值都远低于硅谷同行。其中,MoonShot已经披露的融资总额,约为15亿美元,不够OpenAI烧2个月,只够扎克伯格挖10来个人;xAI都有点熬不住,马斯克不得不让旗下另一家巨头SpaceX向其注资20亿美元。

这一次,K2震惊硅谷的后劲,或许将比R1来得更为猛烈。MoonShot比DeepSeek更早推动“执行”以更低的成本落地,冲击的不仅是AI应用的消费市场,还包括企业市场。由于兼容OpenAI和Anthropic的API格式,K2或将凭借其更高性价比,赢得硅谷AI应用开发者市场。

震惊硅谷的背后,是这一轮大模型浪潮中,中国AI初创企业普遍具备了底层创新能力。没有这个能力的团队,已经陆续掉队。

硅谷很多人都盼着K2的技术报告,看看MoonShot到底施放了什么魔法,让一切变得如此高效。而且,它的参数规模如此庞大,预训练数据也达到了15.5万亿token,理应存在不少技术障碍。Meta就处理不好分块注意力与专家选择路由等MOE架构的问题。

硅谷的AI研究者注意到,相比R1,K2的架构采用了更少的注意力头,更多的专家。前者可以提高长上下文效率,后者可以提升每个token的处理效率。这给MoonShot此前自研的MuonClip优化器,带来一点“扩展”上的麻烦。后者是该团队年初提出的,它在收敛速度和最终效果上都有明显的优势,计算效率是当前广泛使用的AdamW优化器的2倍。

但是MuonClip优化器论文作者之一的苏剑林,一开始也很清楚如果对优化器“大动干戈”并不容易。这次K2团队就遇到了MaxLogit爆炸问题,即注意力得分有时会变得非常极端,造成梯度不稳定,最终训练崩溃。小模型没有这个问题,传统AdamW优化器也没有那么明显。

为了配合改变,MoonShot在MuonClip优化器中融入了自研的QK-Clip技术。苏剑林将其类比为“抗生素”,也许并不是解决问题最精妙的方法,但往往是解决问题最直接有效的方法之一。

无论是MuonClip还是QK-Clip,都是MoonShot重视底层创新的产物之一。年初,当DeepSeek用NSA(原生稀疏注意力)架构挑战传统Transformer时,同一天,MoonShot也提出了MoBA(混合块注意力)架构。此前,英伟达推出Dynamo,致敬了DeepSeek不少开源技术,惹得Semianalysis感叹道这本质上是DeepSeek技术创新的民主化。事实上,当时Dynamo也致敬了MoonShot开源的术MoonCake。

很长一段时间,MoonShot的注意力被DeepSeek夺走了。后者至今似乎无意做应用和产品,更具理想主义也更具话题性。MoonShot目前仍然存在明确的商业追求。同期的智谱与MiniMax已经计划上市,MoonShot还会远吗?

多智能体协作,或许是它赢得商业市场的关键。可以盘点一下MoonShot的资产:形式推理模式Kimina-Prover-72B(数理证明),编程模型Kimi-Dev-72B(开发工具),深度研究智能体Kimi-Researcher,多模态推理模型K1.5,视觉语言模型Kimi-VL。它们最终也许都会融入更擅长调度工具的K2中。MoonShot在技术博客中介绍称,K2的智能体能力,得益于大量的Agentic合成数据和通用的强化学习手段。

MoonShot与DeepSeek似乎还存在另一处不那么重要也不那么技术的相似点。它们的团队都相当文艺。DeepSeek宣布下场追逐AGI时,就引用了新浪潮电影人特吕弗(Truffaut)的话;R1的回答很多时候也文绉绉的。月之暗面的公司名,就来源于摇滚歌手平克·弗洛伊德(Pink Floyd)的专辑。这次,MoonShot显然对K2相当满意,成员在X上活跃起来,他们自称团队是一群热爱摇滚与电影人塔伦蒂诺(Tarantino)与库布里克(Kubrick)的科学家相互吸引组成的,“它的气味刚刚好。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万众瞩目!凌晨0点欧冠24亿决赛:无论谁夺冠 都将创造历史

万众瞩目!凌晨0点欧冠24亿决赛:无论谁夺冠 都将创造历史

叶青足球世界
2026-05-30 07:58:16
永别了,“千面如来”刘洵,他真的是一位好演员!

永别了,“千面如来”刘洵,他真的是一位好演员!

新民周刊
2026-05-30 14:28:40
时隔10年,中国外长访问加拿大!专家:时间点非常精妙,释放了这些信号

时隔10年,中国外长访问加拿大!专家:时间点非常精妙,释放了这些信号

南方都市报
2026-05-30 18:08:54
俄乌战争,如果俄罗斯最终赢了,你我在有生之年很可能会亲历战争

俄乌战争,如果俄罗斯最终赢了,你我在有生之年很可能会亲历战争

混沌录
2026-05-29 23:26:12
二孩非亲生后续!堂哥恶行曝光,律师有新证据,判决结果让人意外

二孩非亲生后续!堂哥恶行曝光,律师有新证据,判决结果让人意外

奇思妙想草叶君
2026-05-29 23:42:57
2-2,申花5月4负3平未尝胜绩 朱辰杰送点后又破门 西海岸11轮不败

2-2,申花5月4负3平未尝胜绩 朱辰杰送点后又破门 西海岸11轮不败

替补席看球
2026-05-30 20:04:30
炸出蘑菇云,贝索斯130亿美金火箭爆炸,马斯克彻底垄断美国航天

炸出蘑菇云,贝索斯130亿美金火箭爆炸,马斯克彻底垄断美国航天

李将平老师
2026-05-30 13:13:22
集采百元一盒药,药店竟卖3960元,为何卖出如此高价?记者调查

集采百元一盒药,药店竟卖3960元,为何卖出如此高价?记者调查

新京报
2026-05-30 11:58:09
连续三届预测世界杯冠军都命中,德经济学家今年再出手!自嘲“上错花轿嫁对郎”

连续三届预测世界杯冠军都命中,德经济学家今年再出手!自嘲“上错花轿嫁对郎”

红星新闻
2026-05-30 16:59:17
释永信被判24年,为啥不是无期?盘点他的钱色人生

释永信被判24年,为啥不是无期?盘点他的钱色人生

大江看潮
2026-05-30 10:48:52
河北37岁富豪身亡!赛车侧翻浅水沟,被活活憋死,家属控诉主办方

河北37岁富豪身亡!赛车侧翻浅水沟,被活活憋死,家属控诉主办方

奇思妙想草叶君
2026-05-30 14:56:47
网传消息被证实!广东知名高校,有重大调整!深圳校区官网有变

网传消息被证实!广东知名高校,有重大调整!深圳校区官网有变

南方都市报
2026-05-30 17:54:31
郝军辉任中央组织部副部长

郝军辉任中央组织部副部长

中国经济网
2026-05-30 14:23:25
从36跌到3.5,跌了整整8年,好不容易等到一个涨停,结果炸板了!

从36跌到3.5,跌了整整8年,好不容易等到一个涨停,结果炸板了!

丁丁鲤史纪
2026-05-30 17:08:34
炸穿天花板!华为刚甩出“新定律”,2天后3nm顶尖团队连夜回国

炸穿天花板!华为刚甩出“新定律”,2天后3nm顶尖团队连夜回国

亿通电子游戏
2026-05-30 14:59:59
无缘三连冠!张雪机车遭遇挫折:德比斯第8名完赛 卡里卡苏洛退赛

无缘三连冠!张雪机车遭遇挫折:德比斯第8名完赛 卡里卡苏洛退赛

风过乡
2026-05-30 19:04:50
武契奇公开证实,中国超音速导弹摧毁了俄制S-400防空导弹系统!

武契奇公开证实,中国超音速导弹摧毁了俄制S-400防空导弹系统!

阿龙聊军事
2026-05-30 16:58:30
湖北省召开全省领导干部会议

湖北省召开全省领导干部会议

新京报
2026-05-30 13:13:05
44岁央视主持人杨帆患癌两月,已开启人生新篇章

44岁央视主持人杨帆患癌两月,已开启人生新篇章

梦醉为红颜一笑
2026-05-30 14:40:01
上海队前往杭州!2外援没随队,怀特塞德大概率赛季报销

上海队前往杭州!2外援没随队,怀特塞德大概率赛季报销

体育哲人
2026-05-30 18:22:09
2026-05-30 20:28:49
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
391文章数 65关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

伊朗浓缩铀材料将被挖出销毁 特朗普就战事最新表态

头条要闻

伊朗浓缩铀材料将被挖出销毁 特朗普就战事最新表态

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

教育
艺术
房产
亲子
本地

教育要闻

取消家长护学岗!南京一学校宣布

艺术要闻

中国书画史上最有争议的大师——董其昌

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

亲子要闻

10岁儿童恶性室管膜瘤复发 上海专家分期手术助其再闯生死关

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版