网易首页 > 网易号 > 正文 申请入驻

杨植麟摸着DeepSeek过河

0
分享至

文|邓咏仪

编辑|苏建勋

发布开源模型K2一周后,Kimi引起的全球热潮还在继续。

7月11日,月之暗面(Moonshot AI)开源了万亿参数的MoE模型Kimi K2。这是一个参数高达1T,激活参数32B的MoE模型,包括两款开源模型版本Kimi-Base和Kimi-instruct。

K2是个“偏科”选手,擅长编程、智能体类的任务。在Kimi公布的测评结果中,Kimi K2在自主编程、工具调用和数学推理三个维度的表现上,都超过了同为开源模型的DeepSeek-V3和阿里Qwen3。

△图源:Kimi

Hugging Face数据显示,开源一周后,K2下载量累计超过10万,还在快速攀升中。在大模型权威竞技场LMSYS中,K2-Instruct已经冲到总榜第四,仅次于GPT-4o、Claude-3.5、Gemini-1.5-Pro。

马斯克在推特上转发了的OpenRouter趋势数据显示,K2的在一周内攀升至全球趋势榜第二,仅次于Grok 4。

△图源:Twitter

月之暗面这次没有选择大规模营销,而是在用一种全新的方式开源。

K2发布后,Kimi的算法工程师、研究员,在推特、小红书、知乎上积极分享K2的工作和技术,回复用户疑问;Kimi的官方推特也在不间断地刷屏,转发社区里对K2的赞美和建议。

热情的互动引来了更多的“自来水”。Hugging Face联合创始人Thomas Wolf就对Kimi K2大加赞赏,表示开源模型正在挑战最新的闭源权重模型。

发布热闹得像团建,与这家公司过去半年的沉默形成鲜明对比。

过去两年,Kimi经历了一场过山车般的起伏:几乎是最后一个推出ChatBot助手Kimi,但是凭借着长文本和出圈的策划一炮而红,成为最先出圈的大模型应用产品。

但2025年,几乎所有模型厂商,都被横空出世的DeepSeek打得失语。追逐AGI,证明自己还有技术实力,变成了所有厂商要做的证明题。

曾经拥有梦幻开端的Kimi,在今年来了个猛转弯:To C的Kimi应用停止投流,专心主攻模型。去年曾经试水的Ohai、Noisee等其他C端应用,以及Kimi在多模态上的尝试也迅速暂停。这也让它遭受的质疑更猛烈——是不是放弃了预训练?停止投流后,To C应用放弃了吗?

蛰伏半年,Kimi需要一场翻身仗。K2的发布,就是回归AGI主线的一种宣言。

“又一个DeepSeek时刻”

K2发布,已经引起了全球开发者社区的震动。7月16日,著名的《Nature》杂志发文,表示K2的发布为“另一个DeepSeek时刻”,足见其赞美。

为什么K2的发布如此重要?简单来说,因为K2把DeepSeek模式再走了一遍:主打高性能、低成本,而且真开源。最重要的是,端出了真的好东西。

K2是个性能强悍的模型。它很专注,目标清晰——就是为了智能体(Agentic AI)而生。

一位Kimi的算法工程师Justin Wong在博客里说:Kimi希望把人与AI的交互方式,从chat-first变成artifact-first,即交付一个具体的交付物(比如一个3D模型、一个表格),而非交付一段聊天上下文。

用大白话说,就是要真能干活,不只是纯聊天了。

了解了这点,才能理解Kimi在模型训练路线上的诸多选择。

DeepSeek R1发布时,更多注重思考、推理能力,在发布后相当长一段时间才加入工具调用功能。而K2并没有像DeepSeek R1那样带上推理模式(如展现思考过程),虽然也着重提升了风格化写作能力,但并没有过多强调。

K2最看重的还是Agentic(智能体)能力,把提升“自主使用工具、完成任务”的能力,放到最高优先级。“这在整个领域里是一个非常罕见的选择。”一位从业者评论道。

更具体地说,K2把优化的重点放在了:根据聊天的上下文,调用外部的工具,要让调用速度更快,完成任务的质量更高——比如浏览器、PPT、Excel、3D绘画软件等等。用户也可以接入owl、Cline、RooCode 等 Agent/Coding 框架,来自主编程。

所以,在K2的使用案例中,你可以看到,直接输入Prompt,不用怎么等K2“思考”,K2就迅速生成3D旋转地球模型、生成PPT、生成昼夜循环的山川峡谷3D景观、3D粒子星系、交易看盘等等。

△Prompt: Create a 3D HTML mountain scene with cliffs, rivers, and day-night lighting. Supports drag/zoom, animated transitions, realistic gradients, and toggleable contour lines... (创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示...) 来源:Kimi

把13万行的原始数据丢给 Kimi K2,可以帮你分析远程办公比例对薪资的影响,分析显著差异,自动生成统计图表与回归模型解读等等,用统一色调做出小提琴图(violin plot) 、箱线图(box plot)、散点图(scatter plot)等专业图表,整理成报告。

△来源:Kimi

K2的另一个核心贡献在于,把模型的训练和使用成本又拉到了一个地板价,同时还保持着接近Claude主流模型的性能,主打一个性价比高。

Kimi K2 API的定价是:每百万输入tokens 4元,每百万输出tokens 16元;直接和同样主打编程的Claude 4 Sonnet(每百万输入3美元,每百万输出15美元)的API价格相比,整体成本可以下降超过75%。

别小看这75%,如今AI编程已经成为创业赛道的“明牌”,赛道里包括Cursor等头部AI编程公司估值已经迅速起飞。截至2025年6月,Cursor的ARR(年度经常性收入)已突破5亿美元大关,相较于4月中旬披露的3亿美元,短短两个月内飙升了60%。

开发者会实实在在用脚投票。K2一出,Hugging Face的下载量涨得飞快,K2很快就登上了OpenRouter的趋势榜周第二,开发者频频吐槽为什么API还这么慢,用不上。

K2现在并不完美,输出的结果还是会有不足之处,比如Token输出比较啰嗦,代码质量和顶尖的Claude相比还是有差距——但架不住它性价比高。很多博主的测试案例中,普通程序员写一天代码也就几块钱,大大降低了AI编程的算力使用门槛。

性价比高,也源于Kimi一些原创性的创新。

Kimi从训练阶段引入了新的优化器Muon,取代了原来主流的AdamW优化器,在不同Llama架构模型上,Muon的算力需求只有AdamW的52%。

优化器是大模型里的一个核心组件,决定着在训练时的模型参数如何调整。优化器优化得越好,模型在同样的硬件环境下跑得更快、更稳,换种角度说,也更节省了算力。

这可以说是一场技术冒险。Muon原本是一个比较前沿的优化器方向,甚至没有发表正式论文,以前只在小型模型上训练成功过。但Kimi选择将Muon扩大到万亿参数去尝试,并且解决了大规模训练下的很多技术难点,让Muon成为这次K2发布最受尊重的工作之一。

在公司门口放钢琴、公司名字用传奇摇滚专辑命名,这看起来是很朋克。但在巨大的市场压力下,专注在一个方向,把一个新技术架构直接上到万亿参数去训练,用真金白银去试,还成功了。

这才是真的朋克。

六小龙没有回头路

从K2发布的细节看,DeepSeek在全球造成的影响仍在持续。

今年1月发布的DeepSeek R1是全球AI叙事的分水岭。在那之前,国内无论是大厂,还是AI初创,大家都在卷AI应用,抢夺用户和留存。

Kimi曾经在2024年做过一波激进投流,和字节的豆包对打。但投流、增长是在大厂舒适区里的事情,Kimi很快就显得力不从心。2024年11月,豆包宣布MAU过亿,在国内一时风头无两。

很快,这些成果都被DeepSeek R1迅速超越。

DeepSeek之后,无论是大厂还是初创,大家都形成共识:追求模型能力提升才是最重要的事。国内To C应用的战场上,几乎就剩下元宝、夸克和豆包在厮杀。

如今商业化已经是个有点遥远,且不是最重要的问题了。面对在模型和应用上都在All in的大厂,留给大模型初创的路几乎只有一条:开源,和攻克最难的问题。

前不久的36氪Waves大会上,真格基金合伙人戴雨森在谈到Kimi与Minimax时曾说: “一年前,大家比投放、比用户,比投放,其实是大厂的机会。现在则回到技术前沿,回到强认知,我相信反而更适合以技术大牛为核心的创业团队。 ”

六小龙们都做出了自己的选择。DeepSeek R1的冲击后,各家呈上的答卷,实则表明了一种路线的分野:Kimi已经有点像Anthropic,主打提升编程、智能体的能力;Minimax和阶跃牢牢抓紧多模态;智谱则是走更本土、To B/To G的路线;百川选择继续做医疗模型;01早已宣布不再做超大基础模型迭代,转而专注在大模型落地上。

此前,Kimi在海外知名度有限,但K2的爆火已经带来实在的回报:全球开发者圈子里开始关注起Kimi,有人开始研究CEO杨植麟的过往经历。开发者们喜欢这个充满朋克文化的团队——Kimi团队成员在小红书、推特展示公司里以传奇乐队命名的会议室,也会在Twitter坦承“现在K2还不完美,infra还有很多不足,正在加班加点修复。”

△来源:Twitter

而更早之前,在Kimi专注提升模型能力,推出包括深度研究等产品后,其实也反哺到了产品上:Kimi的Web端数据从6月开始反弹,访问量环比增长30%。

某种程度上,开源和朋克有着同样的精神内核,自由、开放、尊重技术,这是现在AI圈子里最强势的"注意力货币",不仅能建立名声、展现信仰,还有招揽人才——这才是AI初创现在最着急的事。

K2发布后,一位Kimi研究员曾经在博客里提到:“ 2025年,智能的上限仍然完全由模型决定,作为一家以AGI为目标的公司,如果不去追求智能的上限,那我一天也不会多呆下去。”

追求AGI看似是一条窄路,对还在这条路上的初创公司而言,还是一条康庄大道。

只要足够专注。

封面来源|视觉中国

欢迎交流

本文来自微信公众号“智能涌现”,作者:邓咏仪,36氪经授权发布。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普宣布战争基本结束,伊朗当场拒绝:结束不由美国说了算

特朗普宣布战争基本结束,伊朗当场拒绝:结束不由美国说了算

Ck的蜜糖
2026-03-10 14:28:44
世界上最锋利的物体为什么不能切割任何东西

世界上最锋利的物体为什么不能切割任何东西

心中的麦田
2026-03-09 19:42:31
外交部:中方将采取必要措施保障自身能源安全

外交部:中方将采取必要措施保障自身能源安全

环球网资讯
2026-03-09 15:55:04
你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

带你感受人间冷暖
2026-02-16 01:10:39
一觉醒来,竟要和五位樱花妹同居?日本电视台亲自下场就做了这?

一觉醒来,竟要和五位樱花妹同居?日本电视台亲自下场就做了这?

17173游戏网
2026-03-09 14:07:37
曝曼联夏窗2.3亿预算!红魔贝尔恢复单独训练,面临竞争急于复出

曝曼联夏窗2.3亿预算!红魔贝尔恢复单独训练,面临竞争急于复出

罗米的曼联博客
2026-03-10 11:57:50
铁血硬汉也绷不住了!巴拉克首谈18岁爱子离世:痛到无法呼吸

铁血硬汉也绷不住了!巴拉克首谈18岁爱子离世:痛到无法呼吸

仰卧撑FTUer
2026-03-08 13:28:16
1996年,中德两国对秦始皇陵做核磁扫描,发现从未曾被披露的秘密

1996年,中德两国对秦始皇陵做核磁扫描,发现从未曾被披露的秘密

叹为观止易
2026-03-09 20:44:19
山东一教体局局长被免!

山东一教体局局长被免!

山东教育
2026-03-10 07:36:30
周恩来在劳山遇刺,11名警卫全部牺牲,调查后才知凶手竟大有来历

周恩来在劳山遇刺,11名警卫全部牺牲,调查后才知凶手竟大有来历

小哥很OK
2025-11-17 21:02:50
刚刚 | 国际油价,直线跳水!

刚刚 | 国际油价,直线跳水!

天津广播
2026-03-09 14:50:34
战争打到第9天,美以损失到底有多大?以色列和印度记者说出真相

战争打到第9天,美以损失到底有多大?以色列和印度记者说出真相

霁寒飘雪
2026-03-10 10:11:00
香港“豪门坏女孩”去世,醉驾、袭警、殴打父母、虐待外佣一样不落!

香港“豪门坏女孩”去世,醉驾、袭警、殴打父母、虐待外佣一样不落!

港漂圈
2026-03-09 20:57:29
柯洁的等级分,是中国围棋史上最夸张、最漫长、最无解的一条曲线

柯洁的等级分,是中国围棋史上最夸张、最漫长、最无解的一条曲线

月满大江流
2026-03-10 13:59:32
CBA消息:广厦更名北控,新外援已加盟,首钢公布合照

CBA消息:广厦更名北控,新外援已加盟,首钢公布合照

工从昊懂球阿靖
2026-03-10 11:04:37
90后女子将10几万元黄金首饰放进冰箱冷冻层,与冻肉、雪糕为邻,笑称是最有安全感的“窝点”,随用随取

90后女子将10几万元黄金首饰放进冰箱冷冻层,与冻肉、雪糕为邻,笑称是最有安全感的“窝点”,随用随取

南国今报
2026-03-09 22:15:06
尼克松晚年坦言:他很后悔当初访华,只因毛主席识破的访华计谋!

尼克松晚年坦言:他很后悔当初访华,只因毛主席识破的访华计谋!

冰语历史
2026-03-07 06:23:39
董明珠称提高农民养老金需要时间!网友:我支持美的、海尔……

董明珠称提高农民养老金需要时间!网友:我支持美的、海尔……

麦杰逊
2026-03-10 12:01:59
文身执枪,为弟出征:三个孩子的母亲,把悲痛活成铠甲

文身执枪,为弟出征:三个孩子的母亲,把悲痛活成铠甲

老马拉车莫少装
2026-03-09 13:23:02
爆火,有人说几天赚了26万!近千人在腾讯楼下排队,QQ最新宣布

爆火,有人说几天赚了26万!近千人在腾讯楼下排队,QQ最新宣布

都市快报橙柿互动
2026-03-08 08:11:30
2026-03-10 15:15:00
36氪 incentive-icons
36氪
让一部分人先看到未来
150799文章数 2848340关注度
往期回顾 全部

科技要闻

“龙虾”狂欢 卖“饲料”先挣钱了?

头条要闻

牛弹琴:特朗普放风要停战 伊朗称正为美国准备"惊喜"

头条要闻

牛弹琴:特朗普放风要停战 伊朗称正为美国准备"惊喜"

体育要闻

韩国女足羡慕的奢侈品,为何选择中国女足

娱乐要闻

肖战首夺SMG视帝,孙俪四封视后创历史

财经要闻

全民"养龙虾"背后 第一批受害者浮现

汽车要闻

蔚来换电和理想5C,谁能硬刚,比亚迪兆瓦闪充?

态度原创

时尚
健康
本地
游戏
公开课

没有人不爱这个穿平底鞋都发光的女人

转头就晕的耳石症,能开车上班吗?

本地新闻

云游中国|候鸟高颜值亮相!沉浸式打卡青海湿地

《精灵皮可》被多位插画家质疑抄袭 致敬宝可梦帕鲁

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版