网易首页 > 网易号 > 正文 申请入驻

杨植麟摸着DeepSeek过河

0
分享至

文|邓咏仪

编辑|苏建勋

发布开源模型K2一周后,Kimi引起的全球热潮还在继续。

7月11日,月之暗面(Moonshot AI)开源了万亿参数的MoE模型Kimi K2。这是一个参数高达1T,激活参数32B的MoE模型,包括两款开源模型版本Kimi-Base和Kimi-instruct。

K2是个“偏科”选手,擅长编程、智能体类的任务。在Kimi公布的测评结果中,Kimi K2在自主编程、工具调用和数学推理三个维度的表现上,都超过了同为开源模型的DeepSeek-V3和阿里Qwen3。


△图源:Kimi

Hugging Face数据显示,开源一周后,K2下载量累计超过10万,还在快速攀升中。在大模型权威竞技场LMSYS中,K2-Instruct已经冲到总榜第四,仅次于GPT-4o、Claude-3.5、Gemini-1.5-Pro。

马斯克在推特上转发了的OpenRouter趋势数据显示,K2的在一周内攀升至全球趋势榜第二,仅次于Grok 4。


△图源:Twitter

月之暗面这次没有选择大规模营销,而是在用一种全新的方式开源。

K2发布后,Kimi的算法工程师、研究员,在推特、小红书、知乎上积极分享K2的工作和技术,回复用户疑问;Kimi的官方推特也在不间断地刷屏,转发社区里对K2的赞美和建议。

热情的互动引来了更多的“自来水”。Hugging Face联合创始人Thomas Wolf就对Kimi K2大加赞赏,表示开源模型正在挑战最新的闭源权重模型。

发布热闹得像团建,与这家公司过去半年的沉默形成鲜明对比。

过去两年,Kimi经历了一场过山车般的起伏:几乎是最后一个推出ChatBot助手Kimi,但是凭借着长文本和出圈的策划一炮而红,成为最先出圈的大模型应用产品。

但2025年,几乎所有模型厂商,都被横空出世的DeepSeek打得失语。追逐AGI,证明自己还有技术实力,变成了所有厂商要做的证明题。

曾经拥有梦幻开端的Kimi,在今年来了个猛转弯:To C的Kimi应用停止投流,专心主攻模型。去年曾经试水的Ohai、Noisee等其他C端应用,以及Kimi在多模态上的尝试也迅速暂停。这也让它遭受的质疑更猛烈——是不是放弃了预训练?停止投流后,To C应用放弃了吗?

蛰伏半年,Kimi需要一场翻身仗。K2的发布,就是回归AGI主线的一种宣言。

“又一个DeepSeek时刻”

K2发布,已经引起了全球开发者社区的震动。7月16日,著名的《Nature》杂志发文,表示K2的发布为“另一个DeepSeek时刻”,足见其赞美。

为什么K2的发布如此重要?简单来说,因为K2把DeepSeek模式再走了一遍:主打高性能、低成本,而且真开源。最重要的是,端出了真的好东西。

K2是个性能强悍的模型。它很专注,目标清晰——就是为了智能体(Agentic AI)而生。

一位Kimi的算法工程师Justin Wong在博客里说:Kimi希望把人与AI的交互方式,从chat-first变成artifact-first,即交付一个具体的交付物(比如一个3D模型、一个表格),而非交付一段聊天上下文。

用大白话说,就是要真能干活,不只是纯聊天了。

了解了这点,才能理解Kimi在模型训练路线上的诸多选择。

DeepSeek R1发布时,更多注重思考、推理能力,在发布后相当长一段时间才加入工具调用功能。而K2并没有像DeepSeek R1那样带上推理模式(如展现思考过程),虽然也着重提升了风格化写作能力,但并没有过多强调。

K2最看重的还是Agentic(智能体)能力,把提升“自主使用工具、完成任务”的能力,放到最高优先级。“这在整个领域里是一个非常罕见的选择。”一位从业者评论道。

更具体地说,K2把优化的重点放在了:根据聊天的上下文,调用外部的工具,要让调用速度更快,完成任务的质量更高——比如浏览器、PPT、Excel、3D绘画软件等等。用户也可以接入owl、Cline、RooCode 等 Agent/Coding 框架,来自主编程。

所以,在K2的使用案例中,你可以看到,直接输入Prompt,不用怎么等K2“思考”,K2就迅速生成3D旋转地球模型、生成PPT、生成昼夜循环的山川峡谷3D景观、3D粒子星系、交易看盘等等。


△Prompt: Create a 3D HTML mountain scene with cliffs, rivers, and day-night lighting. Supports drag/zoom, animated transitions, realistic gradients, and toggleable contour lines... (创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示...) 来源:Kimi

把13万行的原始数据丢给 Kimi K2,可以帮你分析远程办公比例对薪资的影响,分析显著差异,自动生成统计图表与回归模型解读等等,用统一色调做出小提琴图(violin plot) 、箱线图(box plot)、散点图(scatter plot)等专业图表,整理成报告。


△来源:Kimi

K2的另一个核心贡献在于,把模型的训练和使用成本又拉到了一个地板价,同时还保持着接近Claude主流模型的性能,主打一个性价比高。

Kimi K2 API的定价是:每百万输入tokens 4元,每百万输出tokens 16元;直接和同样主打编程的Claude 4 Sonnet(每百万输入3美元,每百万输出15美元)的API价格相比,整体成本可以下降超过75%。

别小看这75%,如今AI编程已经成为创业赛道的“明牌”,赛道里包括Cursor等头部AI编程公司估值已经迅速起飞。截至2025年6月,Cursor的ARR(年度经常性收入)已突破5亿美元大关,相较于4月中旬披露的3亿美元,短短两个月内飙升了60%。

开发者会实实在在用脚投票。K2一出,Hugging Face的下载量涨得飞快,K2很快就登上了OpenRouter的趋势榜周第二,开发者频频吐槽为什么API还这么慢,用不上。

K2现在并不完美,输出的结果还是会有不足之处,比如Token输出比较啰嗦,代码质量和顶尖的Claude相比还是有差距——但架不住它性价比高。很多博主的测试案例中,普通程序员写一天代码也就几块钱,大大降低了AI编程的算力使用门槛。

性价比高,也源于Kimi一些原创性的创新。

Kimi从训练阶段引入了新的优化器Muon,取代了原来主流的AdamW优化器,在不同Llama架构模型上,Muon的算力需求只有AdamW的52%。

优化器是大模型里的一个核心组件,决定着在训练时的模型参数如何调整。优化器优化得越好,模型在同样的硬件环境下跑得更快、更稳,换种角度说,也更节省了算力。

这可以说是一场技术冒险。Muon原本是一个比较前沿的优化器方向,甚至没有发表正式论文,以前只在小型模型上训练成功过。但Kimi选择将Muon扩大到万亿参数去尝试,并且解决了大规模训练下的很多技术难点,让Muon成为这次K2发布最受尊重的工作之一。

在公司门口放钢琴、公司名字用传奇摇滚专辑命名,这看起来是很朋克。但在巨大的市场压力下,专注在一个方向,把一个新技术架构直接上到万亿参数去训练,用真金白银去试,还成功了。

这才是真的朋克。

六小龙没有回头路

从K2发布的细节看,DeepSeek在全球造成的影响仍在持续。

今年1月发布的DeepSeek R1是全球AI叙事的分水岭。在那之前,国内无论是大厂,还是AI初创,大家都在卷AI应用,抢夺用户和留存。

Kimi曾经在2024年做过一波激进投流,和字节的豆包对打。但投流、增长是在大厂舒适区里的事情,Kimi很快就显得力不从心。2024年11月,豆包宣布MAU过亿,在国内一时风头无两。

很快,这些成果都被DeepSeek R1迅速超越。

DeepSeek之后,无论是大厂还是初创,大家都形成共识:追求模型能力提升才是最重要的事。国内To C应用的战场上,几乎就剩下元宝、夸克和豆包在厮杀。

如今商业化已经是个有点遥远,且不是最重要的问题了。面对在模型和应用上都在All in的大厂,留给大模型初创的路几乎只有一条:开源,和攻克最难的问题。

前不久的36氪Waves大会上,真格基金合伙人戴雨森在谈到Kimi与Minimax时曾说: “一年前,大家比投放、比用户,比投放,其实是大厂的机会。现在则回到技术前沿,回到强认知,我相信反而更适合以技术大牛为核心的创业团队。 ”

六小龙们都做出了自己的选择。DeepSeek R1的冲击后,各家呈上的答卷,实则表明了一种路线的分野:Kimi已经有点像Anthropic,主打提升编程、智能体的能力;Minimax和阶跃牢牢抓紧多模态;智谱则是走更本土、To B/To G的路线;百川选择继续做医疗模型;01早已宣布不再做超大基础模型迭代,转而专注在大模型落地上。

此前,Kimi在海外知名度有限,但K2的爆火已经带来实在的回报:全球开发者圈子里开始关注起Kimi,有人开始研究CEO杨植麟的过往经历。开发者们喜欢这个充满朋克文化的团队——Kimi团队成员在小红书、推特展示公司里以传奇乐队命名的会议室,也会在Twitter坦承“现在K2还不完美,infra还有很多不足,正在加班加点修复。”


△来源:Twitter

而更早之前,在Kimi专注提升模型能力,推出包括深度研究等产品后,其实也反哺到了产品上:Kimi的Web端数据从6月开始反弹,访问量环比增长30%。

某种程度上,开源和朋克有着同样的精神内核,自由、开放、尊重技术,这是现在AI圈子里最强势的"注意力货币",不仅能建立名声、展现信仰,还有招揽人才——这才是AI初创现在最着急的事。

K2发布后,一位Kimi研究员曾经在博客里提到:“ 2025年,智能的上限仍然完全由模型决定,作为一家以AGI为目标的公司,如果不去追求智能的上限,那我一天也不会多呆下去。”

追求AGI看似是一条窄路,对还在这条路上的初创公司而言,还是一条康庄大道。

只要足够专注。

封面来源|视觉中国

欢迎交流

本文来自微信公众号“智能涌现”,作者:邓咏仪,36氪经授权发布。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个沈伯洋摁下去,一大群沈伯洋冒出来?都得挨收拾,一个不会少

一个沈伯洋摁下去,一大群沈伯洋冒出来?都得挨收拾,一个不会少

飞花逐月大帝
2025-11-04 10:30:59
全网聚焦!原配妻子强势反攻,这波操作简直“杀人诛心”

全网聚焦!原配妻子强势反攻,这波操作简直“杀人诛心”

一杯咖啡语
2025-11-04 15:08:15
被曝核酸造假,半年敛财4.5亿,核酸大王张核子最终下场如何?

被曝核酸造假,半年敛财4.5亿,核酸大王张核子最终下场如何?

蜉蝣说
2025-10-05 23:57:52
河北小伙娶小12岁乌克兰绝色美女,结婚11年后,妻子出轨波兰农民

河北小伙娶小12岁乌克兰绝色美女,结婚11年后,妻子出轨波兰农民

青史楼兰
2025-09-16 10:44:15
陈晋一跑不动也不换,斯帅保守 放着3攻击手不用 申花排倒数第三

陈晋一跑不动也不换,斯帅保守 放着3攻击手不用 申花排倒数第三

替补席看球
2025-11-05 22:33:19
欧冠狂欢夜:拜仁2-1赢巴黎登顶 利物浦送皇马首败 阿森纳10连胜

欧冠狂欢夜:拜仁2-1赢巴黎登顶 利物浦送皇马首败 阿森纳10连胜

侃球熊弟
2025-11-05 05:09:46
郑钧儿子长大变丑,15岁长得很成熟,他没下巴,越长越像刘芸!

郑钧儿子长大变丑,15岁长得很成熟,他没下巴,越长越像刘芸!

小熊侃史
2025-11-05 00:22:15
男子被警方扣押1000万元,无罪后申诉要求返还 当地公安局:严格按照判决执行,有异议可申诉

男子被警方扣押1000万元,无罪后申诉要求返还 当地公安局:严格按照判决执行,有异议可申诉

红星新闻
2025-11-04 21:58:11
因臀部过于性感 日恐怖游戏未通过Steam审核

因臀部过于性感 日恐怖游戏未通过Steam审核

3DM游戏
2025-11-04 21:29:04
李云迪再陷桃色风波,女主照片被扒疑似有两人视频流出

李云迪再陷桃色风波,女主照片被扒疑似有两人视频流出

挪威森林
2025-11-02 12:56:16
1976年为什么被认为是最诡异的一年,那一年到底发生了什么?

1976年为什么被认为是最诡异的一年,那一年到底发生了什么?

历史有些冷
2025-11-04 21:20:03
重庆燃气抄表员不足工人一年净减121人 整改不力被罚810万李金陆掌舵17月离任

重庆燃气抄表员不足工人一年净减121人 整改不力被罚810万李金陆掌舵17月离任

长江商报
2025-11-05 09:54:55
中国国防部首次强硬表态:解放军将全力打击“台独”及外部干预!

中国国防部首次强硬表态:解放军将全力打击“台独”及外部干预!

Ck的蜜糖
2025-11-05 00:42:42
海港夺冠彻底稳了!不仅因为申花以已无力追赶,而是因为这三点!

海港夺冠彻底稳了!不仅因为申花以已无力追赶,而是因为这三点!

田先生篮球
2025-11-05 11:48:35
如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

如果在家突发心梗,黄金5分钟自救法,快了解,关键时刻可自救

风信子的花
2025-10-24 23:59:39
美国试射“民兵III”型洲际弹道导弹,俄罗斯宣布准备恢复核试验

美国试射“民兵III”型洲际弹道导弹,俄罗斯宣布准备恢复核试验

山河路口
2025-11-05 22:56:11
弗州竞选惊爆冷门:琼斯逆袭,民主党以64%胜率上演惊天翻盘

弗州竞选惊爆冷门:琼斯逆袭,民主党以64%胜率上演惊天翻盘

老玮是个手艺人
2025-11-05 12:59:08
全球第一,固态电池巨头,拿下120亿订单!

全球第一,固态电池巨头,拿下120亿订单!

飞鲸投研
2025-11-05 09:08:06
发型奇怪、不讲卫生、又装又尴尬,他来《你好星期六》是谁邀请的

发型奇怪、不讲卫生、又装又尴尬,他来《你好星期六》是谁邀请的

老汆古装影视解说
2025-11-03 22:24:00
baby新男友已获小海绵认可?街头带娃遛大型犬,像幸福的一家三口

baby新男友已获小海绵认可?街头带娃遛大型犬,像幸福的一家三口

八星人
2025-11-05 15:55:40
2025-11-06 00:07:00
36氪 incentive-icons
36氪
让一部分人先看到未来
149747文章数 2847176关注度
往期回顾 全部

科技要闻

大转弯!特朗普再提名马斯克盟友任NASA局长

头条要闻

丈夫突然病亡2天后妻子也离世留下一儿一女 妹妹发声

头条要闻

丈夫突然病亡2天后妻子也离世留下一儿一女 妹妹发声

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国 中央金融办发声

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

艺术
游戏
本地
公开课
军事航空

艺术要闻

蒲华:搦管写竹,墨沈淋漓

遭日本禁止发售恐怖游戏上架Steam!内容过于凄惨

本地新闻

这届干饭人,已经把博物馆吃成了食堂

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国“福特”号航母驶往加勒比海

无障碍浏览 进入关怀版