网易首页 > 网易号 > 正文 申请入驻

杨植麟摸着DeepSeek过河

0
分享至

文|邓咏仪

编辑|苏建勋

发布开源模型K2一周后,Kimi引起的全球热潮还在继续。

7月11日,月之暗面(Moonshot AI)开源了万亿参数的MoE模型Kimi K2。这是一个参数高达1T,激活参数32B的MoE模型,包括两款开源模型版本Kimi-Base和Kimi-instruct。

K2是个“偏科”选手,擅长编程、智能体类的任务。在Kimi公布的测评结果中,Kimi K2在自主编程、工具调用和数学推理三个维度的表现上,都超过了同为开源模型的DeepSeek-V3和阿里Qwen3。

△图源:Kimi

Hugging Face数据显示,开源一周后,K2下载量累计超过10万,还在快速攀升中。在大模型权威竞技场LMSYS中,K2-Instruct已经冲到总榜第四,仅次于GPT-4o、Claude-3.5、Gemini-1.5-Pro。

马斯克在推特上转发了的OpenRouter趋势数据显示,K2的在一周内攀升至全球趋势榜第二,仅次于Grok 4。

△图源:Twitter

月之暗面这次没有选择大规模营销,而是在用一种全新的方式开源。

K2发布后,Kimi的算法工程师、研究员,在推特、小红书、知乎上积极分享K2的工作和技术,回复用户疑问;Kimi的官方推特也在不间断地刷屏,转发社区里对K2的赞美和建议。

热情的互动引来了更多的“自来水”。Hugging Face联合创始人Thomas Wolf就对Kimi K2大加赞赏,表示开源模型正在挑战最新的闭源权重模型。

发布热闹得像团建,与这家公司过去半年的沉默形成鲜明对比。

过去两年,Kimi经历了一场过山车般的起伏:几乎是最后一个推出ChatBot助手Kimi,但是凭借着长文本和出圈的策划一炮而红,成为最先出圈的大模型应用产品。

但2025年,几乎所有模型厂商,都被横空出世的DeepSeek打得失语。追逐AGI,证明自己还有技术实力,变成了所有厂商要做的证明题。

曾经拥有梦幻开端的Kimi,在今年来了个猛转弯:To C的Kimi应用停止投流,专心主攻模型。去年曾经试水的Ohai、Noisee等其他C端应用,以及Kimi在多模态上的尝试也迅速暂停。这也让它遭受的质疑更猛烈——是不是放弃了预训练?停止投流后,To C应用放弃了吗?

蛰伏半年,Kimi需要一场翻身仗。K2的发布,就是回归AGI主线的一种宣言。

“又一个DeepSeek时刻”

K2发布,已经引起了全球开发者社区的震动。7月16日,著名的《Nature》杂志发文,表示K2的发布为“另一个DeepSeek时刻”,足见其赞美。

为什么K2的发布如此重要?简单来说,因为K2把DeepSeek模式再走了一遍:主打高性能、低成本,而且真开源。最重要的是,端出了真的好东西。

K2是个性能强悍的模型。它很专注,目标清晰——就是为了智能体(Agentic AI)而生。

一位Kimi的算法工程师Justin Wong在博客里说:Kimi希望把人与AI的交互方式,从chat-first变成artifact-first,即交付一个具体的交付物(比如一个3D模型、一个表格),而非交付一段聊天上下文。

用大白话说,就是要真能干活,不只是纯聊天了。

了解了这点,才能理解Kimi在模型训练路线上的诸多选择。

DeepSeek R1发布时,更多注重思考、推理能力,在发布后相当长一段时间才加入工具调用功能。而K2并没有像DeepSeek R1那样带上推理模式(如展现思考过程),虽然也着重提升了风格化写作能力,但并没有过多强调。

K2最看重的还是Agentic(智能体)能力,把提升“自主使用工具、完成任务”的能力,放到最高优先级。“这在整个领域里是一个非常罕见的选择。”一位从业者评论道。

更具体地说,K2把优化的重点放在了:根据聊天的上下文,调用外部的工具,要让调用速度更快,完成任务的质量更高——比如浏览器、PPT、Excel、3D绘画软件等等。用户也可以接入owl、Cline、RooCode 等 Agent/Coding 框架,来自主编程。

所以,在K2的使用案例中,你可以看到,直接输入Prompt,不用怎么等K2“思考”,K2就迅速生成3D旋转地球模型、生成PPT、生成昼夜循环的山川峡谷3D景观、3D粒子星系、交易看盘等等。

△Prompt: Create a 3D HTML mountain scene with cliffs, rivers, and day-night lighting. Supports drag/zoom, animated transitions, realistic gradients, and toggleable contour lines... (创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示...) 来源:Kimi

把13万行的原始数据丢给 Kimi K2,可以帮你分析远程办公比例对薪资的影响,分析显著差异,自动生成统计图表与回归模型解读等等,用统一色调做出小提琴图(violin plot) 、箱线图(box plot)、散点图(scatter plot)等专业图表,整理成报告。

△来源:Kimi

K2的另一个核心贡献在于,把模型的训练和使用成本又拉到了一个地板价,同时还保持着接近Claude主流模型的性能,主打一个性价比高。

Kimi K2 API的定价是:每百万输入tokens 4元,每百万输出tokens 16元;直接和同样主打编程的Claude 4 Sonnet(每百万输入3美元,每百万输出15美元)的API价格相比,整体成本可以下降超过75%。

别小看这75%,如今AI编程已经成为创业赛道的“明牌”,赛道里包括Cursor等头部AI编程公司估值已经迅速起飞。截至2025年6月,Cursor的ARR(年度经常性收入)已突破5亿美元大关,相较于4月中旬披露的3亿美元,短短两个月内飙升了60%。

开发者会实实在在用脚投票。K2一出,Hugging Face的下载量涨得飞快,K2很快就登上了OpenRouter的趋势榜周第二,开发者频频吐槽为什么API还这么慢,用不上。

K2现在并不完美,输出的结果还是会有不足之处,比如Token输出比较啰嗦,代码质量和顶尖的Claude相比还是有差距——但架不住它性价比高。很多博主的测试案例中,普通程序员写一天代码也就几块钱,大大降低了AI编程的算力使用门槛。

性价比高,也源于Kimi一些原创性的创新。

Kimi从训练阶段引入了新的优化器Muon,取代了原来主流的AdamW优化器,在不同Llama架构模型上,Muon的算力需求只有AdamW的52%。

优化器是大模型里的一个核心组件,决定着在训练时的模型参数如何调整。优化器优化得越好,模型在同样的硬件环境下跑得更快、更稳,换种角度说,也更节省了算力。

这可以说是一场技术冒险。Muon原本是一个比较前沿的优化器方向,甚至没有发表正式论文,以前只在小型模型上训练成功过。但Kimi选择将Muon扩大到万亿参数去尝试,并且解决了大规模训练下的很多技术难点,让Muon成为这次K2发布最受尊重的工作之一。

在公司门口放钢琴、公司名字用传奇摇滚专辑命名,这看起来是很朋克。但在巨大的市场压力下,专注在一个方向,把一个新技术架构直接上到万亿参数去训练,用真金白银去试,还成功了。

这才是真的朋克。

六小龙没有回头路

从K2发布的细节看,DeepSeek在全球造成的影响仍在持续。

今年1月发布的DeepSeek R1是全球AI叙事的分水岭。在那之前,国内无论是大厂,还是AI初创,大家都在卷AI应用,抢夺用户和留存。

Kimi曾经在2024年做过一波激进投流,和字节的豆包对打。但投流、增长是在大厂舒适区里的事情,Kimi很快就显得力不从心。2024年11月,豆包宣布MAU过亿,在国内一时风头无两。

很快,这些成果都被DeepSeek R1迅速超越。

DeepSeek之后,无论是大厂还是初创,大家都形成共识:追求模型能力提升才是最重要的事。国内To C应用的战场上,几乎就剩下元宝、夸克和豆包在厮杀。

如今商业化已经是个有点遥远,且不是最重要的问题了。面对在模型和应用上都在All in的大厂,留给大模型初创的路几乎只有一条:开源,和攻克最难的问题。

前不久的36氪Waves大会上,真格基金合伙人戴雨森在谈到Kimi与Minimax时曾说: “一年前,大家比投放、比用户,比投放,其实是大厂的机会。现在则回到技术前沿,回到强认知,我相信反而更适合以技术大牛为核心的创业团队。 ”

六小龙们都做出了自己的选择。DeepSeek R1的冲击后,各家呈上的答卷,实则表明了一种路线的分野:Kimi已经有点像Anthropic,主打提升编程、智能体的能力;Minimax和阶跃牢牢抓紧多模态;智谱则是走更本土、To B/To G的路线;百川选择继续做医疗模型;01早已宣布不再做超大基础模型迭代,转而专注在大模型落地上。

此前,Kimi在海外知名度有限,但K2的爆火已经带来实在的回报:全球开发者圈子里开始关注起Kimi,有人开始研究CEO杨植麟的过往经历。开发者们喜欢这个充满朋克文化的团队——Kimi团队成员在小红书、推特展示公司里以传奇乐队命名的会议室,也会在Twitter坦承“现在K2还不完美,infra还有很多不足,正在加班加点修复。”

△来源:Twitter

而更早之前,在Kimi专注提升模型能力,推出包括深度研究等产品后,其实也反哺到了产品上:Kimi的Web端数据从6月开始反弹,访问量环比增长30%。

某种程度上,开源和朋克有着同样的精神内核,自由、开放、尊重技术,这是现在AI圈子里最强势的"注意力货币",不仅能建立名声、展现信仰,还有招揽人才——这才是AI初创现在最着急的事。

K2发布后,一位Kimi研究员曾经在博客里提到:“ 2025年,智能的上限仍然完全由模型决定,作为一家以AGI为目标的公司,如果不去追求智能的上限,那我一天也不会多呆下去。”

追求AGI看似是一条窄路,对还在这条路上的初创公司而言,还是一条康庄大道。

只要足够专注。

封面来源|视觉中国

欢迎交流

本文来自微信公众号“智能涌现”,作者:邓咏仪,36氪经授权发布。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

医诺维
2026-03-24 17:02:18
内塔尼亚胡妻子诉苦:就因为是总理的孩子,我家孩子遭受了打骂,谴责任何形式的针对儿童的人身攻击

内塔尼亚胡妻子诉苦:就因为是总理的孩子,我家孩子遭受了打骂,谴责任何形式的针对儿童的人身攻击

大象新闻
2026-03-26 12:49:07
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
41岁张雪峰去世,成名10年争议不断,遗产曝光早已做好一切安排!

41岁张雪峰去世,成名10年争议不断,遗产曝光早已做好一切安排!

古希腊掌管松饼的神
2026-03-24 22:00:07
李幼平同志逝世

李幼平同志逝世

澎湃新闻
2026-03-26 18:05:03
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

乐天闲聊
2026-03-26 03:40:35
3.73-1.79!国足传来好消息,2-1爆冷世界杯鱼腩队?比赛时间如下

3.73-1.79!国足传来好消息,2-1爆冷世界杯鱼腩队?比赛时间如下

侃球熊弟
2026-03-26 21:09:11
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
柯文哲一审被判处有期徒刑17年 国台办回应

柯文哲一审被判处有期徒刑17年 国台办回应

新京报
2026-03-26 21:39:20
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
不可思议,德国人急了,日本急了,美国也急了,中国这下赢麻了。

不可思议,德国人急了,日本急了,美国也急了,中国这下赢麻了。

阿七说史
2026-03-09 16:01:03
没想到,张雪峰的离开,意外让蓝盈莹采访火了,才懂她活得多清醒

没想到,张雪峰的离开,意外让蓝盈莹采访火了,才懂她活得多清醒

林轻吟
2026-03-26 07:22:50
三次精准躲过斩首行动,卡尼突然现身反转剧情,伊朗这局水太深了

三次精准躲过斩首行动,卡尼突然现身反转剧情,伊朗这局水太深了

盛夏微凉
2026-03-24 18:10:08
乌克兰打出400:1恐怖战绩,俄罗斯列宁格勒港口基本被打瘫痪

乌克兰打出400:1恐怖战绩,俄罗斯列宁格勒港口基本被打瘫痪

史政先锋
2026-03-26 16:17:12
梁安琪没想到,儿子何猷君竟走上霍启刚老路,狠狠为赌王家族长脸

梁安琪没想到,儿子何猷君竟走上霍启刚老路,狠狠为赌王家族长脸

墨印斋
2026-03-25 06:25:05
标普500指数和道琼斯指数迅速收窄跌幅。道琼斯指数跌0.03%

标普500指数和道琼斯指数迅速收窄跌幅。道琼斯指数跌0.03%

每日经济新闻
2026-03-26 22:16:04
华山医院候诊屏现“照顾号”引热议,院方:为75岁以上老人等优待群体提供便利

华山医院候诊屏现“照顾号”引热议,院方:为75岁以上老人等优待群体提供便利

上游新闻
2026-03-26 15:33:08
为啥没第二人称射击游戏,因为玩过的人都疯了

为啥没第二人称射击游戏,因为玩过的人都疯了

街机时代
2026-03-25 16:55:54
人体缺什么维生素会长白头发呢?怎么防止白发出现?看完就明白了

人体缺什么维生素会长白头发呢?怎么防止白发出现?看完就明白了

健康之光
2026-03-22 22:35:08
2026-03-27 00:07:00
36氪 incentive-icons
36氪
让一部分人先看到未来
150984文章数 2848568关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
时尚
家居
旅游
本地

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

400万人爱过的女孩,被黄谣网暴180天后

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版