网易首页 > 网易号 > 正文 申请入驻

罕见!月之暗面杨植麟、周昕宇、吴育昕回应一切:打假460万美元、调侃OpenAI

0
分享至


智东西
编译 陈骏达
编辑 云鹏

智东西11月11日报道,今天凌晨,月之暗面核心团队在社交媒体平台Reddit上举行了一场有问必答(AMA)活动,月之暗面联合创始人兼CEO杨植麟等人在Kimi K2 Thinking模型发布后不久,正面回应了模型训练成本、跑分与实际体验差距等热点议题。

Kimi K2 Thinking模型训练成本仅为460万美元的网络传言喊得响亮,不过,杨植麟已经打假了,他称,这并非官方数据,训练成本很难量化,因为其中很大一部分用于研究和实验。他还透露,月之暗面已经在研究K2的VL(视觉-语言)版本了。


有不少海外网友提出了十分尖锐的问题,比如Kimi K2 Thinking的推理长度过长,榜单成绩与实际体验不符等问题。杨植麟解释了背后的原因,他称现阶段该模型优先考虑绝对性能,token效率会在后续得到改善。榜单高分与实测的脱节,也会在模型通用能力补齐后获得改善。

10月底,月之暗面开源了混合线性注意力架构Kimi Linear,首次在短上下文、长上下文、强化学习扩展机制等各种场景中超越了全注意力机制,引来不少开发者关注。杨植麟称,Kimi Linear的KDA混合线性注意力模块,很可能会以某种形式出现在K3中。

而当网友问及K3的发布时间时,杨植麟戏谑地回应道:“在Sam价值万亿美元的数据中心建成之前。”


月之暗面团队似乎还在另外几条评论中调侃了OpenAI。当网友问及有无AI浏览器的开发计划时,月之暗面联合创始人兼算法团队负责人周昕宇称,要做出更好的模型,并不需要再去套一层新的Chromium壳。而当网友好奇OpenAI为何要烧掉那么多钱时,周昕宇称:“这个问题只有Sam才知道。我们有自己的方式和节奏。”

面对外界关于“开源是否会带来安全风险”的提问,杨植麟回应称,开放安全对齐技术栈有助于更多研究者在微调开源模型时保持安全性,同时他也强调需要建立机制,确保这些后续工作遵循安全协议。

他还在另一条评论中补充道:“我们拥抱开源,因为我们相信对AGI(通用人工智能)的追求,应该带来团结,而不是分裂。”

月之暗面联合创始人吴育昕也一同参与了这场问答,杨植麟、周昕宇、吴育昕围绕Kimi系列模型的架构创新、训练细节、开源策略以及未来规划与网友进行了交流。

一、K2 Thinking现有优先级是性能,独特文风背后有诀窍

在这场活动中,最受关注的焦点是Kimi K2 Thinking模型,这是月之暗面最新发布的开源推理模型。

有网友称,自己测试了Kimi K2 Thinking与GPT-5 Thinking,前者的正确率领先,但推理时间更长,像是在不停复查自己。对此,杨植麟称,他们正在积极优化token使用效率。当前版本中,优先考虑的是绝对性能而非token效率。月之暗面会尝试将效率纳入奖励机制,以便它能学习如何简化思考过程。


还有网友质疑,Kimi K2 Thinking是否经过专门训练,以在HLE这一基准测试中取得好成绩?它的高分似乎与实际使用中的智能水平不太相符。

杨植麟回应道,Kimi K2 Thinking在提升智能体推理能力方面取得了一些进展,使其在HLE测试中得分较高。月之暗面正在努力进一步提升其通用能力,以便在更多实际应用场景中充分发挥智能的作用。

另有网友问道:“为何K2 Thinking能在一次推理中保持如此长的思维链,而GPT-5不行?”

杨植麟解释道:“我认为推理时间取决于API吞吐,而推理token的数量取决于模型训练方式。我们在训练Kimi K2 Thinking时倾向于使用更多的思考token以获得最佳效果。我们的Turbo API会更快,同时Kimi K2 Thinking原生采用INT4,这也提升了推理速度。

Kimi K2 Thinking是一款纯文本模型,有网友提问称,这究竟是为了达到SOTA而做出的短期权衡,还是一项长期投资?杨植麟回应,获得正确的VL数据和训练需要时间,因此月之暗面选择先发布文本模型。

Kimi K2系列模型不阿谀奉承、直接的文风在AI界算是一股清流,有不少网友认可这种风格。吴育昕称,这种写作风格是模型后训练数据和评估的重要组成部分。

谈及KDA,杨植麟称,从历史上看,混合注意力在长输入和长输出任务上要超越全注意力一直很困难。KDA在所有维度上都展示了性能提升,包括长思维链RL场景,同时保持了线性注意力的高效性。

另一位网友补充道,希望KDA能结合扩散模型使用。杨植麟认为这一想法是可行的,但文本扩散(text diffusion)比较困难,可能是因为在将扩散应用到文本上时,还没有足够好的先验。

周昕宇在技术层面进一步解释了KDA的对比优势。他称,KDA混合架构结合NoPE MLA后,在预训练和强化学习阶段均优于采用RoPE的完整MLA。不仅基准得分更高,还更快、更经济,使他们能够更高效地训练、部署并服务更多用户。未来,月之暗面还有进一步改进,成熟后会公开。


近期,DeepSeek、智谱都曾发布以视觉方式作为输入,以提升效率的探索。不过,周昕宇称,他个人认为这种方法过于刻意,自己更倾向于继续探索特征空间,寻找更通用、与模态无关的方法来提高模型效率。

此前,月之暗面曾经在模型中采用了Muon作为优化器,网友认为这一优化器相对来说未经测试,这一决定似乎有些疯狂。

周昕宇解释了采用Muon的历程。他称,Muon是一个未经其他厂商测试的优化器,但月之暗面已经用它进行了所有的扩展测试,结果都通过了。他们对自己的研究成果充满信心,网友或许认为Muon只是运气好,但实际上有几十种优化器和架构没有经受住这样的考验。

二、“被封禁”已超出控制范围,上下文窗口将进一步扩展

月之暗面三位联合创始人还集中回应了与模型服务、开源等相关话题的疑问。有网友称,Kimi在自己的公司已经成为主要的测试模型,但生产环境会切换到美国本土的模型。这主要是因为领导层担心Kimi是“中国大模型”,可能存在一些风险。

这位网友还分享,自己很喜欢使用Kimi App,自己一位在亚马逊工作的朋友也很喜欢这一应用,但由于亚马逊有规定必须使用自家的AI助手,禁止在工作场合使用其他主流的AI助手App。网友担心,随着Kimi逐渐变得知名,她会不会再也无法在工作场合中使用呢?

吴育昕回应称:“虽然被“封禁”往往超出我们的控制范围,但开源该模型有望成为消除部分顾虑的有效途径(企业可以自行部署)。我们希望看到一个更加信任的世界,但这需要时间。”


上下文一直是影响AI模型在生产环境应用的重要因素。目前,Kimi K2 Thinking最大支持256K的上下文,有网友反馈这对大型代码库而言并不算大。杨植麟称,月之暗面应该能在未来的版本中增加上下文长度。

还有网友希望月之暗面能将模型上下文窗口提升到100万个token,周昕宇回复道,月之暗面之前已尝试过100万个token的上下文窗口,但当时的服务成本太高。未来他们会重新考虑更长的上下文窗口

当被问及有无AI浏览器的开发计划时,周昕宇十分犀利地回复道:要做出更好的模型,并不需要再去套一层新的Chromium壳。杨植麟称,月之暗面目前将专注于模型训练,但会不断更新kimi.com ,使其包含最新功能。

还有不少网友提到,希望月之暗面能推出规模更小的模型。杨植麟称,Kimi-Linear-48B-A3B-Instruct就是月之暗面发布的小型模型之一,未来他们可能会训练更多模型并添加更多功能。

目前,Kimi已经提供了编程订阅方案,这一计费方式是基于API请求次数,有网友称这种模式导致资源消耗偏高。月之暗面回应称,API请求次数计费能让用户看到费用明细,同时也更符合企业的成本结构。不过,他们会尽快找到更好的方案。

结语:中国AI创新能力获得认可

从社区中海外开发者的热烈提问和尖锐反馈可以看出,以Kimi系列为代表的中国模型正受到前所未有的关注。

月之暗面此次在Reddit平台的公开问答,集中回应了全球网友对Kimi技术细节的大量兴趣和疑问。这种关注背后,也折射出全球开发者对中国AI创新能力的认可。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

云霄纪史观
2026-03-25 12:16:14
山东“老头乐”公司起诉小米汽车,当事企业称已和解

山东“老头乐”公司起诉小米汽车,当事企业称已和解

界面新闻
2026-03-26 16:30:03
江青作品惊艳!字写得灵动,秘诀竟在用笔!

江青作品惊艳!字写得灵动,秘诀竟在用笔!

书画相约
2026-03-19 09:15:49
为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

廖保平
2026-03-17 09:04:38
中国退无可退,美军已选好他们的主战场,正逼着我们跳进战争陷阱

中国退无可退,美军已选好他们的主战场,正逼着我们跳进战争陷阱

南权先生
2026-03-02 15:26:15
马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

DS北风
2026-03-25 18:50:17
张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

张雪峰的家人发声明!丧事从简,28号办葬礼,公开了张雪峰的遗愿

苗苗情感说
2026-03-26 09:33:59
相由心生?女子以考公为由啃男友4年不结婚,分手后声泪俱下控诉

相由心生?女子以考公为由啃男友4年不结婚,分手后声泪俱下控诉

聚焦最新动态
2026-03-26 07:51:49
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
凯特戴6000块的帽子险出洋相!助手说漏嘴,意外爆出威廉的瓜?

凯特戴6000块的帽子险出洋相!助手说漏嘴,意外爆出威廉的瓜?

白露文娱志
2026-03-26 16:41:18
张雪峰生前忠告:普通学生不要碰的20个专业,大家千万别忘记!

张雪峰生前忠告:普通学生不要碰的20个专业,大家千万别忘记!

教育导向分享
2026-03-25 22:28:37
张云逸与邓小平相交45年,因何事张云逸说:分别之前还能见你真好

张云逸与邓小平相交45年,因何事张云逸说:分别之前还能见你真好

大运河时空
2026-03-25 15:15:03
油价调整:注意,预计下调120元/吨,油价突破下调红线!

油价调整:注意,预计下调120元/吨,油价突破下调红线!

金投网
2026-03-26 11:16:05
美国“内战”进入倒计时?特朗普通报全球,美国头号敌人已出现

美国“内战”进入倒计时?特朗普通报全球,美国头号敌人已出现

卷史
2026-03-26 18:39:44
为啥萨哈夫能放生,革命卫队发言人必须被斩首

为啥萨哈夫能放生,革命卫队发言人必须被斩首

移光幻影
2026-03-21 10:13:06
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
浙江省政府领导班子有调整

浙江省政府领导班子有调整

极目新闻
2026-03-26 09:59:46
一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

谷盟a
2026-03-24 13:43:01
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
2026-03-26 19:43:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11436文章数 117015关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
时尚
本地
家居
公开课

亲子要闻

这就是引导型老师的厉害吗?

皮衣+裙,高级到炸

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版