网易首页 > 网易号 > 正文 申请入驻

罕见!月之暗面杨植麟、周昕宇、吴育昕回应一切:打假460万美元、调侃OpenAI

0
分享至


智东西
编译 陈骏达
编辑 云鹏

智东西11月11日报道,今天凌晨,月之暗面核心团队在社交媒体平台Reddit上举行了一场有问必答(AMA)活动,月之暗面联合创始人兼CEO杨植麟等人在Kimi K2 Thinking模型发布后不久,正面回应了模型训练成本、跑分与实际体验差距等热点议题。

Kimi K2 Thinking模型训练成本仅为460万美元的网络传言喊得响亮,不过,杨植麟已经打假了,他称,这并非官方数据,训练成本很难量化,因为其中很大一部分用于研究和实验。他还透露,月之暗面已经在研究K2的VL(视觉-语言)版本了。


有不少海外网友提出了十分尖锐的问题,比如Kimi K2 Thinking的推理长度过长,榜单成绩与实际体验不符等问题。杨植麟解释了背后的原因,他称现阶段该模型优先考虑绝对性能,token效率会在后续得到改善。榜单高分与实测的脱节,也会在模型通用能力补齐后获得改善。

10月底,月之暗面开源了混合线性注意力架构Kimi Linear,首次在短上下文、长上下文、强化学习扩展机制等各种场景中超越了全注意力机制,引来不少开发者关注。杨植麟称,Kimi Linear的KDA混合线性注意力模块,很可能会以某种形式出现在K3中。

而当网友问及K3的发布时间时,杨植麟戏谑地回应道:“在Sam价值万亿美元的数据中心建成之前。”


月之暗面团队似乎还在另外几条评论中调侃了OpenAI。当网友问及有无AI浏览器的开发计划时,月之暗面联合创始人兼算法团队负责人周昕宇称,要做出更好的模型,并不需要再去套一层新的Chromium壳。而当网友好奇OpenAI为何要烧掉那么多钱时,周昕宇称:“这个问题只有Sam才知道。我们有自己的方式和节奏。”

面对外界关于“开源是否会带来安全风险”的提问,杨植麟回应称,开放安全对齐技术栈有助于更多研究者在微调开源模型时保持安全性,同时他也强调需要建立机制,确保这些后续工作遵循安全协议。

他还在另一条评论中补充道:“我们拥抱开源,因为我们相信对AGI(通用人工智能)的追求,应该带来团结,而不是分裂。”

月之暗面联合创始人吴育昕也一同参与了这场问答,杨植麟、周昕宇、吴育昕围绕Kimi系列模型的架构创新、训练细节、开源策略以及未来规划与网友进行了交流。

一、K2 Thinking现有优先级是性能,独特文风背后有诀窍

在这场活动中,最受关注的焦点是Kimi K2 Thinking模型,这是月之暗面最新发布的开源推理模型。

有网友称,自己测试了Kimi K2 Thinking与GPT-5 Thinking,前者的正确率领先,但推理时间更长,像是在不停复查自己。对此,杨植麟称,他们正在积极优化token使用效率。当前版本中,优先考虑的是绝对性能而非token效率。月之暗面会尝试将效率纳入奖励机制,以便它能学习如何简化思考过程。


还有网友质疑,Kimi K2 Thinking是否经过专门训练,以在HLE这一基准测试中取得好成绩?它的高分似乎与实际使用中的智能水平不太相符。

杨植麟回应道,Kimi K2 Thinking在提升智能体推理能力方面取得了一些进展,使其在HLE测试中得分较高。月之暗面正在努力进一步提升其通用能力,以便在更多实际应用场景中充分发挥智能的作用。

另有网友问道:“为何K2 Thinking能在一次推理中保持如此长的思维链,而GPT-5不行?”

杨植麟解释道:“我认为推理时间取决于API吞吐,而推理token的数量取决于模型训练方式。我们在训练Kimi K2 Thinking时倾向于使用更多的思考token以获得最佳效果。我们的Turbo API会更快,同时Kimi K2 Thinking原生采用INT4,这也提升了推理速度。

Kimi K2 Thinking是一款纯文本模型,有网友提问称,这究竟是为了达到SOTA而做出的短期权衡,还是一项长期投资?杨植麟回应,获得正确的VL数据和训练需要时间,因此月之暗面选择先发布文本模型。

Kimi K2系列模型不阿谀奉承、直接的文风在AI界算是一股清流,有不少网友认可这种风格。吴育昕称,这种写作风格是模型后训练数据和评估的重要组成部分。

谈及KDA,杨植麟称,从历史上看,混合注意力在长输入和长输出任务上要超越全注意力一直很困难。KDA在所有维度上都展示了性能提升,包括长思维链RL场景,同时保持了线性注意力的高效性。

另一位网友补充道,希望KDA能结合扩散模型使用。杨植麟认为这一想法是可行的,但文本扩散(text diffusion)比较困难,可能是因为在将扩散应用到文本上时,还没有足够好的先验。

周昕宇在技术层面进一步解释了KDA的对比优势。他称,KDA混合架构结合NoPE MLA后,在预训练和强化学习阶段均优于采用RoPE的完整MLA。不仅基准得分更高,还更快、更经济,使他们能够更高效地训练、部署并服务更多用户。未来,月之暗面还有进一步改进,成熟后会公开。


近期,DeepSeek、智谱都曾发布以视觉方式作为输入,以提升效率的探索。不过,周昕宇称,他个人认为这种方法过于刻意,自己更倾向于继续探索特征空间,寻找更通用、与模态无关的方法来提高模型效率。

此前,月之暗面曾经在模型中采用了Muon作为优化器,网友认为这一优化器相对来说未经测试,这一决定似乎有些疯狂。

周昕宇解释了采用Muon的历程。他称,Muon是一个未经其他厂商测试的优化器,但月之暗面已经用它进行了所有的扩展测试,结果都通过了。他们对自己的研究成果充满信心,网友或许认为Muon只是运气好,但实际上有几十种优化器和架构没有经受住这样的考验。

二、“被封禁”已超出控制范围,上下文窗口将进一步扩展

月之暗面三位联合创始人还集中回应了与模型服务、开源等相关话题的疑问。有网友称,Kimi在自己的公司已经成为主要的测试模型,但生产环境会切换到美国本土的模型。这主要是因为领导层担心Kimi是“中国大模型”,可能存在一些风险。

这位网友还分享,自己很喜欢使用Kimi App,自己一位在亚马逊工作的朋友也很喜欢这一应用,但由于亚马逊有规定必须使用自家的AI助手,禁止在工作场合使用其他主流的AI助手App。网友担心,随着Kimi逐渐变得知名,她会不会再也无法在工作场合中使用呢?

吴育昕回应称:“虽然被“封禁”往往超出我们的控制范围,但开源该模型有望成为消除部分顾虑的有效途径(企业可以自行部署)。我们希望看到一个更加信任的世界,但这需要时间。”


上下文一直是影响AI模型在生产环境应用的重要因素。目前,Kimi K2 Thinking最大支持256K的上下文,有网友反馈这对大型代码库而言并不算大。杨植麟称,月之暗面应该能在未来的版本中增加上下文长度。

还有网友希望月之暗面能将模型上下文窗口提升到100万个token,周昕宇回复道,月之暗面之前已尝试过100万个token的上下文窗口,但当时的服务成本太高。未来他们会重新考虑更长的上下文窗口

当被问及有无AI浏览器的开发计划时,周昕宇十分犀利地回复道:要做出更好的模型,并不需要再去套一层新的Chromium壳。杨植麟称,月之暗面目前将专注于模型训练,但会不断更新kimi.com ,使其包含最新功能。

还有不少网友提到,希望月之暗面能推出规模更小的模型。杨植麟称,Kimi-Linear-48B-A3B-Instruct就是月之暗面发布的小型模型之一,未来他们可能会训练更多模型并添加更多功能。

目前,Kimi已经提供了编程订阅方案,这一计费方式是基于API请求次数,有网友称这种模式导致资源消耗偏高。月之暗面回应称,API请求次数计费能让用户看到费用明细,同时也更符合企业的成本结构。不过,他们会尽快找到更好的方案。

结语:中国AI创新能力获得认可

从社区中海外开发者的热烈提问和尖锐反馈可以看出,以Kimi系列为代表的中国模型正受到前所未有的关注。

月之暗面此次在Reddit平台的公开问答,集中回应了全球网友对Kimi技术细节的大量兴趣和疑问。这种关注背后,也折射出全球开发者对中国AI创新能力的认可。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Nice!你好,欧文!复出时间曝光......

Nice!你好,欧文!复出时间曝光......

篮球实战宝典
2025-11-18 16:34:35
中央定调,退休新规,1970年后出生的,缴够15年可以提前退休吗?

中央定调,退休新规,1970年后出生的,缴够15年可以提前退休吗?

boss外传
2025-11-17 16:00:03
美媒终于承认:福特号真不能弹射F-35C!理由实在有点荒唐

美媒终于承认:福特号真不能弹射F-35C!理由实在有点荒唐

boss外传
2025-11-13 16:55:03
大批中国人依然去日本旅游,被日媒看了笑话,记者采访道出心声

大批中国人依然去日本旅游,被日媒看了笑话,记者采访道出心声

小小包工头阿汾
2025-11-18 12:49:43
罗伯逊:距离世界杯只差90分钟,我相信我们能战胜丹麦

罗伯逊:距离世界杯只差90分钟,我相信我们能战胜丹麦

懂球帝
2025-11-18 14:25:08
越来越不对劲,小县城的工资开始崩塌了

越来越不对劲,小县城的工资开始崩塌了

诗意世界
2025-11-13 10:25:43
张怡宁没想到,与徐威恩爱16年,也逃不过“老夫少妻”的残酷现实

张怡宁没想到,与徐威恩爱16年,也逃不过“老夫少妻”的残酷现实

妙知
2025-10-28 14:34:15
收官战还有4天开打,海港却连迎两个坏消息,取胜大连英博有点悬

收官战还有4天开打,海港却连迎两个坏消息,取胜大连英博有点悬

零度眼看球
2025-11-18 08:51:55
“曾经高攀不上,如今白送没人要”的7种电器,看看你家有几样?

“曾经高攀不上,如今白送没人要”的7种电器,看看你家有几样?

家电小超人
2025-11-18 17:05:03
紧急提醒! 浙江65岁大爷地里摘“长寿菜”吃, 10天后肾出大问题

紧急提醒! 浙江65岁大爷地里摘“长寿菜”吃, 10天后肾出大问题

万象硬核本尊
2025-11-17 17:00:01
中国近乎绝版的老香烟,全都认识的,差不多已经是爷爷辈的人了

中国近乎绝版的老香烟,全都认识的,差不多已经是爷爷辈的人了

寒士之言本尊
2025-11-04 19:58:24
集体跳水!全球市场突变

集体跳水!全球市场突变

证券时报
2025-11-18 17:43:07
高市万万没想到,派“弃子”来华后,中国立场变了,又叫停2件事

高市万万没想到,派“弃子”来华后,中国立场变了,又叫停2件事

潮鹿逐梦
2025-11-17 21:59:35
山西血案中的生死抉择:姐姐一句“别回来”,如何守住全家平安?

山西血案中的生死抉择:姐姐一句“别回来”,如何守住全家平安?

记录生活日常阿蜴
2025-11-17 13:20:49
大跳水!暴跌40%,又土又贵还开遍机场,中产的标配,卖不动了

大跳水!暴跌40%,又土又贵还开遍机场,中产的标配,卖不动了

毒sir财经
2025-11-16 23:08:08
泽连斯基确实没跑没跪没投降,但他对乌克兰造成的伤害大于任何人

泽连斯基确实没跑没跪没投降,但他对乌克兰造成的伤害大于任何人

百态人间
2025-11-18 17:00:03
郑丽文果然高明:美日德都找到她,她马上就派人给大陆带了一句话

郑丽文果然高明:美日德都找到她,她马上就派人给大陆带了一句话

现代小青青慕慕
2025-11-17 10:39:45
这次哈马斯的认怂和服输会让哪些人备感失落呢?大概有三类人!

这次哈马斯的认怂和服输会让哪些人备感失落呢?大概有三类人!

翻开历史和现实
2025-10-12 15:49:50
苏群:杨瀚森打G联赛如果一场30分钟不累,便可以适应NBA强度

苏群:杨瀚森打G联赛如果一场30分钟不累,便可以适应NBA强度

林小湜体育频道
2025-11-18 00:33:31
又双叒输了!三分打手被无视?哈登真燃尽了...

又双叒输了!三分打手被无视?哈登真燃尽了...

准者篮球训练营
2025-11-18 17:23:31
2025-11-18 18:48:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10754文章数 116898关注度
往期回顾 全部

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

22岁女生跳河轻生 生前因未请假离校与辅导员发生争执

头条要闻

22岁女生跳河轻生 生前因未请假离校与辅导员发生争执

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

游戏
旅游
时尚
数码
军事航空

从二战到星际战争,在历史中运筹帷幄!盘点经典硬核历史策略游戏

旅游要闻

中国游客出境偏好变了!韩国取代日本登顶第一,上海直飞沙巴包机将重启

从百元到大牌,《新闻女王2》的职场穿搭,每种预算都能找到参考

数码要闻

天马全球首发真610Hz无极电竞屏,还有108英寸4K巨幕Micro LED

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版