月之暗面K2.7编程模型：推理令牌省30%，代理任务更稳|编码器|上下文

月之暗面K2.7编程模型：推理令牌省30%，代理任务更稳

2026-06-30 01:12:47　来源: 灰度测试中

北京举报

分享至

一个编程向的开放权重模型，参数规模没扩，上下文窗口没变，却把推理过程中产生的令牌量砍掉三成。这不是营销话术——月之暗面6月12日放出的Kimi K2.7 Code，直接用工程师最看重的指标说话：同等或更优的答案，更少中间步骤，直接拉低推理账单，代理任务的循环也跑得更轻快。

先划清定位。K2.7 Code不是K2.6的通用接班者。它被明确切进编程赛道，而写文、做分析、日常对话这些活，官方仍旧推荐K2.6。两份模型共用一套1万亿参数的混合专家架构，差异出在训练和微调的环节。这种“同个身体，不同本事”的分工，倒很适合团队按需选刀。

省掉的30%推理令牌具体怎么算？很多语言模型一开“思考”或思维链模式，就会先生成一堆内部推理令牌，再吐出最终答案。这些额外步骤吃显存、拖延迟、计费时还按字收钱。K2.7 Code对比K2.6，在达到相同乃至更好编码结果时，产生的推理令牌量减少约30%，相当于同一通代码调试，调用成本直降，响应更快。

长期代理任务里的稳定性塌方，月之暗面这次也补了板子。常见现象是模型前十个步骤跑得风生水起，到了第五十步输出质量断崖下滑。K2.7 Code在横跨Python、Rust、Go等十多种语言的长时间多轮编程会话里，可靠性明显上扬。对于要连着改bug、跑测试、看日志的重度场景，这个改进比单纯刷榜更解渴。

架构底子还是那套万亿参数MoE，每token激活约320亿参数。61个transformer层里，1层是密集计算，剩下60层走MoE路由。384位专家中，每个token选8个再加1位共享专家。至于长上下文，模型给出的窗口是256K token，能够一口吞下代码仓库级的提交。让这个长度从纸面落地的，是多头潜在注意力机制。标准注意力在长序列上内存占用呈平方级爆炸，MLA靠压缩键值缓存稳住阵脚，你才真能把整个拉取请求、差异、日志、测试输出塞进一条提示里审。

多模态输入由MoonViT负责，这个4亿参数的视觉编码器让画面也能参与编程对话。比如传一张崩溃界面截图，连带相关代码片段，模型能直接结合视觉线索进行调试。原文中提到视觉编码器支持图像和视频输入，这让开发者在定位前端异常或视觉回归时，少走几趟屏幕切来切去的冤枉路。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.