一个编程向的开放权重模型,参数规模没扩,上下文窗口没变,却把推理过程中产生的令牌量砍掉三成。这不是营销话术——月之暗面6月12日放出的Kimi K2.7 Code,直接用工程师最看重的指标说话:同等或更优的答案,更少中间步骤,直接拉低推理账单,代理任务的循环也跑得更轻快。
先划清定位。K2.7 Code不是K2.6的通用接班者。它被明确切进编程赛道,而写文、做分析、日常对话这些活,官方仍旧推荐K2.6。两份模型共用一套1万亿参数的混合专家架构,差异出在训练和微调的环节。这种“同个身体,不同本事”的分工,倒很适合团队按需选刀。
省掉的30%推理令牌具体怎么算?很多语言模型一开“思考”或思维链模式,就会先生成一堆内部推理令牌,再吐出最终答案。这些额外步骤吃显存、拖延迟、计费时还按字收钱。K2.7 Code对比K2.6,在达到相同乃至更好编码结果时,产生的推理令牌量减少约30%,相当于同一通代码调试,调用成本直降,响应更快。
长期代理任务里的稳定性塌方,月之暗面这次也补了板子。常见现象是模型前十个步骤跑得风生水起,到了第五十步输出质量断崖下滑。K2.7 Code在横跨Python、Rust、Go等十多种语言的长时间多轮编程会话里,可靠性明显上扬。对于要连着改bug、跑测试、看日志的重度场景,这个改进比单纯刷榜更解渴。
架构底子还是那套万亿参数MoE,每token激活约320亿参数。61个transformer层里,1层是密集计算,剩下60层走MoE路由。384位专家中,每个token选8个再加1位共享专家。至于长上下文,模型给出的窗口是256K token,能够一口吞下代码仓库级的提交。让这个长度从纸面落地的,是多头潜在注意力机制。标准注意力在长序列上内存占用呈平方级爆炸,MLA靠压缩键值缓存稳住阵脚,你才真能把整个拉取请求、差异、日志、测试输出塞进一条提示里审。
多模态输入由MoonViT负责,这个4亿参数的视觉编码器让画面也能参与编程对话。比如传一张崩溃界面截图,连带相关代码片段,模型能直接结合视觉线索进行调试。原文中提到视觉编码器支持图像和视频输入,这让开发者在定位前端异常或视觉回归时,少走几趟屏幕切来切去的冤枉路。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.