网易首页 > 网易号 > 正文 申请入驻

Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力|Z News

0
分享至


11 月 6 日,Kimi 发布 Kimi K2 Thinking,已在网页端与最新版 App 上线,同时其 API 也正式登陆 Kimi 开放平台。

Kimi K2 是基于「模型即 Agent」理念训练的新一代 Thinking Agent。在 OpenAI 评估 AI Agent 网络浏览能力的基准测试 BrowseComp 中,Kimi K2 以 60.2% 的成绩成为新的 SOTA 模型。

真格基金于 2023 年天使轮投资月之暗面。自 2023 年 10 月发布以来,Kimi 持续升级基础模型能力,拓展产品功能与交互体验。Kimi K2 模型最初发布于 7 月 11 日。目前,包括 Cursor、Genspark、Perplexity、YouWare 等多款产品已接入或使用 Kimi K2 模型。

我们期待在未来与 Kimi 和更多用户一起共创智能。

今天,我们发布 Kimi K2 Thinking——Kimi 迄今能力最强的开源思考模型。


Kimi K2 Thinking 是我们基于「模型即 Agent」理念训练的新一代 Thinking Agent,它原生掌握「边思考,边使用工具」的能力。在人类最后的考试(Humanity's Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到 SOTA 水平,并在 Agentic 搜索、Agentic 编程、写作和综合推理能力等方面取得全面提升。


Kimi K2 Thinking 模型无需人类干预,即可凭借持续稳定的深度思考能力自主实现高达 300 步的工具调用,从而帮助用户解决更复杂的问题。这是我们在 Test-Time Scaling(测试时扩展)领域的最新进展,通过同时扩展思考 Token 和工具调用的步数,实现更强的 Agent 和推理性能。


Kimi K2 Thinking 模型已上线 kimi.com 和最新版 Kimi 手机应用的常规对话模式。Kimi Agent 模式的底层模型后续也将升级为 Kimi K2 Thinking 模型,带来完整的多步思考和工具调用能力。


Kimi K2 Thinking 模型的 API 可通过 Kimi 开放平台(platform.moonshot.cn)访问。如需自行部署,请在 Hugging Face、ModelScope 等平台下载模型。


推理性能全面提升

我们来看一个人类最后的考试中人文类题目推理过程示例。在这个示例中,Kimi K2 Thinking 经过 5 次搜索和推理,结合每步搜索到的新信息,层层深入,最终推理出了答案:


上下滚动查看完整推理过程

自主搜索与浏览能力全面提升

在复杂搜索和浏览场景中,Kimi K2 Thinking 模型也表现出色。BrowseComp 是由 OpenAI 发布的一个专门评估 AI Agent 网络浏览能力的基准测试,这项测试的初衷是衡量 AI Agent 在信息过载环境中展现出的坚持性与创造力,即能否像人类研究员一样「刨根问底」。在这项极具挑战的任务上,人类平均只能达到 29.2% 的成绩。Kimi K2 Thinking 在这项基准测试中展现出极强的钻研能力,以 60.2% 的成绩成为新的 SOTA 模型。


在长程规划和自主搜索能力的驱动下,Kimi K2 Thinking 可借助多达上百步的「思考 → 搜索→ 浏览网页 → 思考 → 编程」动态循环,持续地提出并完善假设、验证证据、进行推理,并构建出逻辑一致的答案。这种边主动搜索边持续思考的能力,使 Kimi K2 Thinking 能够将模糊且开放式的问题分解为清晰、可执行的子任务。


我们来看一个示例,在这个例子中,Kimi K2 Thinking 经过两次搜索和思考,先根据股票回购的已知信息找到了这家制造快艇的公司,然后在美国证券交易委员会(SEC)的官网上找到了股票回购公告信息,得出了准确的答案:


上下滚动查看完整推理过程

Agentic 编程能力持续精进

Kimi K2 Thinking 模型的编码能力也得到了增强,在多语言软件工程基准 SWE-Multilingual、SWE-bench 验证集和 Terminal 终端使用等基准测试中的表现有了进一步提升。


我们观察到 Kimi K2 Thinking 在处理 HTML、React 以及组件丰富的前端任务时性能有明显提升,能将创意转变为功能齐全、响应式的产品。在 Agentic Coding 场景中,Kimi K2 Thinking 能在调用各种工具的同时进行思考,灵活地融入 software agents 中,处理更复杂、多步骤的开发工作流。


我们来看两个例子:


现在,Kimi K2 Thinking 可以帮你复刻一个真实可用的 Word 文字编辑器。


Kimi K2 Thinking 也可以帮你创造一个华丽风格的体素艺术(voxel art)作品:


通用基础能力升级

创意写作:Kimi K2 Thinking 显著提升了写作能力,它能将粗略的灵感转化为清晰、动人且意图明确的叙述,使其兼具韵律感和深度。它能轻松驾驭微妙的文风差异和模糊的结构,并在长篇大论中保持风格的连贯性。在创意写作方面,它笔下的意象更生动,情感共鸣更强烈,将精准的表达与丰富的表现力融为一体。


学术与研究:在学术研究和专业领域,Kimi K2 Thinking 在分析深度、信息准确性和逻辑结构方面均有显著提升。它能有条不紊地剖析复杂的指令,并以清晰严谨的方式拓展思路。这使其尤其擅长处理学术论文、技术摘要,以及那些对信息完整性和推理质量要求极高的长篇报告。


个人与情感:在回应个人或情感类问题时,Kimi K2 Thinking 的回答更富同理心,立场也更中正平和。它的思考深入周到且具体明确,能提供细致入微的观点和切实可行的后续建议。它能清晰并关切地帮助用户梳理复杂的决策,其语气既脚踏实地又切实中肯,更有人情味。


我们来看一个辅助阅读英文技术论文的例子:


上下滚动查看完整分析过程

原生 INT4 量化提升推理效率

低比特量化是降低大规模推理服务器的延迟和 GPU 显存占用的有效方法。我们的测试发现,因为思考模型会产生极长的解码长度,常规的量化手段往往会导致模型性能大幅下降。为了克服这一挑战,我们在后训练(post-training)阶段采用了量化感知训练(QAT),并对 MoE 组件应用了 INT4 纯权重(weight-only)量化。


这使得 Kimi K2 Thinking 模型能够在复杂推理和 Agentic 任务中支持原生的 INT4 推理,并将生成速度提升了约 2 倍。INT4 对推理硬件的兼容性更强,对国产加速计算芯片也更加友好。值得注意的是,Kimi 所有的基准测试成绩都是在 INT4 精度下取得的。

现在开始使用


前往 kimi.com 或更新到最新版 Kimi App,从「工具箱」中打开 K2 模型的「长思考」开关,即可把你遇到的复杂任务丢给 Kimi 一起思考。

Kimi K2 Thinking 模型 API 已上架 Kimi 开放平台(platform.moonshot.cn),支持 256K 上下文,价格与 Kimi K2-0905 相同,每百万 Token 输入 4 元,输出 16 元,命中缓存的输入为 1 元。速度高达 100 Token/s 的 Turbo API 也同步上架,每百万 Token 输入 8 元,输出 58 元,命中缓存的输入为 1 元。欢迎开发者测试反馈新模型 API。

关于 Kimi K2 模型


Kimi K2 模型最初发布于 7 月 11 日,它是一款混合专家架构(MoE)的开源基础模型,总参数 10,000 亿,激活参数 320 亿。9 月 5 日,Kimi K2-0905 版更新,进一步提升了代码能力,并且将上下文窗口从 128K 升级到 256K。截止目前,包括 Cline、Cursor、flowith、Genspark、Kilo Code、Kortix Suna、OpenRouter、Perplexity、RooCode、TRAE、Trickle、Vercel、Windsurf 、YouWare 等在内的产品都接入或在使用 Kimi K2 模型。11 月 6 日,Kimi K2 Thinking 模型发布,全面提升 Agent 和推理能力。




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
她这大体格身材,颜值气质都是十分完美,真的不错

她这大体格身材,颜值气质都是十分完美,真的不错

陈意小可爱
2025-10-21 12:53:32
武大“永远的校长”刘道玉去世,他被免武大校长的真实原因解禁

武大“永远的校长”刘道玉去世,他被免武大校长的真实原因解禁

神州扫描
2025-11-10 09:58:55
快船消息:哈登失常原因曝光,祖巴茨宣布喜讯,战老鹰出场更新

快船消息:哈登失常原因曝光,祖巴茨宣布喜讯,战老鹰出场更新

冷月小风风
2025-11-10 10:00:14
国内自驾游最经典的27条路线,适合退休人士,争取一年走2条!

国内自驾游最经典的27条路线,适合退休人士,争取一年走2条!

走吧自驾游
2025-11-05 18:04:38
韩国3-1负非洲劲旅,无缘小组头名,世界杯32强赛22队出线

韩国3-1负非洲劲旅,无缘小组头名,世界杯32强赛22队出线

丁蓳解说
2025-11-11 03:42:21
从今天起,中国不再需要日本道歉!这觉醒,来自3500万亡魂的重量

从今天起,中国不再需要日本道歉!这觉醒,来自3500万亡魂的重量

林子说事
2025-11-07 10:18:39
女孩天生大脑只有半个小拇指大?!父母照顾她到20岁,网友却:这活着有啥意思?

女孩天生大脑只有半个小拇指大?!父母照顾她到20岁,网友却:这活着有啥意思?

英国那些事儿
2025-11-10 23:26:42
意媒:本托想离开沙特转会欧洲,国米和米兰对其感兴趣

意媒:本托想离开沙特转会欧洲,国米和米兰对其感兴趣

懂球帝
2025-11-10 21:29:06
云南发布方案:厅局长有了新任务

云南发布方案:厅局长有了新任务

新浪财经
2025-11-10 23:58:52
9岁女童术后成了植物人,河南省人民医院多科室医护人员篡改病历,卫健委回应:行为属实,已立案

9岁女童术后成了植物人,河南省人民医院多科室医护人员篡改病历,卫健委回应:行为属实,已立案

观威海
2025-11-10 11:02:05
状态正佳,B费时隔5年再次连续三个英超客场送助攻

状态正佳,B费时隔5年再次连续三个英超客场送助攻

懂球帝
2025-11-11 02:15:08
广汽董事长鼓励广州豹:不管结果如何,我们完成了60分的目标

广汽董事长鼓励广州豹:不管结果如何,我们完成了60分的目标

懂球帝
2025-11-10 13:52:05
朝鲜战争中,美军原本已接近击败中国,却碰上了志愿军决死的师长

朝鲜战争中,美军原本已接近击败中国,却碰上了志愿军决死的师长

知鉴明史
2025-11-09 17:15:03
郝蕾深夜发文,戳破辛芷蕾资源咖黑幕!官方发声,没给她留体面

郝蕾深夜发文,戳破辛芷蕾资源咖黑幕!官方发声,没给她留体面

东方不败然多多
2025-11-10 04:15:56
危险!中国神二十还未返航,太空出现大量不速之客,航天员该咋办

危险!中国神二十还未返航,太空出现大量不速之客,航天员该咋办

趣文说娱
2025-10-29 15:27:34
果敢四大家族残害中国人14年,因一神秘女子失踪遭同盟军清剿

果敢四大家族残害中国人14年,因一神秘女子失踪遭同盟军清剿

真实故事汇
2024-10-05 11:35:24
昨夜美股大涨,英伟达上涨5%,今日A股或迎科技大爆发

昨夜美股大涨,英伟达上涨5%,今日A股或迎科技大爆发

九语财经
2025-11-11 04:46:49
中医长高专家:家长用好4个方法,男孩超1米8,女孩将近1米7

中医长高专家:家长用好4个方法,男孩超1米8,女孩将近1米7

菁妈育儿
2025-11-07 11:29:57
俄军高层迎来重磅调整!普京签署总统令换将,两位大将被委以重任

俄军高层迎来重磅调整!普京签署总统令换将,两位大将被委以重任

史纪文谭
2025-11-10 19:36:40
德天空:曼联已表达对安德森明确兴趣,森林要价1亿至1.2亿镑

德天空:曼联已表达对安德森明确兴趣,森林要价1亿至1.2亿镑

懂球帝
2025-11-11 06:53:04
2025-11-11 07:15:00
真格基金 incentive-icons
真格基金
创业,来真格的。
1476文章数 3588关注度
往期回顾 全部

科技要闻

荷兰“玩脱”后,大众本田终于拿到芯片了

头条要闻

巴菲特:已捐出13亿美元股票 感叹活到95岁是幸运

头条要闻

巴菲特:已捐出13亿美元股票 感叹活到95岁是幸运

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

51岁周迅的现状 给中年女性提了个醒?

财经要闻

北大医药董事长被抓 巨额资金去向不明

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

亲子
健康
教育
时尚
手机

亲子要闻

全周期赋能中国母婴健康,八赴进博会聚焦生命早期1000天

超声探头会加重受伤情况吗?

教育要闻

高中英语应该是多做题,还是系统的学语法?目前分数三四十

女人过了40岁穿衣别老气横秋,看看这些日系穿搭,得体又显瘦

手机要闻

iPhone有望2027年实现真正全面屏,隐藏Face ID与前置镜头

无障碍浏览 进入关怀版