网易首页 > 网易号 > 正文 申请入驻

资源不到万亿 OpenAI 的 1% ,Kimi 新模型超越 GPT-5

0
分享至

时隔 4 个月,Kimi 推出了旗下开源模型 K2 的推理版本——K2 Thinking 模型,Kimi 迄今为止最强的开源思考模型。

1T 参数,MoE 架构,32B 激活,原生 INT4 量化,256k 上下文,更好支持国产 GPU。

官方评测成绩显示,K2 Thinking 在「人类最后的考试」的评测中,多项基准测试的表现达到了 SOTA 水平,不仅仅是开源领域,K2 Thinking 的测试成绩超过了同类型闭源模型。


相比较 K2 模型,K2 Thinking 模型无需人工干预,可以自主实现高达 300 轮的工具调用和多轮思考能力,可以解决更复杂的问题。

回过头来看,从 K2 到 K2 Thinking,从「模型即 Agent」到「模型即 Thinking Agent」,Kimi 正依靠自己的独特技术思考和判断,在资源受限的情况下,走上追赶乃至超过欧美 AI 巨头的道路。

不管怎么看,都有点热血漫的即视感。

⬆️关注 Founder Park,最及时最干货的创业分享

超 15000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群:

进群后,你有机会得到:

  • 最新、最值得关注的 AI 新品资讯;

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道


01K2 Thinking,人类最后考试的 SOTA 模型

正如姚顺雨在《AI 下半场》中所说,「人工智能的下半场——从现在开始——将把重点从解决问题转移到定义问题。在这个新时代,评估将比训练更重要。」

模型能力持续进步的当下,评估变得比以往更加重要。

在 NMLU、GPQA 等传统基准测试已经无法有效体现模型能力的时候,人类最后的考试(Humanity's Last Exam,简称 HLE)在 2025 年应运而生。这是一个旨在评估当下最厉害的大模型的能力的基准测试集。由 Center for AI Safety 和 Scale AI 联合创建,测试内容几经调整,最终在 2025 年 3 月 4 日确定为一套包含了 2500 个前沿学术难题的题库,这些题分布在 100 多个不同的学科领域由 50 多个国家的近 1000 名学科专家贡献。

在允许使用工具——搜索、Python、网络浏览工具的同等情况下,针对 Text-Only 的数据集的测试结果中,Kimi K2 Thinking 在这项基准评测中取得了 44.9% 的 SOTA 成绩。


HLE 测试集最初发布时,旗舰模型的评测结果都不到 20%,到了今天大家基本都达到了超过 40% 的成绩,在数据的 Scaling Law 效果逐渐减小的当下,模型的能力确实还在一直进步中。

甚至有了开源模型超过闭源模型的一幕。

除去官方的演示测试外,我们也看到了「歸藏的 AI 工具箱」、「赛博禅心」等自媒体作者的评测,不只是代码能力增强了,更明显的是,解决问题的综合能力真的提升了。


02当缸中之脑真正有了脚手架

回到 4 个月前,在 K2 初发布时,很多人的第一疑惑是——居然不是个推理模型?

在 DeepSeek R1 已经成为全球级的现象事件时,一款非推理模型的开源,能带来多大的反响呢?

Kimi 当时对外的回答是聚焦 Agent,做能更好调用工具的 Agent 模型。在我们与Kimi一位研究员的聊天中得知,其实在 K2 发布前,他们已经做过一个初版的 thinking 模型,但在 K2上线时,只先发布了 Agent 的前半截。

8 月份张小珺对杨植麟的采访中,杨植麟在他认为的两种模型范式中,选择了后者。

「一种是长思考的推理模型(Reasoning Model),以 o1 作为第一个做出来的代表。本质上,它通过让模型在过程中做很多尝试和反思,反思是其中重点。但它还是一个『缸中之脑』(brain in a vat),并不需要跟外界交互。」

「但有另一个很重要的范式,就是基于多轮的 Agent(智能体)强化学习范式,或者通过强化学习技术训练出来的 Agentic 模型,它的特点是会跟外界做很多交互。」

「但这两个东西都指向了同一个东西,是:test-time scaling(测试时扩展)。意思是,可以在测试时,或者在推理时,做到更好的规模化。」

Kimi 当时选择了第二种方式,先做「交互」,然后再做「反思」,也就是今天的 K2 Thinking。

一个有了脚手架的「缸中之脑」,用杨植麟的话说,「它可能是一个从『缸中之脑』变成可以跟世界交互,因为所谓 Agent 最重要的特征,就是它可以多轮地使用工具。

有两个关键点:一个是多轮,一个是工具。

多轮就是你能做很多次,是 test time scaling(测试时扩展)的一种方式;工具则是连接这个『脑』跟外部世界的方式。」


K2 Thinking 调用工具的能力有进一步提升

当「缸中之脑」有了脚手架,模型的能力有了质的提升。所以才有了自主实现 300 轮工具调用和多轮思考的能力,实现了更强的 Agent 和推理性能。

到了这一步,OpenAI 此前所设置的 AI 从 L1-L5 的分级,L3(Agent 智能体)可能才真的看到了曙光。

有趣的是,在 K2 Thinking 的 API 调用说明中可以看到,模型的多步工具调用,需要把上下文中所有的思考内容(reasoning_content 字段)返回给模型进行多次推理,保持推理的连贯性。

类似这样的能力,是 Claude 的「extended thinking」(扩展思考),同样也是支持把推理结果持续带入后续步骤。

在当下,这是一种非共识的技术思路,OpenAI 的 GPT 系列和 Google 的 Gemini 模型都没有支持这个功能。


03资源悬殊下的逆风局

在 K2 Thinking 模型发布后,我们在 X(推特)上看到了一张有趣的图。


按照这位博主的说法,在 HLE 上达到了全球 SOTA 能力的 K2 Thinking,所属公司月之暗面目前的估值是 OpenAI 的 0.5%,是 Anthropic 和 Grok 的 2%。

或者我们可以用更详细的一个数据来进一步对比。

Kimi 去年的估值是 33 亿美元,即便算上最近传言中的新融资,推算新估值仍在几十亿美元级别。

而马斯克的 Grok(xAI),截至 2025 年 9 月底,估值约为 2000 亿美元。可以顺便看看另外两家的估值情况,在完成今年 9 月份 F 轮 130 亿美元的融资后,Anthropic 目前的估值是 1830 亿美元;OpenAI 最新的估值是 5000 亿美元,成为全球最具价值的私营公司之一。

与此同时,xAI 拥有目前全球规模最大的 GPU 集群之一——20 万块 H100 GPU 的 Colossus 超级计算机集群,员工总数超过 1200 人,据估计 Grok 4 的训练成本可能达到了 4900 万美元。

而 Kimi,公司人数 200 人左右,据外媒报道,训练成本约 460 万美元。

对中国的基模公司来说,都面临「缺显卡」、资源相对稀缺的现状,融资太少、卡太贵。与 OpenAI、Google 等美国巨头相比,试错机会少、成本压力大。要想活下来,必须精确地把每一步的执行都做对。K2 Thinking在多轮思考和调用工具的能力上超过GTP5、Grok4等国外闭源模型,让中国 AI 创业公司用不到 1% 的资源,完成了对万亿巨头的逆风翻盘。

未来,是否会像黄仁勋对《金融时报》所说的那样,「中国将在人工智能竞赛中击败美国」,局势正在改变。

转载原创文章请添加微信:founderparker

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台海观澜 | 祭奠受难者,郑丽文打响反击民进党舆论霸权第一枪

台海观澜 | 祭奠受难者,郑丽文打响反击民进党舆论霸权第一枪

经济观察报
2025-11-10 16:30:08
恭喜!刘子琪官宣与张雨绮恋情,晒合照一起过春节,男方身份曝光

恭喜!刘子琪官宣与张雨绮恋情,晒合照一起过春节,男方身份曝光

科学发掘
2025-11-11 13:07:53
赵一荻:死前摔倒,遗言仅一句,遗体告别时张学良突然失控大喊

赵一荻:死前摔倒,遗言仅一句,遗体告别时张学良突然失控大喊

玥来玥好讲故事
2025-11-11 20:34:19
iPhone Pocket 发布,价格实在太疯狂了!

iPhone Pocket 发布,价格实在太疯狂了!

花果科技
2025-11-11 22:14:04
全运会乒乓球!4强名单诞生,国乒核心爆冷出局,王曼昱对手出炉

全运会乒乓球!4强名单诞生,国乒核心爆冷出局,王曼昱对手出炉

知轩体育
2025-11-12 00:17:02
“多付车费后男子轻生”后续:一审判司机退还900元 司机称钱已交给法院

“多付车费后男子轻生”后续:一审判司机退还900元 司机称钱已交给法院

红星新闻
2025-11-11 10:56:13
从今天起,中国不再需要日本道歉!这觉醒,来自3500万亡魂的重量

从今天起,中国不再需要日本道歉!这觉醒,来自3500万亡魂的重量

林子说事
2025-11-07 10:18:39
梦回巅峰!林高远/刘诗雯4-1强势淘汰上海混双,晋级全运会半决赛

梦回巅峰!林高远/刘诗雯4-1强势淘汰上海混双,晋级全运会半决赛

乒谈
2025-11-11 20:48:52
张颂文凌晨救人,获赠锦旗

张颂文凌晨救人,获赠锦旗

封面新闻
2025-11-11 15:57:04
“河北邢台一家五口被害案”将开庭,被害人家属发声

“河北邢台一家五口被害案”将开庭,被害人家属发声

新京报
2025-11-11 21:47:13
中国陆军13个集团军不够用怎么办?别忘了有武警,堪比8个集团军

中国陆军13个集团军不够用怎么办?别忘了有武警,堪比8个集团军

云上乌托邦
2025-11-11 12:06:30
赵露思黑色透视装舞台曝光!身材火辣舞动,这还是那个甜妹吗

赵露思黑色透视装舞台曝光!身材火辣舞动,这还是那个甜妹吗

君笙的拂兮
2025-11-11 00:07:12
周琦胡金秋淘汰!花钱的雇佣兵不靠谱,广东子弟兵夺冠才实至名归

周琦胡金秋淘汰!花钱的雇佣兵不靠谱,广东子弟兵夺冠才实至名归

嘴炮体坛
2025-11-12 00:14:11
起风了,郑丽文拒见赵少康,黄国昌这回信错人了,赵连忙改口示好

起风了,郑丽文拒见赵少康,黄国昌这回信错人了,赵连忙改口示好

蛙斯基娱乐中
2025-11-11 15:07:24
湖南祖副院长风波中的女主:曾琦的美貌与才华,终究抵不过欲望

湖南祖副院长风波中的女主:曾琦的美貌与才华,终究抵不过欲望

十为先生
2025-11-11 14:24:23
98年,东北一老板买下5千吨钢材后价格暴涨,他反手一个惊人操作

98年,东北一老板买下5千吨钢材后价格暴涨,他反手一个惊人操作

青青会讲故事
2025-11-07 16:36:01
近代日本学者的中国观:唯利是图、气质文弱、善于虚言、民风败坏

近代日本学者的中国观:唯利是图、气质文弱、善于虚言、民风败坏

沈言论
2025-11-10 18:40:03
中国首例五胞胎终于长大了,父亲因劳累去世,母亲直言后悔生下他们

中国首例五胞胎终于长大了,父亲因劳累去世,母亲直言后悔生下他们

等风来育儿联盟
2025-08-01 12:21:35
39岁泰国第一夫人:年轻貌美有气质,穿黑衣更显白嫩,出访美出圈

39岁泰国第一夫人:年轻貌美有气质,穿黑衣更显白嫩,出访美出圈

照见古今
2025-11-10 20:02:51
退步最快球员之一!快船锋线老将已经不适合出现在轮换阵容中了?

退步最快球员之一!快船锋线老将已经不适合出现在轮换阵容中了?

稻谷与小麦
2025-11-12 00:16:35
2025-11-12 01:27:00
FounderPark incentive-icons
FounderPark
关注AI创业,专注和创业者聊真问题
1041文章数 143关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

上海阿姨存了近30年的钱提不出傻眼 银行:找不到底根

头条要闻

上海阿姨存了近30年的钱提不出傻眼 银行:找不到底根

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

艺术
旅游
教育
时尚
健康

艺术要闻

美得令人窒息!印度美女照片震撼上线!

旅游要闻

11月11日最佳情报|淄博池上镇山川如画,五龙潭公园泉清柳黄

教育要闻

老师们不奢望减轻什么负担,只希望能实行8小时工作制!

舒淇,东亚女孩的恨海情天

超声探头会加重受伤情况吗?

无障碍浏览 进入关怀版