网易首页 > 网易号 > 正文 申请入驻

月之暗面发布首款数学模型 k0-math,对标o1

0
分享至

杨植麟:Kimi目前最核心的任务是提升留存。

作者丨张 进

编辑丨陈彩娴

今天,在京东科技大厦,月之暗面创始人杨植麟宣布 Kimi 数学模型 k0-math 正式发布,其数学能力对标OpenAI o1系列,还公布了截止2024年10月 Kimi Chat 月活超过 3600万。

杨植麟称未来会更关注基于强化学习的方法去scale,不仅仅是简单地预测下一个token是什么,因为这是基于静态数据集,使得大模型不能完成更难的任务。在这个过程中,很重要的是让AI具备思考的能力。

用Next—Token prediction是做不到的,而用强化学习的方法一定程度上可以学习到这种思考的方式。例如解一道数学题,想要知道它的解题思路是怎样的,最后的结果是怎么一步步推导出来的,这就是一个深度思考的过程。

伽利略曾说,数学是宇宙的语言,所以数学场景是一个很广泛的应用场景,是培养 AI 具备思考能力的最佳场景。OpenAI的 o1 模型最初也是从数学场景出发,好处是不用跟外界进行交互,可以自成一体。

k0—math正是从数学场景出发,再推理泛化到更多的任务上。

例如,问它一个很难的竞赛题,k0—math 通过大量的尝试,可能尝试了八九中不同的做法,最后发现还没能得到最终的答案,那么它可以把前面几种不同的解法综合一下,就能得到一个正确的答案。

根据上图,在多项基准能力测试中,k0-math 的数学能力可对标全球领先的 OpenAI o1 系列可公开使用的两个模型:o1-mini和o1-preview。在中考、高考、考研以及包含入门竞赛题的MATH等 4 个数学基准测试中,k0-math 初代模型成绩超过o1-mini和o1-preview模型。在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。

未来的一到两周时间内,k0-math 强化模型将会放到 Kimi 探索版中,包含了意图增强、信源分析、链式思考三个特点。

其中,模型在深度思考的过程中,生成的学习数据是否都有用以及是否正确,这是强化学习中的一个核心问题,以前做Next—Token prediction,处理的是静态数据,可以做静态过滤、打分筛选,而在强化学习中则对奖励模型的效果提出挑战,核心是是怎么更好的训练奖励模型,设置奖励的机制,以此来让模型尽可能地减少学习错误的数据。

k0-math在思考的过程中会出现「过度思考」,例如问它1+1等于多少,正常人是不需要思考的,而k0-math 就会给出一整套它的思考推理过程,最后才得出1+1等于2。

对于这个问题,杨植麟称是因为奖励上没有对它的长度做任何的限制,让它自由地思考,也可以通过改变奖励模型的结构,一定程度能抑制过度思考。

同时,杨植麟称,该包含了k0-math 强化模型的 Kimi 探索版大概率会让用户自己选择使用,早期通过这种方式可以更好地分配、满足用户的预期,这里面包含了一个技术问题,一是能够动态地分配最优的算力,如果模型足够聪明就应该知道什么样的问题不需要想很久,就跟人一样1+1等于几不用想;第二个点是成本不断下降的过程。

未来,k0-math 还将从数学问题上的推理泛化到更多任务上,例如物理学、化学、生物医学等等。

去年今天,是Kimi Chat 面向全社会开放服务的日子,今年10月推出AI搜索功能,再到今天推出数学模型 k0-math,三个动作月之暗面整整走了一年。

可以看到,在一众大模型公司中,月之暗面的产品策略更克制。

杨植麟称,是他们主动做了业务的减法,聚焦去做离 AGI 上限最高的事情,然后做好;始终保持卡和人的比例最高。去年整个大模型行业经历了大扩张,而到目前为止,月之暗面人数是所有大模型公司中最少的,不超过200人。

「我们不希望把团队扩那么大,扩太大对创新会有致命性的伤害。如果你想把团队保持在一定的规模,那最好的方式是在业务上做一些减法。」杨植麟称,一开始月之暗面也尝试过几个产品一起做,这在一定时期内有可能有效,到后来发现还是要聚焦,把一个产品做到极致是最重要的,如果几个业务一起做,把自己活生生变成大厂,创业公司的优势就丢掉了。

杨植麟认为Kimi目前最核心的任务是提升留存。

对于当下愈演愈烈、有关于Scaling Laws「撞墙」的争辩,杨植麟认为「预训练还有空间」,这个空间会在明年释放出来,明年领先的模型会把预训练做到极致。

他判断,接下来最重要的是强化学习带来的技术范式上改变,但它依然还是scale。至于Scaling Laws是否到上限,核心在于原来用的是静态数据集,这属于简单粗暴的使用方式,现在用强化学习的方式——很多情况下有人参与标注数据的过程,比如人标注 100条数据,就能产生非常大的作用,剩下的让AI自己思考。AI 加上人的杠杆,上限是很高的。

更多内容,点击下方关注:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

芹姐说生活
2026-05-15 23:37:01
天生的富贵命!这3生肖一辈子不缺帮手、不缺钱,人生处处有路走

天生的富贵命!这3生肖一辈子不缺帮手、不缺钱,人生处处有路走

毅谈生肖
2026-05-02 11:12:45
穆杰塔巴收到一个讯息,杀自己父母妻儿的仇人主动提出见面邀约

穆杰塔巴收到一个讯息,杀自己父母妻儿的仇人主动提出见面邀约

解锁世界风云
2026-06-04 23:57:20
土伦杯战报:日本1-4惨败倒数第2,中国净胜球-2,排名第3

土伦杯战报:日本1-4惨败倒数第2,中国净胜球-2,排名第3

老骾体育解说
2026-06-04 23:40:31
傅首尔瘦成瓜子脸上热搜,网友:弥补了瘦人没有傅首尔面相的缺憾

傅首尔瘦成瓜子脸上热搜,网友:弥补了瘦人没有傅首尔面相的缺憾

映射生活的身影
2026-06-03 15:48:06
油价将于今晚大幅调整

油价将于今晚大幅调整

深圳晚报
2026-06-04 10:28:01
颇为重视,瑞典皇室成员探访瑞典国家队驻地并送上祝福

颇为重视,瑞典皇室成员探访瑞典国家队驻地并送上祝福

懂球帝
2026-06-05 00:51:18
“保不住香港,我们以死谢罪!”,解密惊心动魄的香港经济保卫战

“保不住香港,我们以死谢罪!”,解密惊心动魄的香港经济保卫战

文史道
2025-02-18 20:31:56
巴西矿商终于说出实话:把稀土低价卖给欧美,就是为了对付中国?

巴西矿商终于说出实话:把稀土低价卖给欧美,就是为了对付中国?

用冷眼洞悉世界
2026-06-04 11:39:10
无法接受?新加坡联合早报:中国不是你的祖国,你们有自己的祖国

无法接受?新加坡联合早报:中国不是你的祖国,你们有自己的祖国

超喜欢我
2026-06-04 16:40:06
网传北京大学发表在顶刊《Nature》一篇文论文被质疑数据造假?

网传北京大学发表在顶刊《Nature》一篇文论文被质疑数据造假?

文忆天下
2026-06-03 21:38:08
如果不搞选票邮寄不严查身份证这类把戏,民主党未必能赢下加州

如果不搞选票邮寄不严查身份证这类把戏,民主党未必能赢下加州

壹家言
2026-06-04 10:56:51
CPO +光纤,双核催化,高增长的10家公司

CPO +光纤,双核催化,高增长的10家公司

新浪财经
2026-06-03 19:50:14
这回西方果然没拦住,孟加拉外长拿下联大主席,小国终于硬气了

这回西方果然没拦住,孟加拉外长拿下联大主席,小国终于硬气了

白日追梦人
2026-06-05 00:07:20
中国房价:如果今明两年,你仍在低价卖房,请读完这篇文章

中国房价:如果今明两年,你仍在低价卖房,请读完这篇文章

说故事的阿袭
2026-06-04 13:04:56
爸爸梦到已故儿子说脚被刺扎了,立马驱车来到孩子墓前,眼前的一幕让人惊呆了!

爸爸梦到已故儿子说脚被刺扎了,立马驱车来到孩子墓前,眼前的一幕让人惊呆了!

张晓磊
2026-04-10 11:24:23
一个家庭最大的灾难,不是穷,而是父母六七十了,还存在3种情况

一个家庭最大的灾难,不是穷,而是父母六七十了,还存在3种情况

热心市民小黄
2026-05-14 19:05:42
两岸军机澎湖空域对峙?解放军当场警告台军机:不走就等着被拦截

两岸军机澎湖空域对峙?解放军当场警告台军机:不走就等着被拦截

南风不及你温柔
2026-06-04 11:00:16
梁嘉琪爆料TVB上位女星表里不一 网友对照演员表锁定某位视后为双面人

梁嘉琪爆料TVB上位女星表里不一 网友对照演员表锁定某位视后为双面人

TVB资讯台
2026-06-04 23:16:50
梅根发布莉莉贝特公主5岁生日照,红发绿裙很可爱,神似父亲哈里

梅根发布莉莉贝特公主5岁生日照,红发绿裙很可爱,神似父亲哈里

人物档案局
2026-06-04 19:28:59
2026-06-05 01:28:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7341文章数 20755关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

挪威发现满载中国瓷器的沉船:曾被撞击 瓷器保存完好

头条要闻

挪威发现满载中国瓷器的沉船:曾被撞击 瓷器保存完好

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

AI公司的顶部在哪?

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

亲子
艺术
本地
时尚
公开课

亲子要闻

高考临近,考生饮食怎么搭配才稳妥?主任医师提供定制“高考餐”

艺术要闻

“海洋漩涡”:用太平洋上的垃圾,造市政建筑!

本地新闻

用杨柳青年画的方式,打开天津

越做越素?美甲进入减法时代!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版