网易首页 > 网易号 > 正文 申请入驻

密切跟进OpenAI,国产o1类推理模型陆续登场

0
分享至

界面新闻记者 | 伍洋宇 界面新闻编辑 | 文姝琪

2025年第一个月,国产o1类模型开始密集更新,发布者包括“六小虎”中的月之暗面、阶跃星辰,以及独立于创业公司格局外的DeepSeek。

1月20日,DeepSeek正式发布性能对齐OpenAI-o1正式版的DeepSeek-R1,并同步开源模型权重。

根据DeepSeek披露的测试结果,它在数学、代码、自然语言推理等任务上与OpenAI-o1-1217基本持平,尤其在AIME 2024(美国数学邀请赛)、MATH-500、SWE-Bench Verified(软件开发领域测试集)三项测试集上以微弱优势取胜。

作为对R1能力的一种验证,由660B版本R1蒸馏得到的多个小尺寸模型中,32B和70B两款模型在多项能力上能够与OpenAI o1-mini对标。并且,这些蒸馏模型分属Qwen系列和Llama系列,其中,14B Qwen系列蒸馏模型,其各项推理类测试集表现已经明显好于QwQ-32B-Preview。

需要指出的是,DeepSeek还同步开源了DeepSeek-R1-Zero,这是一个仅在预训练基础上加入了RL(强化学习)而没有经过SFT(监督微调)的成果。

由于没有人类监督数据介入,R1-Zero在生成上可能存在可读性较差、语言混杂的现象,但该模型仍然足以对标OpenAI-o1-0912。此外,它更重要的意义是侧重于探索仅通过强化学习训练大语言模型以获得推理能力的技术可能性,为相关后续研究提供了重要基础。

定价方面,DeepSeek延续了“AI大模型界拼多多”的身份标签。DeepSeek-R1 API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),每百万输出tokens为16元。这番价格中,其缓存命中的输入token价格不足OpenAI o1的2%,缓存未命中的输入价格及输出价格也仅为o1的3.6%。

另一个与DeepSeek-R1显得针锋相对的推理类模型,是月之暗面于同一天发布的K1.5。

从去年11月开始,月之暗面已经更新了k0-math数学模型、k1视觉思考模型等加入了强化学习的k系列模型。k1.5按照模态思路推进,是一个多模态思考模型。

月之暗面给k1.5的定位是“多模态o1”。简单而言,k1.5同时包含多模态的通用能力和推理能力。

据官方数据,其Short-CoT(可理解为短思考)模式下的数学、代码、视觉多模态和通用能力,对标GPT-4o和Claude 3.5 Sonnet;Long-CoT(可理解为长思考)模式下的数学、代码、多模态推理能力,则达到了OpenAI o1正式版水平。

就R1和k1.5的训练方式而言,二者都采用了强化学习、多阶段训练、思维链以及奖励模型。从公开信息看来,其不同环节存在各自的技术策略。

DeepSeek利用了数千条长CoT冷启动数据,先是对DeepSeek-V3-Base这一基础模型进行微调。随后进行面向推理的大规模RL训练,并引入语言一致性奖励克服语言混杂问题。经历监督微调(SFT)之后,又进行适用于所有场景的强化学习,对推理数据和一般数据采用不同的奖励规则。

另外,R1在强化学习中加入了组相对策略优化算法(Group Relative Policy Optimization,GRPO),从效果上来说,它能够优化策略、提高样本效率和增强算法稳定性等。

k1.5一方面将强化学习的上下文窗口扩展到128k,另一方面采用在线镜像下降的变体进行稳健的策略优化,两者相结合让k1.5能够建立一个相对简洁的强化学习框架,在不加入蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂技术的情况下,也能够保证性能。

需要指出的是,k1.5在强化学习中还加入了“长度惩罚”来抑制响应长度,即确立一个公式,根据响应长度和确定性来分配奖励值。此外它还采用了“最短拒绝采用方法”(选择最短的正确响应进行监督微调)等方法来抑制响应长度。

k1.5的另一个特点是对文本和视觉数据进行了联合训练,这使其具备多模态能力。不过Kimi也承认,由于部分输入主要支持文本格式,其面对部分几何图题的图形理解能力还不够强大。

在此之前,阶跃星辰也于1月16日上线了Step Reasoner mini(下称“Step R-mini”)实验版。这也是一款具备超长推理能力的推理模型。

但它还未完全准备好的是,目前在测试集中主要对标OpenAI o1-preview和o1-mini,而非o1完整版,当然这应该也与模型大小和训练方式有关。在国内对标模型上,其表现与QwQ-32B-Preview相近。

不过,阶跃星辰强调其“文理兼顾”,使用了On-Policy(同策略)强化学习算法,在保证数学、代码、逻辑推理能力的同时,也能够完成文学内容创作和日常聊天的任务。

至此,从去年9月OpenAI以o1模型变革模型训练范式之后,各家大模型公司开始兑现当时的行业预期,形成了一定规模的国产o1类模型跟进潮。

但在所有玩家密切跟进o1的同时,OpenAI又在去年12月的发布季上让o3和o3-mini一同亮相。尽管还没有正式上线,但从OpenAI披露的数据来看,o3的性能相比o1又猛长了一大截。

例如,在SWE-Bench Verified这一软件开发测试集中,o3得分71.7%,而o1仅有48.9%;在AIME2024测试集中,o3准确率96.7%,而o1为83.3%。o3的一些表现,已经开始展现AGI(通用人工智能)的初步特征。

当然,o3也存在自己的问题。一方面,o系列模型普遍更擅长边界清晰、定义明确的任务,对部分现实世界的工程任务处理还存在欠缺。另一方面,近期,o3在FrontierMath这项数学基准测试中,也因OpenAI资助过相关机构而面临提前获取真题的真实能力水平质疑。

但摆在国内大模型公司面前的共同问题仍然是明确的。从技术上来说,无论是DeepSeek-R1还是k1.5,都还没有成功加入过程奖励模型和蒙特卡洛树搜索等更复杂技术,而这是否是模型进一步提高推理能力的关键方法,我们还无从得知。

另外,从o1到o3,OpenAI公布的间隔时间仅有三个月,这意味着强化学习带来的推理阶段scaling up的技术范式,显然比GPT系列模型以年为单位的预训练范式的节奏要快。

这是国内大模型公司共同要面对的竞争压力。OpenAI不仅找到了更明确的技术路径,并且有足够的资源快速验证并推进。当下,国内大模型行业将比过去更需要加速提效的突破式创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
横空出世!汉娜·高达为何能把孙颖莎逼入绝境?三招难住世界第一

横空出世!汉娜·高达为何能把孙颖莎逼入绝境?三招难住世界第一

骑马寺的少年
2026-04-04 15:49:14
演员唐艺昕回应4年未拍戏:生完小孩后身体出现问题,治疗未果便将自己封闭起来,后来慢慢学会接纳

演员唐艺昕回应4年未拍戏:生完小孩后身体出现问题,治疗未果便将自己封闭起来,后来慢慢学会接纳

台州交通广播
2026-04-04 00:13:46
上海队送大礼了?CBA第一大外援逼宫主帅,广东男篮成最大赢家!

上海队送大礼了?CBA第一大外援逼宫主帅,广东男篮成最大赢家!

绯雨儿
2026-04-04 12:17:49
马兴瑞、夏智伦、苏海明、周鹏程、张斌、石永忠、王文权、王辉、孙大志、黄昌鼎接受纪律审查和监察调查

马兴瑞、夏智伦、苏海明、周鹏程、张斌、石永忠、王文权、王辉、孙大志、黄昌鼎接受纪律审查和监察调查

豫府号
2026-04-03 23:33:48
进攻端终于回暖了,但湖人侧翼新星却也出现了离谱的8次失误?

进攻端终于回暖了,但湖人侧翼新星却也出现了离谱的8次失误?

稻谷与小麦
2026-04-05 01:44:07
家长注意了!这些全是“假牛奶”!别再整箱往家搬了!花钱还坑娃

家长注意了!这些全是“假牛奶”!别再整箱往家搬了!花钱还坑娃

观察鉴娱
2026-03-21 12:39:12
上海孑然一身女子 近600万元遗产有新进展了

上海孑然一身女子 近600万元遗产有新进展了

看看新闻Knews
2026-04-03 21:11:10
斯诺克最新战报!特鲁姆普六连胜晋级决赛,赵心童淘汰希金斯利好

斯诺克最新战报!特鲁姆普六连胜晋级决赛,赵心童淘汰希金斯利好

曹说体育
2026-04-04 11:00:06
太残暴8连鞭!斯诺克巡回锦标赛:赵心童8-0希金斯,小特瑟瑟发抖

太残暴8连鞭!斯诺克巡回锦标赛:赵心童8-0希金斯,小特瑟瑟发抖

杨仔述
2026-04-04 23:03:21
最高预增3200%!业绩利好,密集发布!

最高预增3200%!业绩利好,密集发布!

证券时报
2026-04-04 17:22:02
太尴尬了!女留学生在相亲市场遭嫌弃,网传苏州已是“有价无市”

太尴尬了!女留学生在相亲市场遭嫌弃,网传苏州已是“有价无市”

另子维爱读史
2026-04-04 21:41:58
真相大白!孙颖莎、王楚钦打满7局赢球原因曝光,王曼昱打到抽筋

真相大白!孙颖莎、王楚钦打满7局赢球原因曝光,王曼昱打到抽筋

曹说体育
2026-04-04 22:27:28
紧急通知!公安部修改疲劳驾驶认定标准,6月1日落地,司机必看!

紧急通知!公安部修改疲劳驾驶认定标准,6月1日落地,司机必看!

小陆搞笑日常
2026-04-05 01:49:30
研究首次绘制出完整的阴蒂神经网络

研究首次绘制出完整的阴蒂神经网络

生物学霸
2026-04-03 17:24:20
北京换气40元一罐是真的,前提是必须有北京户口

北京换气40元一罐是真的,前提是必须有北京户口

映射生活的身影
2026-04-04 21:28:22
美国出大事了!与此同时,中国计划背后一位高人现身!

美国出大事了!与此同时,中国计划背后一位高人现身!

华人星光
2026-04-03 10:43:30
我去!内娱最大的性丑闻,拍出来了

我去!内娱最大的性丑闻,拍出来了

皮蛋儿电影
2026-03-04 14:39:25
中方抛弃幻想,8500亿美债售卖困难,从1.3167万亿美元到6835亿…

中方抛弃幻想,8500亿美债售卖困难,从1.3167万亿美元到6835亿…

福建平子
2026-04-04 09:03:55
拒绝伊朗地面战?陆军参谋长被解职,特朗普需要军方的“自己人”

拒绝伊朗地面战?陆军参谋长被解职,特朗普需要军方的“自己人”

上观新闻
2026-04-04 05:10:15
被炸毁的伊朗大桥是谁建的

被炸毁的伊朗大桥是谁建的

阿亮评论
2026-04-03 10:00:44
2026-04-05 03:44:49
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1050363文章数 1332445关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

时尚
教育
家居
艺术
公开课

别再穿大一码了!遮肉根本不是靠宽松

教育要闻

这些英国大学开始崩盘!

家居要闻

温馨多元 爱的具象化

艺术要闻

你绝对不能错过的梦幻性感摄影作品!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版