密切跟进OpenAI，国产o1类推理模型陆续登场|算法|数学|模态|人工智能|openai

密切跟进OpenAI，国产o1类推理模型陆续登场

2025-01-24 12:17:03　来源: 界面新闻

上海举报

分享至

界面新闻记者 | 伍洋宇界面新闻编辑 | 文姝琪

2025年第一个月，国产o1类模型开始密集更新，发布者包括“六小虎”中的月之暗面、阶跃星辰，以及独立于创业公司格局外的DeepSeek。

1月20日，DeepSeek正式发布性能对齐OpenAI-o1正式版的DeepSeek-R1，并同步开源模型权重。

根据DeepSeek披露的测试结果，它在数学、代码、自然语言推理等任务上与OpenAI-o1-1217基本持平，尤其在AIME 2024（美国数学邀请赛）、MATH-500、SWE-Bench Verified（软件开发领域测试集）三项测试集上以微弱优势取胜。

作为对R1能力的一种验证，由660B版本R1蒸馏得到的多个小尺寸模型中，32B和70B两款模型在多项能力上能够与OpenAI o1-mini对标。并且，这些蒸馏模型分属Qwen系列和Llama系列，其中，14B Qwen系列蒸馏模型，其各项推理类测试集表现已经明显好于QwQ-32B-Preview。

需要指出的是，DeepSeek还同步开源了DeepSeek-R1-Zero，这是一个仅在预训练基础上加入了RL（强化学习）而没有经过SFT（监督微调）的成果。

由于没有人类监督数据介入，R1-Zero在生成上可能存在可读性较差、语言混杂的现象，但该模型仍然足以对标OpenAI-o1-0912。此外，它更重要的意义是侧重于探索仅通过强化学习训练大语言模型以获得推理能力的技术可能性，为相关后续研究提供了重要基础。

定价方面，DeepSeek延续了“AI大模型界拼多多”的身份标签。DeepSeek-R1 API服务定价为每百万输入tokens 1元（缓存命中）/ 4元（缓存未命中），每百万输出tokens为16元。这番价格中，其缓存命中的输入token价格不足OpenAI o1的2%，缓存未命中的输入价格及输出价格也仅为o1的3.6%。

另一个与DeepSeek-R1显得针锋相对的推理类模型，是月之暗面于同一天发布的K1.5。

从去年11月开始，月之暗面已经更新了k0-math数学模型、k1视觉思考模型等加入了强化学习的k系列模型。k1.5按照模态思路推进，是一个多模态思考模型。

月之暗面给k1.5的定位是“多模态o1”。简单而言，k1.5同时包含多模态的通用能力和推理能力。

据官方数据，其Short-CoT（可理解为短思考）模式下的数学、代码、视觉多模态和通用能力，对标GPT-4o和Claude 3.5 Sonnet；Long-CoT（可理解为长思考）模式下的数学、代码、多模态推理能力，则达到了OpenAI o1正式版水平。

就R1和k1.5的训练方式而言，二者都采用了强化学习、多阶段训练、思维链以及奖励模型。从公开信息看来，其不同环节存在各自的技术策略。

DeepSeek利用了数千条长CoT冷启动数据，先是对DeepSeek-V3-Base这一基础模型进行微调。随后进行面向推理的大规模RL训练，并引入语言一致性奖励克服语言混杂问题。经历监督微调（SFT）之后，又进行适用于所有场景的强化学习，对推理数据和一般数据采用不同的奖励规则。

另外，R1在强化学习中加入了组相对策略优化算法（Group Relative Policy Optimization，GRPO），从效果上来说，它能够优化策略、提高样本效率和增强算法稳定性等。

k1.5一方面将强化学习的上下文窗口扩展到128k，另一方面采用在线镜像下降的变体进行稳健的策略优化，两者相结合让k1.5能够建立一个相对简洁的强化学习框架，在不加入蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂技术的情况下，也能够保证性能。

需要指出的是，k1.5在强化学习中还加入了“长度惩罚”来抑制响应长度，即确立一个公式，根据响应长度和确定性来分配奖励值。此外它还采用了“最短拒绝采用方法”（选择最短的正确响应进行监督微调）等方法来抑制响应长度。

k1.5的另一个特点是对文本和视觉数据进行了联合训练，这使其具备多模态能力。不过Kimi也承认，由于部分输入主要支持文本格式，其面对部分几何图题的图形理解能力还不够强大。

在此之前，阶跃星辰也于1月16日上线了Step Reasoner mini（下称“Step R-mini”）实验版。这也是一款具备超长推理能力的推理模型。

但它还未完全准备好的是，目前在测试集中主要对标OpenAI o1-preview和o1-mini，而非o1完整版，当然这应该也与模型大小和训练方式有关。在国内对标模型上，其表现与QwQ-32B-Preview相近。

不过，阶跃星辰强调其“文理兼顾”，使用了On-Policy（同策略）强化学习算法，在保证数学、代码、逻辑推理能力的同时，也能够完成文学内容创作和日常聊天的任务。

至此，从去年9月OpenAI以o1模型变革模型训练范式之后，各家大模型公司开始兑现当时的行业预期，形成了一定规模的国产o1类模型跟进潮。

但在所有玩家密切跟进o1的同时，OpenAI又在去年12月的发布季上让o3和o3-mini一同亮相。尽管还没有正式上线，但从OpenAI披露的数据来看，o3的性能相比o1又猛长了一大截。

例如，在SWE-Bench Verified这一软件开发测试集中，o3得分71.7%，而o1仅有48.9%；在AIME2024测试集中，o3准确率96.7%，而o1为83.3%。o3的一些表现，已经开始展现AGI（通用人工智能）的初步特征。

当然，o3也存在自己的问题。一方面，o系列模型普遍更擅长边界清晰、定义明确的任务，对部分现实世界的工程任务处理还存在欠缺。另一方面，近期，o3在FrontierMath这项数学基准测试中，也因OpenAI资助过相关机构而面临提前获取真题的真实能力水平质疑。

但摆在国内大模型公司面前的共同问题仍然是明确的。从技术上来说，无论是DeepSeek-R1还是k1.5，都还没有成功加入过程奖励模型和蒙特卡洛树搜索等更复杂技术，而这是否是模型进一步提高推理能力的关键方法，我们还无从得知。

另外，从o1到o3，OpenAI公布的间隔时间仅有三个月，这意味着强化学习带来的推理阶段scaling up的技术范式，显然比GPT系列模型以年为单位的预训练范式的节奏要快。

这是国内大模型公司共同要面对的竞争压力。OpenAI不仅找到了更明确的技术路径，并且有足够的资源快速验证并推进。当下，国内大模型行业将比过去更需要加速提效的突破式创新。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.