“美国公司制造的最好开源模型”，基模来自DeepSeek|算法|推理|预训练|deepseek

“美国公司制造的最好开源模型”，基模来自DeepSeek

2025-11-21 19:30:38　来源: DeepTech深科技

北京举报

分享至

今年 10 月，当硅谷两家最火热的 AI 编程工具公司 Cursor 和 Windsurf 前后脚发布自己的“首个自研模型”时，整个开发者社区一片欢呼。然而庆祝的声音还未散去，就有眼尖的网友发现了蹊跷之处：这些号称“自研”的模型，在推理过程中竟然会突然冒出中文，甚至有模型在被越狱后直接承认自己来自中国公司智谱 AI。这个发现迅速在社交媒体上发酵，有人调侃道：“这边一开源，那边就自研。”那时候，这种借用还带着几分遮遮掩掩的羞涩，仿佛借了邻居的东西怕被发现，总要刷上一层新漆。

但到了昨天，这种遮掩似乎已无必要，甚至演变成了一种理直气壮的实用主义宣言。

总部位于旧金山的初创公司 Deep Cogito 发布了其最新一代旗舰模型 Cogito v2.1 671B。公司 CEO Drishan Arora 在社交平台 X 上豪情万丈地宣布：“今天，我们发布了由美国公司制造的最好的开源大语言模型。”

图丨相关推文（来源：X）

为了证明这一点，CEO Drishan Arora 甩出了一组极其漂亮的数据：在 GPQA Diamond 推理测试中，它逼近了 GPT-5；在多语言 MMLU 上，它击败了 Claude Sonnet 4.5；在数学和代码能力上，它把 Meta 引以为傲的 Llama 系列甩在了身后。看着那些直冲云霄的柱状图，你差点就要相信这是美国开源 AI 的一次反击。

图丨基准测试结果（来源：Deep Cogito）

其实对于 AI 圈内人来说，看到 671B 这个比较奇特的数字大概就能发现一些端倪了，它恰好就是 DeepSeek-V3 的参数规模

而没多久之后，网友们就在该模型的 HuggingFace 的配置文件里发现了一行代码：“base_model: deepseek-ai/DeepSeek-V3-Base”。

图丨相关推文（来源：X）

不过，与此前 Cursor 那种死鸭子嘴硬直到被抓包才承认的态度不同，Deep Cogito 完全没打算藏着掖着。Drishan Arora 表现得相当坦荡。他直接承认了分叉（fork）自 DeepSeek-V3-Base，并解释道：在今天的 AI 领域，预训练（Pre-training）已经变成了像发电一样的通用商品（commodity）。

“真正困难的问题，是如何将一个基础模型进行后训练（Post-training），使其达到前沿智能的水平。”他还补了一刀：“具有竞争力的前沿开源模型，只有极少数大型研究实验室发布过。而在美国，除了 Meta，几乎没有其他选择。”也因此，DeepSeek 是一个显而易见的选择, 因为 DeepSeek 架构周围已经建立了廉价推理的生态系统。

既然底座是别人的，那 Deep Cogito 到底造了什么？

正如我们此前在关于 Cogito v1 发布的报道中所提及，这家由 DeepMind 前产品经理和 Google 前高级工程师联手创立的公司，从一开始就不是为了“从零开始预训练”而生的。在他们看来，目前大多数预训练模型的能力都在趋同。在这种背景下，竞争的焦点已经从预训练转向了后训练。

Deep Cogito 的核心在于一套被称为“前沿后训练栈”的技术。简单来说，他们基于了 DeepSeek 的基础模型，利用自己独创的强化学习算法和迭代蒸馏放大（IDA，Iterated Distillation and Amplification）技术，对其进行了极其复杂的“再教育”。

根据官方披露的技术细节，他们利用了数百个 GPU 节点进行了大规模的分布式强化学习。与其前代产品 Cogito v1 相比，v2.1 在推理效率上实现了巨大进步。在达到同等推理能力的水平下，Cogito v2.1 消耗的 Token 数量显著低于竞争对手。例如，在处理复杂逻辑问题时，Cogito v2.1 平均消耗 4894 个 Token，而 Google 的 Gemini 2.5 Pro 则高达 9178 个。

图丨平均使用的 token 数对比（来源：Deep Cogito）

Deep Cogito 的技术团队将其归功于“过程监督”（Process Supervision）。传统的推理模型往往通过生成冗长的思维链（Chain of Thought）来逼近答案，这既费时又费钱。而 Cogito v2.1 通过强化学习，培养了模型更强的直觉，使其能够以更短的搜索路径找到正确的推理轨迹。这种“少即是多”的能力，恰恰是 IDA 方法论的体现，即不仅要让模型会思考，还要让它高效地思考。

在数学基准测试 MATH-500 中，Cogito v2.1 得分 98.57%，微弱优势领先于“老师”DeepSeek v3.2（97.87%），且大幅领先于 Llama 4 Scout。在代码修复任务 SWE-Bench Verified 中，它也展现出了比较出色的解决率。

图丨基准测试结果（来源：Deep Cogito）

客观而言，Cogito v2.1 确实是一款性能不错的模型。在代码修复、数学推理等任务上都展现出了出色的能力，而且在推理效率上实现了有价值的突破。Deep Cogito 在后训练方面投入的技术努力也值得认可，将一个基础模型训练到前沿水平，并在效率上有所创新，本身就需要深厚的技术积累。

而且，Deep Cogito 在技术文档中明确标注了使用 DeepSeek-V3-Base 作为基础模型，并没有刻意隐瞒这一事实。只是一个模型的基础架构、核心参数规模都来自中国的 DeepSeek，只是在后训练阶段由美国公司完成优化，就宣称这是“由美国公司制造的最好的开源大语言模型”，确实有些言过其实。

另外还要夹带私货，在模型中植入特定意识形态倾向的做法，也偏离了开源精神的初衷，让人有所不齿。

只能说，Deep Cogito 的这一举动实际上是在 Cursor 和 Windsurf 事件之后，又一次印证了中国开源 AI 模型在全球范围内日益增长的影响力。

无论对于哪个国家的 AI 初创公司或者开发者来说，基于中国开源模型进行开发已经成为一种务实的选择。从零预训练一个 671B 规模的模型需要数千万甚至上亿美元，而基于现成的高质量开源模型进行后训练优化，不仅成本低廉，还能快速推向市场。这种实用主义的选择，本身并无可厚非。

而 Deep Cogito 这种“既要技术里子，又要地缘面子”的矛盾心态，恰恰折射出部分硅谷从业人员在面对新兴竞争对手时复杂的心理活动：既无法忽视对方的技术价值，又难以完全放下长期以来的领跑者身段。

这种执念背后，或许是对技术竞争被简化为国家竞赛的焦虑，但它恰恰忽视了开源生态最宝贵的特质：超越地域的协作与创新。真正的技术自信，应该体现在坦诚的态度和实实在在的创新贡献上，而不是包装出来的“X 国最强”叙事。

参考资料：

1.https://www.deepcogito.com/research/cogito-v2-1

2.https://x.com/drishanarora/status/1991204769642475656

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.