网易首页 > 网易号 > 正文 申请入驻

一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元

0
分享至

机器之心报道

机器之心编辑部

Deep Cogito,一家鲜为人知的 AI 初创公司,总部位于旧金山,由前谷歌员工创立,如今开源的四款混合推理模型,受到大家广泛关注。

  • 2 款中型 ——700 亿参数稠密模型、1090 亿 MoE 模型;
  • 2 款大型 ——4050 亿参数稠密模型、6710 亿 MoE 模型。

每个模型都可以直接作答(标准 LLM 模式),也可以在作答前进行自我反思(类似推理模型)。

其中,最大规模的 671B MoE 模型是目前全球最强大的开源模型之一,其性能与最新的 DeepSeek v3 和 DeepSeek R1 模型相当甚至超越,且接近 o3 和 Claude 4 Opus 等闭源前沿模型。

Deep Cogito 的核心方法是迭代蒸馏与增强(Iterated Distillation and Amplification,简称 IDA),它不依赖手工设计的提示词或静态教师模型,而是利用模型自身不断演化的洞察力来引导训练。

这一过程不是通过延长推理时间来提升性能,而是让模型通过迭代式策略改进内化推理过程。

这是一个全新的扩展范式,使模型逐渐形成更强的直觉,并成为 AI 自我提升(AI 系统自我改进)概念的有力验证。

由于 Cogito 模型在搜索过程中对推理路径有更好的直觉,其推理链比 DeepSeek R1 缩短了 60%。

与普遍认为技术创新需要大量基础设施投入的观点相反,这种方法效率极高 —— Cogito 系列模型(总共 8 个,本文是其中的 4 个)的训练总成本不足 350 万美元,其中已包含合成与人工数据生成、超过一千次训练实验的所有成本。

现在,用户可以在 Huggingface 上下载模型,或者直接通过 Together AI、Baseten 或 RunPod 上的 API 使用它们,或者使用 Unsloth 在本地运行它们。

Huggingface 地址:https://huggingface.co/collections/deepcogito/cogito-v2-preview-6886b5450b897ea2a2389a6b

说到 Deep Cogito,可能许多 AI 从业者近期才刚刚开始接触这家公司,Deep Cogito 实际上已经默默耕耘了一年多的时间。

它于 2025 年 4 月正式走出隐身状态,并发布了一系列基于 Meta 的 Llama 3.2 训练的开源模型。那些早期发布的模型就已展现出颇具前景的表现。

当时最小的 Cogito v1 模型(3B 和 8B)在多个评测基准上都超越了同尺寸的 Llama 3 模型,有时差距甚至相当明显。

Deep Cogito 的联合创始人兼 CEO Drishan Arora,此前是谷歌大语言模型核心工程师。他将公司的长期目标描述为:构建能够像 AlphaGo 那样通过每次迭代不断进行推理和自我提升的模型。

方法介绍

该研究最主要的目标是:将推理步骤蒸馏回模型的参数中,也就是把推理时的搜索过程转化为模型的直觉,融入其内在能力中。

今年早些时候,Cogito v1 模型上线,该模型当时就使用了「迭代蒸馏与增强 」技术。

今天发布的 Cogito v2 模型在这一研究路径上进一步拓展到了更大规模的系统上,并将重点放在 IDA 的另一个关键部分上 —— 通过蒸馏实现自我改进。

在多个特定领域(如国际象棋、围棋和扑克),AI 通过两步循环(two-step loop)实现了超人类表现:

  • 推理时计算:通过消耗算力来搜索解决方案;
  • 策略迭代优化:将搜索发现的知识蒸馏到模型参数中,使得下次搜索更容易。

在这一模式下,AlphaGo 是典型代表,LLM 可视为同类系统,其推理时间计算虽比游戏系统更非结构化(通过生成答案前的「思考过程」实现),但要完成智能迭代提升的闭环,同样需要关键的第二步骤 —— 策略迭代优化。

也就是说,需要将推理过程蒸馏回模型参数中,使模型拥有更强的智能先验。这意味着应当能够以某种方式利用推理阶段的思考过程,使模型本身变得更有能力或更聪明。模型应该能够直接预测出推理的结果(而不是真的执行整个推理过程),并预判自身推理可能产生的结果。

尽管近期的 LLM 在推理方面取得了一些进展,但这些进展大多是依赖于延长推理链条,而不是增强模型本身的智能先验。因此,LLM 性能的提升主要依赖于给模型更大的思考预算(即更多的推理 token),也就是多试几种可能,而非模型对哪条搜索路径更合适有真正的直觉。同样地,LLM 在非思考模式下的改进,也主要依赖于加入回溯等启发式策略,其本质上与穷举更多路径没有本质区别。

提升模型本身的智能是一个更加困难的根本性问题,尤其是面对语言模型中那种非结构化的推理路径。要解决这个问题,需要在迭代式策略改进方面取得技术性突破。Cogito v2 就是该研究在这个方向上迈出的下一步。

该研究相信,在迭代式策略改进方向上持续研究,将有望实现远超单纯增加推理 token 所能带来的模型能力跃升。

评估

团队公布了一些标准基准测试的评估结果,但特别强调,这些公开基准测试固然有其参考价值,但它们的结果与团队的内部评估时常存在差异。

在他们的内部评估中,Cogito 模型的表现持续优于大多数开源模型。因此他们相信,自家模型在应对真实世界的应用和评估时会表现出色。

此外,像 o3 和 Claude 4 Opus 这类前沿的闭源模型,它们的实力也早已超越了这些基准测试所能衡量的范畴。

报告中还提到了一个有趣的「涌现能力」。尽管 Cogito v2 的训练数据完全是文本,但由于其基座模型具备多模态能力,它似乎通过纯粹的迁移学习,学会了对图像进行复杂的逻辑推理。

在一个示例中,模型在被要求对比两张风马牛不相及的图片(一张鸭子和一头狮子)时,其内部的「思考」过程清晰地展示了它如何分析图像的构图、色彩、主体、环境乃至情感氛围,并最终给出了条理清晰的对比。

这种未经专门训练而自发产生的能力,为研究 AI 的泛化与学习机制提供了新的有趣视角。不过团队尚未通过视觉基准测试评估此功能。

基准测试结果

70B Dense

109B MoE

405B Dense

671B MoE(非推理)

671B MoE(推理)

https://www.deepcogito.com/research/cogito-v2-preview

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
无人机真是中国领先吗?为何战场上被打下的,全都是中国无人机

无人机真是中国领先吗?为何战场上被打下的,全都是中国无人机

安安说
2026-03-19 13:00:22
袁家军会见王兴兴

袁家军会见王兴兴

新京报政事儿
2026-03-26 16:45:34
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
78年深圳失业女征婚!称未婚未育,找45岁左右优质熟男,引发热议

78年深圳失业女征婚!称未婚未育,找45岁左右优质熟男,引发热议

火山詩话
2026-03-24 07:34:43
马筱梅儿子满月太冷清,满月宴只有6个菜,兰姐缺席孙子满月仪式

马筱梅儿子满月太冷清,满月宴只有6个菜,兰姐缺席孙子满月仪式

阿废冷眼观察所
2026-03-27 03:43:51
国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

零度眼看球
2026-03-26 07:23:48
白宫坚称美伊仍在谈判,威胁伊朗“切勿误判”;伊朗外长:美国谈论“谈判”无异于承认“失败”,伊朗放声开新战线

白宫坚称美伊仍在谈判,威胁伊朗“切勿误判”;伊朗外长:美国谈论“谈判”无异于承认“失败”,伊朗放声开新战线

每日经济新闻
2026-03-26 17:08:49
人过五十才懂:和子女最好的相处,不是给钱出力,而是守住这条线

人过五十才懂:和子女最好的相处,不是给钱出力,而是守住这条线

荷兰豆爱健康
2026-03-23 01:42:20
碘伏再次成为关注对象!医生发现:使用碘伏,千万多留意这几点

碘伏再次成为关注对象!医生发现:使用碘伏,千万多留意这几点

39健康网
2026-03-25 16:00:38
巴西女生来中国旅游,回国后感叹:巴西与中国的差距一目了然

巴西女生来中国旅游,回国后感叹:巴西与中国的差距一目了然

千秋文化
2026-03-26 21:22:48
上海53岁独居女子离世续:遗物封存,当地有专班处置身后事

上海53岁独居女子离世续:遗物封存,当地有专班处置身后事

南方都市报
2026-03-26 11:58:07
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

青青子衿
2026-03-26 01:37:03
封神战在即!德约出战蒙特卡洛,冲击史无前例三圈“金大师”!

封神战在即!德约出战蒙特卡洛,冲击史无前例三圈“金大师”!

田先生篮球
2026-03-26 13:33:00
一天蒸发6200亿!谷歌算法黑科技击溃存储股,华尔街痛批市场“不懂技术”

一天蒸发6200亿!谷歌算法黑科技击溃存储股,华尔街痛批市场“不懂技术”

每日经济新闻
2026-03-26 19:00:13
伊朗首都德黑兰遭空袭 多地传出爆炸声

伊朗首都德黑兰遭空袭 多地传出爆炸声

财联社
2026-03-26 19:44:11
封海4天!中国不再给菲蹦跶的机会,高市早苗急了,日菲连遭重击

封海4天!中国不再给菲蹦跶的机会,高市早苗急了,日菲连遭重击

张鼋卤说体育
2026-03-25 20:04:06
悲催!怎么会这么巧?张雪峰和曝光眼镜暴利的记者,都是心脏骤停

悲催!怎么会这么巧?张雪峰和曝光眼镜暴利的记者,都是心脏骤停

火山詩话
2026-03-24 18:23:32
小心牢底坐穿! 2022年云南花鸟市场卖10元1条, 被抓时已卖30多条

小心牢底坐穿! 2022年云南花鸟市场卖10元1条, 被抓时已卖30多条

万象硬核本尊
2026-03-26 19:01:49
伊朗:已为未来几天的战斗准备了新的“惊喜”,可能带来“重大效果”

伊朗:已为未来几天的战斗准备了新的“惊喜”,可能带来“重大效果”

纵相新闻
2026-03-25 21:56:04
2026-03-27 04:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
本地
艺术
房产
家居

教育要闻

2026年高考可能“扎堆报考”的五大专业:就业缺口大,稳定且高薪

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版