网易首页 > 网易号 > 正文 申请入驻

谷歌老将创业公司开源混合推理模型,据称超越DeepSeek-R1与Qwen

0
分享至

由 DeepMind 前产品经理谷歌资深工程师联手创立的美国初创公司 Deep Cogito 近日正式结束“隐身”状态,发布了其首个开源大型语言模型系列——Cogito v1。该系列模型的核心亮点在于其创新的“混合”架构,允许模型在需要快速响应的标准模式和需要深度思考的推理模式之间灵活切换,旨在以更高效的方式应对不同复杂度的任务。

和 Claude 3.7 以及未来的 GPT-5 一样,Cogito v1 系列模型也结合了标准(非推理)组件和推理组件。这意味着模型在面对简单、直接的问题时,可以迅速给出答案;而在遇到需要深入分析的复杂查询时,则能“切换”到推理模式,投入更多计算资源进行思考和自我反思,从而生成更高质量的回复。

Deep Cogito 本次发布了基于 Meta 的 Llama 和阿里巴巴 Qwen 预训练模型进行微调的 Cogito v1 系列,涵盖了 3B、8B、14B、32B 和 70B 五种参数规模,所有模型均已开源(项目地址:https://huggingface.co/deepcogito)。

Deep Cogito 的核心创新在于其采用的训练方法——迭代蒸馏与放大(IDA,Iterated Distillation and Amplification)。公司在其官方介绍中指出,当前大模型训练范式往往受限于“监督者”(无论是人类标注者还是更强大的教师模型)的能力上限。为了突破这一限制,实现真正的超人智能(Superintelligence),模型需要具备超越监督者的自我改进能力。

IDA 正是为此设计的一种策略,其灵感部分来源于 DeepMind AlphaGo 的“自对弈”机制,并将其应用于自然语言处理。该方法包含一个核心的循环过程:首先通过“放大”步骤,利用更多计算资源(例如,让模型进行更长时间的思考或调用子程序)来生成一个比模型当前能力更优的解决方案或推理过程;接着,在“蒸馏”步骤中,将这个通过额外计算获得的、更高质量的“思考过程”及其结果,“提炼”并内化回模型自身的参数中。

通过不断重复这两个步骤,模型在每次迭代中自我提升,其能力边界逐渐由可用的计算资源和 IDA 方法的效率决定,而非受限于最初的监督者水平。Deep Cogito 表示,采用 IDA 方法,一个小型团队仅用约 75 天就开发出了 Cogito v1 系列模型,这显示了该方法在时间和资源效率上的优势,尤其相较于传统的基于人类反馈的强化学习或直接从更大模型蒸馏的方法。

在性能表现方面,根据公司发布的基准测试结果,所有尺寸的 Cogito 模型在标准模式下已经超越同等规模的开源对手,而在启用推理模式后性能进一步提升。具体来看,Cogito 3B 模型在 MMLU 测试中的得分比 Llama 3.2 3B 高出 6.7 个百分点(65.4% vs. 58.7%),在 Hellaswag 测试中高出 18.8 个百分点(81.1% vs. 62.3%);在启用推理模式后,MMLU 成绩进一步提升至 72.6%,ARC 达到 84.2%。

Cogito 8B 模型在 MMLU 测试中得分达 80.5%,超过 Llama 3.1 8B 模型 12.8 个百分点;在 MMLU-Pro 上领先超过 11 个百分点,ARC 测试达到 88.7%。启用推理模式后,MMLU 成绩提升至 83.1%,ARC 达到 92.0%,在几乎所有类别上都超过了 DeepSeek R1 Distill 8B,除了在 MATH 基准测试中 Cogito 得分较低(60.2% vs. 80.6%)。

中型模型方面,Cogito 14B 和 32B 模型在综合基准测试中比 Qwen2.5 同等规模模型高出约 2-3 个百分点,其中 Cogito 32B 在推理模式下 MMLU 达到 90.2%,MATH 基准测试达到 91.8%。

最大的 70B 模型表现也可圈可点,Cogito 70B(标准模式)在 MMLU 测试中比 Llama 3.3 70B 高出 6.4 个百分点(91.7% vs. 85.3%),在综合基准测试得分上超过 Llama 4 Scout 109B 模型(54.5% vs. 53.3%)。与 DeepSeek R1 Distill 70B 相比,Cogito 70B(推理模式)在通用和多语言基准测试中表现更强,MMLU 达到 91.0%,MGSM 达到 92.7%。

除了一般基准测试外,Deep Cogito 还评估了其模型在原生工具调用方面的表现。结果显示,Cogito 3B 原生支持四种工具调用任务(简单、并行、多重和并行多重),而 Llama 3.2 3B 不支持工具调用。Cogito 3B 在简单工具调用上得分达 92.8%,在多重工具调用上超过 91%。Cogito 8B 在所有工具调用类型上得分超过 89%,明显优于 Llama 3.1 8B(35% 至 54% 之间)。

关于公司背景,Deep Cogito 于 2024 年 6 月在美国加州注册成立,总部位于旧金山。根据其 LinkedIn 页面和相关报道,公司由两位联合创始人领导:CEO Drishan Arora 曾是谷歌的高级软件工程师,曾领导谷歌生成式搜索产品的大模型建模工作;另一位创始人 Dhruv Malhotra 曾在谷歌 AI 实验室 DeepMind 担任产品经理,负责生成式搜索技术。而这家公司的名称 Deep Cogito,也很难不让人去遐想其与 DeepMind 的关系(Cogito 是拉丁语 Cogitare 的第一人称形式,意为“我思考”)。

公司目前已经获得了包括 South Park Commons 在内的风投支持,目标是打造“通用超级智能”(general superintelligence)——能够在大多数领域优于人类并有能力发现我们尚未想象的全新能力的 AI 系统。他们将 IDA 视为实现这一目标的有效路径,因为它有望摆脱对人类智慧上限的依赖,实现可扩展的自我完善。

Deep Cogito 计划在未来几周或几个月内发布更大规模的模型,包括参数量达到 109B、400B 和 671B 的混合专家模型(MoE,Mixture of experts)。同时,他们将继续通过延长训练周期来更新现有模型的检查点,并持续探索 IDA 及其他互补的后训练自我改进方法。

参考资料:

1.https://www.deepcogito.com/research/cogito-v1-preview

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中东局势紧张!多位网球名将被困,前世界第一恐无缘第五大满贯

中东局势紧张!多位网球名将被困,前世界第一恐无缘第五大满贯

全景体育V
2026-03-02 18:51:55
河南鲁山通报网友反映母亲去世后身份异常及遗产继承问题:组成联合调查组

河南鲁山通报网友反映母亲去世后身份异常及遗产继承问题:组成联合调查组

澎湃新闻
2026-03-03 07:12:05
中欧航线票价暴涨 上海飞巴黎飙升5倍

中欧航线票价暴涨 上海飞巴黎飙升5倍

财联社
2026-03-02 17:34:14
新华时评:当炸弹落在校园,文明底线何在

新华时评:当炸弹落在校园,文明底线何在

澎湃新闻
2026-03-01 22:32:48
川普活成自己最讨厌的人,昔日数次预言奥巴马打伊朗:为挽回颜面与支持率

川普活成自己最讨厌的人,昔日数次预言奥巴马打伊朗:为挽回颜面与支持率

不掉线电波
2026-03-02 11:07:35
特朗普称对英国首相的立场“非常失望”

特朗普称对英国首相的立场“非常失望”

新华社
2026-03-02 22:06:40
上海某电影院事件:81秒视频流出,主角社交媒体曝光

上海某电影院事件:81秒视频流出,主角社交媒体曝光

温柔看世界
2026-03-02 16:33:22
现货黄金日内转跌

现货黄金日内转跌

财联社
2026-03-03 00:06:13
伊朗生死关头,一个关键人物走向前台……

伊朗生死关头,一个关键人物走向前台……

补壹刀
2026-03-02 16:08:19
如果伊朗提出请求中俄会向其提供军事支持吗?外交部回应

如果伊朗提出请求中俄会向其提供军事支持吗?外交部回应

澎湃新闻
2026-03-02 15:36:48
王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

南权先生
2026-02-02 15:59:44
伊朗称霍尔木兹海峡已关闭 将打击所有试图通过的船只

伊朗称霍尔木兹海峡已关闭 将打击所有试图通过的船只

财联社
2026-03-03 04:20:36
巴拿马运河两端港口运营恢复,MSC完成首船装卸

巴拿马运河两端港口运营恢复,MSC完成首船装卸

海事服务网CNSS
2026-03-02 19:58:04
街头已大量出现,不要踩!不要踩!

街头已大量出现,不要踩!不要踩!

南国今报
2026-03-01 20:00:00
10天一万公里,雷军口中的“奇迹”,为何引起质疑?

10天一万公里,雷军口中的“奇迹”,为何引起质疑?

A活着
2026-03-02 20:13:55
涉美伊局势,复旦教授、人大教授双双发声,“外网和国内的一些自媒体造谣,这些人脸都不要了”

涉美伊局势,复旦教授、人大教授双双发声,“外网和国内的一些自媒体造谣,这些人脸都不要了”

都市快报橙柿互动
2026-03-02 15:33:41
“生灵涂炭”,知名女主持人直播中落泪!连线时警报突然响起,网友纷纷祈愿……

“生灵涂炭”,知名女主持人直播中落泪!连线时警报突然响起,网友纷纷祈愿……

新民周刊
2026-03-02 16:00:18
一边是内奸害死了哈梅内伊,一边是美国人公开发特朗普的定位

一边是内奸害死了哈梅内伊,一边是美国人公开发特朗普的定位

林中木白
2026-03-02 11:06:13
伊朗4枚弹道导弹“突袭”美军航母,却变成一场“昂贵的烟花秀”

伊朗4枚弹道导弹“突袭”美军航母,却变成一场“昂贵的烟花秀”

瞩望云霄
2026-03-02 10:49:12
历史性转折!黎巴嫩正式清场真主党,中东格局一夜改写

历史性转折!黎巴嫩正式清场真主党,中东格局一夜改写

老马拉车莫少装
2026-03-02 23:27:10
2026-03-03 07:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16346文章数 514697关注度
往期回顾 全部

科技要闻

苹果iPhone17e发布:4499元起 升级A19芯片

头条要闻

媒体:遭受惨烈袭击后 伊朗做了件"史无前例"的事

头条要闻

媒体:遭受惨烈袭击后 伊朗做了件"史无前例"的事

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

家居
健康
亲子
教育
手机

家居要闻

万物互联 享科技福祉

转头就晕的耳石症,能开车上班吗?

亲子要闻

开学了!珠海香洲:筑牢安全防线,保障托育机构顺利开园复托

教育要闻

毕业大游戏-谭剑-2026年3月2日 (游戏AI设计第1次课第1节)

手机要闻

联想moto首款大折叠!moto razr fold国行暂定第二季度发布

无障碍浏览 进入关怀版