网易首页 > 网易号 > 正文 申请入驻

Deep Cogito发布四款开源混合推理大语言模型

0
分享至



位于旧金山的AI研究初创公司Deep Cogito由前谷歌员工创立,近日发布了四款新的开源大语言模型,这些模型在一个关键方面与众不同:它们能够学会如何更有效地推理,并且能够自主改进。

这四款模型属于Cogito v2系列,参数规模从700亿到6710亿不等,面向AI开发者和企业用户开放使用。具体包括:

- Cogito v2-70B(密集型)

- Cogito v2-109B(专家混合型)

- Cogito v2-405B(密集型)

- Cogito v2-671B(专家混合型)

密集型模型在每次前向传播中激活所有参数,更适合低延迟应用和GPU容量有限的环境。专家混合型(MoE)模型采用稀疏路由机制,每次只激活少数专业化的"专家"子网络,在不成比例增加计算成本的情况下实现更大的模型规模。

所有四款Cogito v2模型都设计为混合推理系统:它们既可以立即响应查询,也可以在需要时进行内部反思后再回答。关键在于,这种反思不仅仅是运行时行为,而是融合到训练过程本身中。

这些模型被训练来内化自己的推理过程。这意味着它们得出答案的路径——可以说是思维步骤——被提炼回模型的权重中。随着时间推移,它们学会识别哪些思路真正重要,哪些不重要。

Deep Cogito的CEO兼联合创始人Drishan Arora此前是谷歌的首席大语言模型工程师,他将公司的长期目标描述为构建能够推理并在每次迭代中改进的模型,类似于AlphaGo通过自我对弈完善策略的方式。

在推理任务中,旗舰版671B MoE模型超越了DeepSeek R1,在使用60%更短推理链的情况下达到或超过其最新0528模型的性能。在MMLU、GSM8K和MGSM等基准测试中,Cogito 671B MoE的表现与Qwen1.5-72B和DeepSeek v3等顶级开源模型相当,接近Claude 4 Opus和o3等闭源模型的性能水平。

尽管模型规模庞大,Deep Cogito声称其训练所有八个Cogito模型(包括较小的v1检查点)的总成本不到350万美元,相比之下,据报道OpenAI一些领先模型的成本超过1亿美元。

这些模型现已在Hugging Face上提供下载,企业用户可通过Together AI、Baseten和RunPod的API接口使用。对于开发者、研究人员和企业团队来说,这些模型提供了一种不同的构建智能的方法:不是更努力地思考,而是学习如何更好地思考。

Q&A

Q1:Deep Cogito的混合推理模型有什么特别之处?

A:Deep Cogito的模型具备自我改进的"直觉"能力,它们将推理过程融合到训练中,能够学会哪些思路重要哪些不重要,从而实现更快、更高效的推理,即使在标准模式下也能提升性能。

Q2:Cogito v2模型的性能表现如何?

A:旗舰版671B MoE模型在推理任务中超越DeepSeek R1,使用60%更短的推理链达到相同性能。在MMLU、GSM8K等基准测试中表现与顶级开源模型相当,接近闭源模型性能水平。

Q3:如何使用这些Cogito v2模型?

A:开发者可以在Hugging Face上下载这些模型,通过Unsloth进行本地使用,或者通过Together AI、Baseten和RunPod的API接口使用。模型支持立即响应和内部反思两种模式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江:女子远嫁11年,如今离婚了,从始至终老公都看不上她娘家人

浙江:女子远嫁11年,如今离婚了,从始至终老公都看不上她娘家人

小霍霍
2025-11-18 13:48:34
汪东兴提反对意见,邓公起身质问:为什么你每次开会都唱反调?

汪东兴提反对意见,邓公起身质问:为什么你每次开会都唱反调?

瀚霖学史
2025-10-24 09:04:10
A股突发!000609,20连涨停!

A股突发!000609,20连涨停!

证券时报e公司
2025-11-18 10:42:19
福建省委组织部公示,4名干部拟进一步使用

福建省委组织部公示,4名干部拟进一步使用

金台资讯
2025-11-18 15:19:06
携怀孕岳母旅游后,双双坠崖身亡,警方勘察背包后傻眼:不是人

携怀孕岳母旅游后,双双坠崖身亡,警方勘察背包后傻眼:不是人

罪案洞察者
2025-11-04 13:49:14
为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

阿斚田侃故事
2025-11-03 22:56:11
请神容易送神难!有一说一,现役NBA最无交易市场的5大巨星如下

请神容易送神难!有一说一,现役NBA最无交易市场的5大巨星如下

毒舌NBA
2025-11-12 14:45:50
536年,太阳“罢工”18个月,史书:关中大饥,十室九空,人相食

536年,太阳“罢工”18个月,史书:关中大饥,十室九空,人相食

诗意世界
2025-11-14 18:39:15
女生穿成这样去健身房,真的合适吗??

女生穿成这样去健身房,真的合适吗??

健身厨屋
2025-10-20 12:22:34
交易回赵睿?赵睿表态,朱芳雨官宣:我觉得赵睿对广东非常有感情

交易回赵睿?赵睿表态,朱芳雨官宣:我觉得赵睿对广东非常有感情

乐聊球
2025-11-18 10:35:47
亚朵大战全季,传统五星级酒店输麻了

亚朵大战全季,传统五星级酒店输麻了

IC实验室
2025-11-13 15:50:52
大玻璃窗“正退出”中国家庭?过来人说出了大实话,太真实了

大玻璃窗“正退出”中国家庭?过来人说出了大实话,太真实了

装修秀
2025-11-08 11:38:22
陈伟霆妈妈飞北京看孙子!何穗穿情侣装迎婆婆,首晒产后美照惊艳

陈伟霆妈妈飞北京看孙子!何穗穿情侣装迎婆婆,首晒产后美照惊艳

艳姐的搞笑视频
2025-11-17 20:28:31
“快来逮捕我”,沈伯洋窜德发挑衅,不到24小时,大陆对其出重拳

“快来逮捕我”,沈伯洋窜德发挑衅,不到24小时,大陆对其出重拳

凡知
2025-11-17 14:53:14
定了!济南这一重要片区6个地块,征收冻结

定了!济南这一重要片区6个地块,征收冻结

鲁中晨报
2025-11-18 17:39:07
1960年,赵一曼的儿子给毛主席寄了封讽刺信,主席看后回复6个字

1960年,赵一曼的儿子给毛主席寄了封讽刺信,主席看后回复6个字

博览历史
2025-11-09 20:20:03
专家批评《白毛女》逻辑不清,杨白劳欠钱,为何反而枪毙黄世仁?

专家批评《白毛女》逻辑不清,杨白劳欠钱,为何反而枪毙黄世仁?

一口娱乐
2025-11-12 12:40:48
医生忠告:吃完降压药千万别碰这3样食物,患者要牢记,不能大意

医生忠告:吃完降压药千万别碰这3样食物,患者要牢记,不能大意

今日养生之道
2025-10-23 08:08:38
珠海警方通报:林某(男,48岁)已被迅速控制,曾有多次精神类疾病就诊史

珠海警方通报:林某(男,48岁)已被迅速控制,曾有多次精神类疾病就诊史

鲁中晨报
2025-11-18 16:09:10
仅一夜!文班亚马重伤,周最佳球员诞生!NBA要大变天了

仅一夜!文班亚马重伤,周最佳球员诞生!NBA要大变天了

篮球扫地僧
2025-11-18 15:09:06
2025-11-18 19:00:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
14718文章数 49674关注度
往期回顾 全部

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

22岁女生跳河轻生 生前因未请假离校与辅导员发生争执

头条要闻

22岁女生跳河轻生 生前因未请假离校与辅导员发生争执

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

艺术
本地
时尚
公开课
军事航空

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

从百元到大牌,《新闻女王2》的职场穿搭,每种预算都能找到参考

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版