网易首页 > 网易号 > 正文 申请入驻

Deep Cogito发布四款开源混合推理大语言模型

0
分享至

位于旧金山的AI研究初创公司Deep Cogito由前谷歌员工创立,近日发布了四款新的开源大语言模型,这些模型在一个关键方面与众不同:它们能够学会如何更有效地推理,并且能够自主改进。

这四款模型属于Cogito v2系列,参数规模从700亿到6710亿不等,面向AI开发者和企业用户开放使用。具体包括:

- Cogito v2-70B(密集型)

- Cogito v2-109B(专家混合型)

- Cogito v2-405B(密集型)

- Cogito v2-671B(专家混合型)

密集型模型在每次前向传播中激活所有参数,更适合低延迟应用和GPU容量有限的环境。专家混合型(MoE)模型采用稀疏路由机制,每次只激活少数专业化的"专家"子网络,在不成比例增加计算成本的情况下实现更大的模型规模。

所有四款Cogito v2模型都设计为混合推理系统:它们既可以立即响应查询,也可以在需要时进行内部反思后再回答。关键在于,这种反思不仅仅是运行时行为,而是融合到训练过程本身中。

这些模型被训练来内化自己的推理过程。这意味着它们得出答案的路径——可以说是思维步骤——被提炼回模型的权重中。随着时间推移,它们学会识别哪些思路真正重要,哪些不重要。

Deep Cogito的CEO兼联合创始人Drishan Arora此前是谷歌的首席大语言模型工程师,他将公司的长期目标描述为构建能够推理并在每次迭代中改进的模型,类似于AlphaGo通过自我对弈完善策略的方式。

在推理任务中,旗舰版671B MoE模型超越了DeepSeek R1,在使用60%更短推理链的情况下达到或超过其最新0528模型的性能。在MMLU、GSM8K和MGSM等基准测试中,Cogito 671B MoE的表现与Qwen1.5-72B和DeepSeek v3等顶级开源模型相当,接近Claude 4 Opus和o3等闭源模型的性能水平。

尽管模型规模庞大,Deep Cogito声称其训练所有八个Cogito模型(包括较小的v1检查点)的总成本不到350万美元,相比之下,据报道OpenAI一些领先模型的成本超过1亿美元。

这些模型现已在Hugging Face上提供下载,企业用户可通过Together AI、Baseten和RunPod的API接口使用。对于开发者、研究人员和企业团队来说,这些模型提供了一种不同的构建智能的方法:不是更努力地思考,而是学习如何更好地思考。

Q&A

Q1:Deep Cogito的混合推理模型有什么特别之处?

A:Deep Cogito的模型具备自我改进的"直觉"能力,它们将推理过程融合到训练中,能够学会哪些思路重要哪些不重要,从而实现更快、更高效的推理,即使在标准模式下也能提升性能。

Q2:Cogito v2模型的性能表现如何?

A:旗舰版671B MoE模型在推理任务中超越DeepSeek R1,使用60%更短的推理链达到相同性能。在MMLU、GSM8K等基准测试中表现与顶级开源模型相当,接近闭源模型性能水平。

Q3:如何使用这些Cogito v2模型?

A:开发者可以在Hugging Face上下载这些模型,通过Unsloth进行本地使用,或者通过Together AI、Baseten和RunPod的API接口使用。模型支持立即响应和内部反思两种模式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国内规模最大的资金外流渠道,并非地下钱庄,也不是虚拟货币

国内规模最大的资金外流渠道,并非地下钱庄,也不是虚拟货币

流苏晚晴
2026-05-06 20:24:48
在朝鲜生活三年,说实话:它的发达与落后,都超出你的想象

在朝鲜生活三年,说实话:它的发达与落后,都超出你的想象

老特有话说
2026-05-07 17:41:09
北京的很多房子不好出租了

北京的很多房子不好出租了

微微热评
2026-05-07 21:05:19
充电6分钟续航2000公里!国产固态电池大突破,宁德时代或将量产

充电6分钟续航2000公里!国产固态电池大突破,宁德时代或将量产

胖福的小木屋
2026-05-06 18:47:23
福建骂学生的副校长被扒!是"惯犯",真容曝光很漂亮 丈夫身份被爆

福建骂学生的副校长被扒!是"惯犯",真容曝光很漂亮 丈夫身份被爆

小鋭有话说
2026-05-07 21:18:55
无名无分45年,赚钱补贴原配还绝育,70岁才转正的她到底图啥?

无名无分45年,赚钱补贴原配还绝育,70岁才转正的她到底图啥?

星娱叨叨社
2026-05-07 14:35:16
甘肃省长为来自甘肃的“00后”新科斯诺克世锦赛冠军吴宜泽点赞

甘肃省长为来自甘肃的“00后”新科斯诺克世锦赛冠军吴宜泽点赞

澎湃新闻
2026-05-07 21:26:28
台官员曝赖清德成功返台内幕,大陆出手阻止未果,背后有难言之隐

台官员曝赖清德成功返台内幕,大陆出手阻止未果,背后有难言之隐

共工之锚
2026-05-07 00:04:56
中新社评:不是中国离不开世界杯,而是世界杯更需要中国

中新社评:不是中国离不开世界杯,而是世界杯更需要中国

懂球帝
2026-05-07 12:51:40
普京不想再打了,俄军打下来的领土,足够给1亿俄罗斯人一个交待

普京不想再打了,俄军打下来的领土,足够给1亿俄罗斯人一个交待

混沌录
2026-05-05 13:50:21
CBA最新消息!胡明轩尿检结果出炉,季后赛规则临时修改,朱芳雨这下被坑惨了

CBA最新消息!胡明轩尿检结果出炉,季后赛规则临时修改,朱芳雨这下被坑惨了

林子说事
2026-05-07 15:15:03
罗马诺实锤!“新卡塞米罗” 表态愿加盟曼联,夏窗中场重建稳了

罗马诺实锤!“新卡塞米罗” 表态愿加盟曼联,夏窗中场重建稳了

一隅非生
2026-05-08 03:13:16
深圳官方通报:28岁女子坠亡,多人涉谎报被建议处理

深圳官方通报:28岁女子坠亡,多人涉谎报被建议处理

南方都市报
2026-05-07 19:26:11
宁宁、Lisa夜店庆功爆看脱衣秀!内场香艳画面疯传 陆网怒喊封杀

宁宁、Lisa夜店庆功爆看脱衣秀!内场香艳画面疯传 陆网怒喊封杀

ETtoday星光云
2026-05-07 12:14:09
河南王挥泪斩马谡!胖东来一口气拿下20名领导,网友:上帝不好当

河南王挥泪斩马谡!胖东来一口气拿下20名领导,网友:上帝不好当

蓝色海边
2026-05-08 01:52:19
1.3 亿欧 + 4 大新援!老佛爷为穆里尼奥回归铺路,皇马要搞大的

1.3 亿欧 + 4 大新援!老佛爷为穆里尼奥回归铺路,皇马要搞大的

奶盖熊本熊
2026-05-08 00:36:05
世界第1拒绝爆冷!孙颖莎3-2逆转金娜英,中韩大战国乒夺赛点

世界第1拒绝爆冷!孙颖莎3-2逆转金娜英,中韩大战国乒夺赛点

钉钉陌上花开
2026-05-07 18:22:55
FIFA终于回应了!世界杯版权天价僵局,央视:我们真的买不起

FIFA终于回应了!世界杯版权天价僵局,央视:我们真的买不起

足球印象
2026-05-07 13:38:29
56岁汪峰又换新欢,凌晨别墅相会,森林北清空账号划界限

56岁汪峰又换新欢,凌晨别墅相会,森林北清空账号划界限

科学发掘
2026-05-07 10:32:29
41岁C罗获评7.1分:破门+率队4-2+逼近沙特联冠军

41岁C罗获评7.1分:破门+率队4-2+逼近沙特联冠军

侧身凌空斩
2026-05-08 04:02:40
2026-05-08 05:19:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
18243文章数 49703关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

日媒询问中国是否希望恢复中日之间人员往来 中方回应

头条要闻

日媒询问中国是否希望恢复中日之间人员往来 中方回应

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

Lisa主持!宁艺卓观看脱衣秀风波升级

财经要闻

人均年薪406万,这家ST公司惊呆市场!

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

本地
手机
艺术
教育
亲子

本地新闻

用青花瓷的方式,打开西溪湿地

手机要闻

麒麟9050+双潜望+超声波指纹,华为Mate90 Pro Max迎重磅升级!

艺术要闻

探索施密德的油画,感受无法抵挡的艺术魅力!

教育要闻

二模很重要!2026临沂二模、青岛二模语文、数学试题及答案!

亲子要闻

只祝她“母亲节快乐”是不够的

无障碍浏览 进入关怀版