网易首页 > 网易号 > 正文 申请入驻

20岁写出Transformer的人,真开源了2180亿大模型

0
分享至


新智元报道


【新智元导读】刚刚,Cohere放出2180亿参数的MoE大模型Command A+,单张B200可跑,支持48种语言,还带原生引用能力。但这次发布最炸的,不在参数表上,而在那一个许可证:Apache 2.0。

「Attention Is All You Need」,正是这篇著名的论文,催生了今天所有的大模型。

5月20日,该论文的一位共同作者Aidan Gomez,在X上宣布推出首个完全开源的Apache 2.0许可的模型:Cohere Command A+。


Gomez是前谷歌研究员,如今是Cohere的联合创始人兼CEO。

Command A+是Command A家族的最后一个模型,也是Cohere的第一个MoE(混合专家)模型。218B总参数,25B激活参数:一次性把视觉输入、推理、翻译和AI智能体能力,全部塞进了同一个模型。

最低部署配置:1张NVIDIA B200,或者2张H100。许可证:Apache 2.0。


https://cohere.com/blog/command-a-plus

据VentureBeat报道,这是Cohere历史上第一个真正可商用的开源旗舰。联合创始人Nick Frosst称它是「我们发过最好的模型」。

2180亿参数

每次干活的只有250亿

2180亿参数,听起来就是个吞算力的巨兽。但Command A+每次生成,真正被激活的只有250亿参数。

这正是MoE架构的精髓。

一个MoE模型,会将进来的问题只路由给最擅长处理它的那几个「专家」神经网络,其余部分保持休眠。这样的设计,既让模型保留了「巨头级」的知识储备和推理能力,但运行时的算力和能耗,却接近一个小得多的模型。

VentureBeat报道,据第三方观察估计,OpenAI的GPT-5.5、Anthropic的Claude Opus 4.7参数量都在万亿级别,而Command A+每次激活的参数只有250亿。

靠MoE省算力,如今是大多数头部模型的惯常做法。但Cohere在这个基础上又叠了第二层压缩:量化。

Command A+提供BF16、FP8和高度压缩的W4A4三种版本,其中W4A4是这次发布的技术核心。

通常,推理模型一旦被压缩,复杂问题上的表现会肉眼可见地退步,业内称之为「量化税」。

Cohere的做法,是只将MoE专家压到4-bit,关键的注意力通路保留全精度,再叠加一项叫量化感知蒸馏(Quantization-Aware Distillation)的技术。

Cohere称其W4A4量化方案接近无损。据Cohere发布的性能数据显示,W4A4版本在低并发下达到每秒375个token,首token延迟仅113毫秒。

正是靠这套方案,让一个2180亿参数的模型,能跑在单张NVIDIA B200上,或者两张H100上。


不同并发与量化下,Command A+与前代Command A Reasoning的速度和延迟对比。TOPS为每秒生成token数,TTFT为首token延迟。数据由Cohere发布。

这里所谓「单卡运行」,指的是一张数据中心级的Blackwell B200,并非消费级显卡。

过去一个千亿级模型要一整个GPU集群伺候,现在一台机器搞定。

这正是Cohere这次想讲的故事:大参数,不再等于烧钱。

Apache 2.0

一张通往真开源的许可证

如果只看参数和速度,Command A+是一次强大的工程升级。但更值得开发者们注意的,是一张Apache 2.0许可证。

在今天的AI圈,「开源」是一个早被「玩坏」的词。

很多领先的AI公司放出权重,却套着限制性的商用条款:大企业不许拿去做商业用途,也不许用它训练竞品模型。下载可以,研究可以,真要赚钱,回来买授权。

Cohere过去在这个方向上也摇摆了很久。

据VentureBeat报道,它此前的Command R、Command R+,采用的是CC-BY-NC 4.0,也就是「知识共享-非商业」许可。研究者和开发者能下载、能折腾、能评测,但严禁商用。

也就是说:开放一半,留一半。但到了Command A+,另一半也松开了。

它采用了Apache 2.0,一个OSI认可的真正开源许可证。从独立开发者到世界500强企业,任何人都可以使用、修改、分发并商业化这个模型,不付授权费,也没有竞业条款。

这是Cohere首次这么做,它在一位写出Transformer的人的带领下,全面倒向了真正的开源。

据VentureBeat报道,这个决定由联合创始人Nick Frosst力主推动。

Frosst是Cohere三位联合创始人之一,曾在谷歌大脑多伦多实验室做研究员,是AI教父Geoffrey Hinton在那里最早的雇员之一。

Cohere将旗舰模型从CC-BY-NC 4.0转到Apache 2.0,意味着企业彻底不必再被供应商捆住。

一家公司可以下载Command A+的权重,用自己高度机密的内部数据做微调,部署在私有服务器甚至气隙网络里,从此不再被Cohere的基础设施、定价变动或API稳定性绑住。

Command A+

把「可追溯」做成模型的原生能力

能跑和敢用,完全是两回事。

一个模型要真正进入金融、医疗、法律的生产环境,真正的瓶颈不是模型能力,而是可信。

Command A+在这件事上,做了一个原生层面的设计:原生引用(native citation)生成。

当Command A+从外部工具检索信息时,它不只是把答案合成出来,还会生成所谓的「grounding spans(溯源标记)」。

通过在输出里嵌入特殊标签,模型把它给出的每一条事实声明,直接链接到它所引用的那份具体文档或那一行数据库记录。

举个场景。你让它出一份当日销售报告,它给出总销售额的同时,会明确标出提供这个数字的那一次数据库查询结果。出处一目了然,幻觉风险被压到最低。

这种可追溯性,对于受到严格监管的行业尤为重要。

智能体能力,也是这次发布的一个重点。

Command A+支持标准chat template下的对话式工具调用,可以无缝对接内部API、搜索引擎或SQL数据库。

它还是全多模态的,在128K输入上下文里原生处理文本和图像,适合分析扫描发票、图表和技术手册。


Command A+与Command A Vision的多模态能力对比,Command A+是Cohere首个多模态推理模型。数据由Cohere发布。

据Cohere发布的性能数据显示,在测试复杂推理的²-Bench Telecom上,Command A+从前代的37%跳到85%;在衡量智能体编码能力的Terminal-Bench Hard上,从3%爬到25%;在AIME 25数学测试上,从57%升到90%。


Command A+与前代Command A Reasoning在五项开源基准上的表现对比。数据由Cohere发布。

这些都是VentureBeat援引Cohere自己发布的数据,并非第三方独立评测。

VentureBeat认为,Command A+以250亿激活参数的体量,在纯推理和数学上可以媲美体量大出许多的模型;但在深度智能体编码和综合智能的广度上,它目前仍落后于DeepSeek等中国头部开源模型。

比跑分更重要的,是Command A+把「可追溯」做成了模型的原生能力。

Transformer作者联手辛顿门徒

让Cohere真开源了

最后,再说一说Command A+背后的两个人。


https://arxiv.org/pdf/1706.03762

2017年,Transformer论文《Attention Is All You Need》在谷歌诞生。八位作者中,最年轻的Aidan Gomez当时只有 20 岁,还是Google Brain实习生,还在多伦多大学读计算机和数学本科。


Aidan Gomez

据TIME报道,为了赶上一个重要AI会议的截稿,他和同事们甚至睡在办公室里。后来他对TIME坦言,那时没人能预料到,这篇论文会把整个AI行业带到今天。

Gomez擅长把底层架构变成能落地的东西。2017年他还发起了FOR.ai,一个让研究者共享机器学习知识的协作项目,后来演化成Cohere For AI。

2019年,他从谷歌大脑离开,和Ivan Zhang、Nick Frosst一起在多伦多创办了Cohere。三个人选了一条和OpenAI不一样的路:不做面向大众的聊天机器人,只为企业做模型。


Nick Frosst

Frosst是Cohere联合创始人,曾在AI教父Geoffrey Hinton的谷歌大脑多伦多实验室做研究员,是那里最早的雇员之一,业内常视他为Hinton的得意门生。研究方向是胶囊网络和模型可解释性。

一个写出Transformer,一个师承Hinton。Cohere从第一天起,就具备了「把前沿研究做成企业能用的产品」的基因。

到了Command A+,在Frosst的力主推动下,Gomez拍板,Cohere彻底松手把旗舰模型的许可证翻到Apache 2.0。

据Cohere官方表示,Command A+是Command A家族的最后一个模型,这往往也意味着下一个家族已经在路上了。

长期以来,数据隐私和成本控制,把企业死死卡在这样一个瓶颈上:想用前沿AI,就必须依赖中心化的大型算力集群。

这一次,Command A+把前沿级的推理、稳健的智能体工具调用、多模态能力,和一套专为硬件效率设计的架构绑在了一起,这一转变正在重写企业采纳AI的成本账。

首先,部署的门槛降了。过去一个千亿级模型要一整个GPU集群,现在最低1张B200或2张H100就够。

其次,推理的开销也降了。W4A4版本的输出速度较前代Command A Reasoning最高提升63%,延迟降低17%。算力时间就是金钱,速度上去,单位成本就下来。

第三,多语言的账也降了。新的分词器让非欧洲语言更省token:阿拉伯语少20%,日语少18%,韩语少16%。推理按token计费,token少了,跨国和多语言部署的账单就跟着薄了。

近期,Cohere还宣布与德国AI公司Aleph Alpha合并。两家公司方向一致:不押注聊天机器人,而是为政府和大企业做能装进自家机房的AI。

开源大模型的竞争,已经进入下半场。上半场比的是参数规模,下半场比的是另一件事:谁能让企业把模型,真正搬进自己的机房。

参考资料:

https://cohere.com/blog/command-a-plus

https://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a

编辑:元宇

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以色列总理扬言伊朗政权将覆灭

以色列总理扬言伊朗政权将覆灭

财联社
2026-06-02 20:34:08
研究发现:每天吃20克它,癌症风险直降47%!还是天然硒库

研究发现:每天吃20克它,癌症风险直降47%!还是天然硒库

冷眼看世界728
2026-05-21 22:25:45
不要忙着打日本,中国应该去全国各地的武器仓库突击大检查

不要忙着打日本,中国应该去全国各地的武器仓库突击大检查

阿七说史
2026-05-21 15:45:10
赛豆汽车正式成立,首款车曝光!

赛豆汽车正式成立,首款车曝光!

电动内参
2026-06-01 23:51:46
湖北公务员拟录用5527人,这所大学霸榜第一!不是武大华科,而是它……

湖北公务员拟录用5527人,这所大学霸榜第一!不是武大华科,而是它……

老满说高考
2026-06-02 20:38:47
恐怖! 加拿大印度黑帮竟向警方下战书: 自爆有1000名枪手, 随时开枪! 大批留学生参与

恐怖! 加拿大印度黑帮竟向警方下战书: 自爆有1000名枪手, 随时开枪! 大批留学生参与

新浪财经
2026-06-02 20:20:03
日本“单身税”正式启动!

日本“单身税”正式启动!

凑近看世界
2026-06-02 09:53:24
维多利亚的秘密美股盘前涨近50%

维多利亚的秘密美股盘前涨近50%

每日经济新闻
2026-06-02 19:14:04
特朗普安抚市场:黎以所有交火行动将立即停止 与伊朗的谈判正“快速推进”

特朗普安抚市场:黎以所有交火行动将立即停止 与伊朗的谈判正“快速推进”

财联社
2026-06-02 03:37:15
彻底失控!美俄同时动手,两大战场同时炸了!

彻底失控!美俄同时动手,两大战场同时炸了!

大嘴说天下
2026-06-01 23:15:03
泽连斯基提前两天放话,俄军照样炸翻基辅,防空弹真快要打光了?

泽连斯基提前两天放话,俄军照样炸翻基辅,防空弹真快要打光了?

安珈使者啊
2026-06-02 22:52:26
医生发现:经常晚上刷牙的,患高血压、脑的风险要比其他人低?

医生发现:经常晚上刷牙的,患高血压、脑的风险要比其他人低?

任医生聊健康
2026-06-01 15:42:27
太荒唐!广东独生女回乡尽孝建房,手续齐全,却被全村阻拦六年

太荒唐!广东独生女回乡尽孝建房,手续齐全,却被全村阻拦六年

行者聊官
2026-06-02 17:43:30
情况大变!大陆“围岛”警告后,蒋万安支持率飙升,他反对统一?

情况大变!大陆“围岛”警告后,蒋万安支持率飙升,他反对统一?

带你领略快乐真谛
2026-06-01 20:18:27
实探|有人连夜飞港抢开户!内地投资者扎堆涌入香港券商银行,资金与投保监管全线收紧

实探|有人连夜飞港抢开户!内地投资者扎堆涌入香港券商银行,资金与投保监管全线收紧

每日经济新闻
2026-06-02 13:09:34
1.2万亿顺差创百年纪录,张燕生却警告:再赚下去,中国要有麻烦

1.2万亿顺差创百年纪录,张燕生却警告:再赚下去,中国要有麻烦

趣文说娱
2026-05-29 20:13:52
上海解放违纪风波,干部霸占将领家眷,陈毅查办才知女子身世特殊

上海解放违纪风波,干部霸占将领家眷,陈毅查办才知女子身世特殊

磊子讲史
2026-05-25 17:00:54
BOSS直聘公告:有人发“学生兼职”实为诱导大学生违规代抢茅台,已处置超6000个违规账号

BOSS直聘公告:有人发“学生兼职”实为诱导大学生违规代抢茅台,已处置超6000个违规账号

每日经济新闻
2026-06-02 23:11:04
全球股市,全线跳水!霍尔木兹海峡,最新消息!

全球股市,全线跳水!霍尔木兹海峡,最新消息!

中国经济网
2026-06-02 10:35:08
国际空间站再次泄漏!神舟飞船在发射场待命,如有需要能去救援吗

国际空间站再次泄漏!神舟飞船在发射场待命,如有需要能去救援吗

临云史策
2026-06-01 12:11:53
2026-06-03 05:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15369文章数 66896关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

亲子
家居
本地
数码
游戏

亲子要闻

幼小衔接指南——幼小直面交流 清晰剖析阶段差异

家居要闻

流线型轮廓 包容多元身形

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

HPB散热加持!三星HBM5预计2028年实现量产

离发售不远了!《寂静岭》系列新作已公开游戏评级

无障碍浏览 进入关怀版