网易首页 > 网易号 > 正文 申请入驻

一家芯片新贵,组团对抗英伟达

0
分享至

公众号记得加星标⭐️,第一时间看推送不会错过。

全球人工智能推理芯片初创公司数量惊人——真的非常惊人,足足有几十家。但只有一家公司获得了三大HBM堆叠内存制造商中的两家的投资,并得到了其所在国两家最大电信公司的支持。考虑到能够获得HBM配额的公司可以打造数据中心人工智能加速器,尽管韩国初创公司Rebellions AI进入这个领域的时间相对较晚,但或许它的时机恰到好处。

鉴于三星和 SK 海力士不仅为 Rebellions 提供 HBM 内存,而且三星还是该公司的代工厂,这些都是 Rebellions 应该能够利用的优势,因为它不仅想在韩国销售其 AI 加速器,还想向全世界销售,而全世界都对矩阵数学非常着迷。

亲眼目睹第一批人工智能初创公司——Groq、Cerebras Systems、SambaNova Systems、Graphcore、Nervana Systems 和 Habana Labs——都遇到了自身架构和资金的限制,或者像 Nervana 和 Habana 那样,消失在曾经的巨头英特尔的巨口中,从此销声匿迹,这并没有什么坏处。

“我经常说——第一只老鼠落入陷阱,第二只老鼠才能吃到奶酪,” Rebellions 的首席商务官Marshall Choy告诉The Next Platform。

Choy曾在Sun Microsystems工作十二年,负责技术产品和解决方案工程。2010年Sun被Oracle收购后,他又在Oracle担任工程系统方面的职务超过八年,因此他对互联网泡沫以及互联网技术回归常态的过程非常了解。Choy也是SambaNova的创始团队成员之一,最初担任产品副总裁,之后担任首席客户官,一个月前离开SambaNova加入Rebellions。

“说实话,第一代人工智能加速器缺乏灵活性和适应性,所以从未在市场上取得巨大成功,”Choy继续说道。“作为第二代加速器,我们是后起之秀,我们一直很有耐心。生态系统已经发展成熟,我们正在战略性地选择进入各个市场的时机,这降低了整体风险。”

Rebellions 于 2020 年 9 月成立,最初的目标是为高频交易公司打造 AI 推理加速芯片。当时,Rebellions 的计划并非与英伟达、AMD 以及众多来自超大规模数据中心、云平台和模型构建商的自研 AI 加速器展开竞争。但话说回来,英伟达最初也是以制造 3D 图形芯片起家,之后才转向更广泛的 AI 市场,并在该领域深耕十余年。计划赶不上变化,有时甚至会远超预期。

晨曦之地

(The Land Of The Morning Calm)

Rebellions 的总部位于首尔,首尔是韩国的首都和最大城市。韩国是工业和金融强国,也是世界第十四大经济体,预计 2025 年国内生产总值将达到 1.86 万亿美元。(美国排名第一,预计为 30.6 万亿美元,其次是中国,为 19.4 万亿美元;欧盟的国内生产总值约为 21.1 万亿美元,但显然它由许多国家组成。)

该公司由四位联合创始人组成,其中朴成铉担任首席执行官。朴成铉在韩国科学技术院获得学士学位,之后在麻省理工学院获得电气工程和计算机科学双硕士学位(辅修金融)。毕业后,朴成铉曾在英特尔担任高级研究科学家两年,并在创立Rebellions之前,先后在三星移动担任工程师,在SpaceX的星链部门担任ASIC设计师,以及在摩根士丹利担任超低延迟股票交易系统设计师。


吴镇旭是公司的联合创始人兼首席技术官。他本科毕业于首尔国立大学电气工程专业,并在韩国科学技术院(KAIST)获得高级学位。KAIST与韩国科学技术信息研究院(KISTI)在高性能计算(HPC)和人工智能(AI)研究领域有着紧密的合作关系。吴镇旭曾在KAIST担任研究员多年,与微软和德州仪器合作,之后加入IBM研究院,主要研究方向为近似计算、粗粒度可重构阵列和神经网络加速器。Rebellions的联合创始人兼首席产品官金孝恩也毕业于KAIST,获得电气工程学位。他曾在Maxwave和三星电子担任工程师,之后加入医疗设备制造商Lunit担任首席产品官,并在公司创立之初加入Rebellions。最后一位联合创始人申成浩也毕业于首尔国立大学,是一位人工智能和算法研究员。

Rebellions在2020年和2022年分别完成了A轮融资,共筹集了6100万美元。2024年,该公司完成了由KT Corp(原韩国电信)领投的B轮融资,沙特阿美的风险投资部门也参与了投资。C轮融资则由Arm Holdings(颇为巧合)领投,三星风投、和硕联合创投、韩国开发银行、Korelya Capital、Kindred Ventures和Top Tier Capital也参与了投资。2024年12月,韩国电信旗下的人工智能初创公司Sapeon Korea与Rebellions合并,SK Telecom也因此成为Rebellions的投资者。Sapeon Korea此前曾获得DRAM和HBM内存制造商SK海力士的投资。合并后,Rebellions成为韩国首家人工智能芯片独角兽企业,估值超过10亿美元。其估值可能达到15亿美元或更高。

事情是这样的:SK Telecom 和 SK Hynix 都隶属于 SK 集团,SK 集团是韩国第二大财阀。三星集团是韩国最大的财阀。这两家公司都投资了 Rebellions,并为其供应 HBM 内存;三星是 Rebellions 的代工厂合作伙伴。

Rebellions公司最初采用台积电7纳米工艺制造用于高频交易加速的Ion芯片,之后在后续的Atom AI推理加速器中转向5纳米工艺。目前我们关注的Rebel系列芯片(因为它们与英伟达和AMD的数据中心级GPU加速器竞争)采用的是三星4纳米工艺——事实上,Rebellions公司正在推动三星的4纳米工艺升级,因为IBM在其Power11处理器中没有选择4纳米工艺,而是坚持使用三星改进的7纳米工艺。

近几个月来,Rebellions 与 Arm 达成合作,成为其 Arm Total Design 生态系统的一部分。这将使基于 Neoverse 设计制造 Arm CPU 的公司能够集成 Rebellions 的 Atom 或 Rebel AI 加速器,并利用三星即将推出的 2 纳米工艺创建混合平台。此外,Rebellions 还与 Marvell 合作,利用其信令 SerDes、芯片间互连和先进封装技术,为客户(特别是亚洲、非洲或中东等地区的自主人工智能中心和区域性新云平台)打造定制化的 AI 加速器。这些客户可能需要购买不受美国出口管制限制的 AI 加速器。

而这最终将我们带到了第三代 Rebel AI 推理芯片。

他们发出叛逆的呐喊,

高呼“Coarse Grained Cores”

在混合专家时代初期,Nvidia GPU、Google TPU 和 AWS Trainium 几乎垄断了 AI 训练,而推理又是人们试图赚钱的领域,因此 Rebellions 将其 Rebel 和未来的芯片重点放在推理上也就不足为奇了。

Rebel芯片的架构借鉴了其前身Atom芯片,具体来说,它采用了Oh在微软公司开发的粗粒度可配置阵列(CGRA:coarse grained configurable array)处理单元设计方法,并将其与软件定义片上网络相结合。就像这样:


采用这种方法,Rebellions 称之为“神经核心”的 Rebel 芯片上任意两个处理单元之间的路由都是可编程的,这种网状互连可以扩展到多个芯片组,从而构建规模越来越大的计算和存储复合体。芯片内部以及芯片组之间的路由和调度可以根据推理任务运行时的流量模式进行自我调整。

但CGRA架构最实用的部分或许在于,神经核心上的缓存、加载存储单元、张量单元和向量单元都配备了输入缓冲区(IBUF),这些缓冲区拥有自定义指令集,使其可编程。这意味着,在LLM推理的预填充阶段,可以将神经核心阵列编程为类似大型脉动阵列的计算密集型操作,将提示信息分解为键值对;然后在解码阶段,可以将其重新编程为更注重内存带宽的机器,以生成查询的词元响应。如上图所示,还存在一些中间阶段。

简而言之,CGRA 方法利用了 FPGA 的一些可编程性要素,而无需付出 FPGA 完全编程灵活性所带来的效率损失。

与其他人工智能计算引擎一样,Rebel芯片的神经网络核心也混合使用了多种计算引擎:


目前,Rebel 神经网络核心上每个计算单元的具体细节仍处于保密状态,但我们知道每个核心都配备 4 MB 的 L1 SRAM 内存,该内存连接到一个加载/存储单元,该单元又连接到一个张量单元和一个向量单元。这些数学单元支持 FP16、FP8、FP4、NF4 和 MXFP4 精度,这足以满足当今的推理需求。Rebel Single 的神经网络核心在 FP16 精度下拥有 16 万亿次浮点运算/秒 (teraflops) 的性能,在 FP8 精度下拥有 32 万亿次浮点运算/秒 (teraflops) 的性能;我们目前尚不清楚神经网络核心每个时钟周期可以执行多少次运算,因此无法确定其时钟频率。但我们预计其时钟频率约为 2 GHz。

为了扩展 Rebel 芯片,八个神经网络核心通过 SRAM 块以网状互连的方式连接在一起,这是 CPU、GPU 和 XPU 架构中的常见特性。两个这样的芯片被放置在一个名为 Rebel Single 的单个芯片组上:


Rebel Single 主板配备一个 PCI-Express 5.0 x16 接口、三个 UCI-Express-A 芯片互连接口以及一个 HBM3E 内存控制器。目前,Rebel Single 使用的是三星的 HBM3E 堆叠式内存,但它完全可以支持 SK 海力士的 HBM 内存,而且完全有理由相信它最终会支持。

HBM3E端口的读写速度为1.2 TB/秒,PCI-Express端口的读写速度为128 GB/秒,三个UCI-Express端口的读写速度均为1 TB/秒。Rebel Single拥有64个神经网络核心,以及总共64 MB的L1缓存(由这些核心共享)。网状互连网络为缓存分配了16 TB/秒的带宽,另有16 TB/秒的带宽分配给神经网络核心。

在 Rebel Single 芯片的左上角,您会看到一个独立的电路模块,其中包含 TDMA、CP 和 Sync Man。这些是设计中的重要元素,可以加速 AI 推理工作流程的部分环节:


我们期待能更深入地研究这些内容,但就目前而言,Rebellions 对这些特殊逻辑模块的描述仅限于此。

命令处理器(CP)包含两个四核 Arm Neoverse CPU 模块,配备 4 MB 二级缓存。它的作用是协助其上下两端的同步管理器和任务 DMA 控制器,协调和同步 Rebel 芯片组之间的数据传输,确保计算单元在需要时能够获取所需数据。从概念上讲,我们认为它有点像插槽内 HBM 内存的 NUMA 控制器。

这些神经核心集群相互连接,构成单个插槽中的计算引擎。我们推测,从长远来看,多个插槽将通过基于 UALink 或 ESUN 的可扩展网络互连,甚至可能根据客户需求采用授权的 NVLink Fusion 互连技术。(Rebellions 目前对此保持沉默。)

为了构建更大的计算复合体,可以将四个 Rebel Single 像这样连接起来:


这张示意图展示了一个由四个 Rebel Single 组成的阵列,显然它被称为 Rebel Quad。但正如你所看到的,你可以不断地在顶部和底部堆叠成对的 Rebel Single,从而扩展出一个非常大的互连计算和内存平面。如果你愿意,你可以制作一个非常长的滑橇,其逻辑上相当于一个晶圆级设计,上面悬挂着大量的 HBM 内存,就像圣诞节时卖的那种巨型士力架一样。

但除非有人要求,否则Rebellions不会真的这么做。不过,CPU和XPU复合体之间显然有很多连接方式,Oh和Choy也向我们展示了一些可能性:


目前,重点是 Rebel Quad,这是一个我们已经实际拿在手里的Socket,但他们不让我们把它当作镇纸添加到我们的收藏中:


该芯片复合体采用三星的 ICube-S 中介层和封装技术,与台积电的 CoWoS-S 中介层和封装技术大致类似。该封装包含四组 12 层高的 HBM3E 内存堆叠,总带宽为 4.8 TB/s,两条 PCI-Express 5.0 x16 通道的总带宽为 256 GB/s,可用于芯片的双向数据传输。(可惜的是,这四颗芯片复合体中有两个 PCI-Express 控制器位于中间,无法正常工作。)

以下是UCI-Express-A芯片间互连的详细信息:


Rebellions 已从 Alphawave Semi 获得其 UCI-Express-A 控制器的授权,Alphawave Semi是一家芯片初创公司,刚刚被高通以 24 亿美元收购。

综上所述,Rebel Quad 在 FP16 精度下可提供 1 petaflops 的运算速度,在 FP8 精度下可提供 2 petaflops 的运算速度。目前尚不清楚在各种 FP4 精度下吞吐量是否会翻倍,或者仅仅是因为运算单元后半部分存在大量零值。

Rebel Quad 插槽的功耗为 600 瓦,与 Nvidia 和 AMD 的 GPU 以及性能大致相同的、命运多舛的 Intel Gaudi 3 AI 加速器相比,功耗相当低:


我们注意到,Rebel Quad 没有 OAM 插槽,只有 PCI-Express 卡规格,这一点很有意思。不过,如果客户需要,想必是可以实现的。(这对于液冷服务器配置尤其重要,因为在液冷服务器配置中,为了提高密度,需要将芯片放置在系统主板上,并在多个计算引擎之间铺设铜管。)

就原始性能而言,Rebel Quad 与英伟达的 H200 完全不相上下——FP16 和 FP8 性能提升了 3.4%——但每瓦性能却高出 20.7%。英伟达的 B200 GPU 性能是 Rebel Quad 的 2.2 倍,但为此需要高出 1.7 倍的带宽和功耗,性价比相当不错。AMD MI325X 的每瓦性能与 Rebel Quad 大致相同,浮点运算吞吐量高出 28%,但为此需要高出 25% 的内存带宽和功耗。

由于架构差异,实际性能可能会有很大不同,我们期待看到基准测试结果显示这些 GPU 和 Rebel 芯片能够进行真正的推理。

我们目前尚不清楚具体价格,但可以合理推测 Rebellions 公司在定价方面有一定的回旋余地,并且会根据市场价值进行定价,而不是竞相压低价格。目前张量数学和 HBM 的需求远大于供应,只有傻瓜才会发动价格战。

Rebel Single 于 2024 年 11 月完成录制,Rebel Quad 目前正在向部分客户提供样品,以验证概念设计。

在彻底攻克了所有硬件之后,Rebellions 现在需要在其上部署软件。当然,它将使用基于 PyTorch 原生实现的开源技术栈,该技术栈采用 Triton 推理引擎和 vLLM 开源库来管理推理所需的键值缓存。Rebellions 还开发了自己的集体通信库 RBLN CCL,它类似于 Nvidia 的 NCCL 库;两者都源自开源的消息传递接口 (MPI) 库,MPI 库在几十年前彻底改变了高性能计算 (HPC) 领域,至今仍是人工智能 (AI) 的基础。


Rebellions 还有一个名为 Raise 的推理服务层,类似于 Nvidia 的 Dynamo 推理堆栈,并且已经接入了 Ray 分布式推理框架,该框架运行在 Red Hat 的 OpenShift Kubernetes 容器平台及其容器版本的 Red Hat Enterprise Linux 之上,而 Red Hat Enterprise Linux 是多年前The Next Platform成立之初收购的 CoreOS 的一部分。

https://www.nextplatform.com/2025/12/23/rebellions-ai-puts-together-an-hbm-and-arm-alliance-to-take-on-nvidia/

(来源:编译自nextplatform)

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4266期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一城双超!深圳有望再添中超球队,签国安主帅,引梅州玉昆3外援

一城双超!深圳有望再添中超球队,签国安主帅,引梅州玉昆3外援

体坛鉴春秋
2025-12-24 12:09:45
入狱2年刑满释放!秦升:我不会8国语言 啥也不会 和老外各骂各的

入狱2年刑满释放!秦升:我不会8国语言 啥也不会 和老外各骂各的

念洲
2025-12-24 10:58:46
13年前,被父亲逼迫零下13度裸跑的4岁小男孩,如今过得怎么样?

13年前,被父亲逼迫零下13度裸跑的4岁小男孩,如今过得怎么样?

趣文说娱
2025-11-21 16:06:59
疯狂!范曾题字“湖平如镜”:照出徐家“产学研一体化”文物掠夺

疯狂!范曾题字“湖平如镜”:照出徐家“产学研一体化”文物掠夺

大江看潮
2025-12-23 09:45:16
妈妈偷偷给外公存了47万养老钱,春节返乡发现老家盖了别墅

妈妈偷偷给外公存了47万养老钱,春节返乡发现老家盖了别墅

小秋情感说
2025-12-24 14:29:53
重磅,胡明轩伤情出炉,新疆队更换外援,高诗岩疯狂删除球迷评论

重磅,胡明轩伤情出炉,新疆队更换外援,高诗岩疯狂删除球迷评论

体坛小快灵
2025-12-24 15:28:03
这会要了美国命!IMF要求人民币升值:美国第一个反对,中国说再等等

这会要了美国命!IMF要求人民币升值:美国第一个反对,中国说再等等

通鉴史智
2025-12-24 07:18:24
陈豪一家搬入半山豪宅,月租16万与蔡卓妍为邻,一人负担全家开销

陈豪一家搬入半山豪宅,月租16万与蔡卓妍为邻,一人负担全家开销

动物奇奇怪怪
2025-12-24 10:06:16
中方拒不接受!美方索赔1700亿,美法院:考虑没收中方在美资产

中方拒不接受!美方索赔1700亿,美法院:考虑没收中方在美资产

知法而形
2025-12-23 21:29:02
欧盟不断给乌克兰贷款的真相,被匈牙利当场揭发,真相震惊世界!

欧盟不断给乌克兰贷款的真相,被匈牙利当场揭发,真相震惊世界!

青青子衿
2025-12-23 23:41:14
失业的人越来越多了

失业的人越来越多了

曹多鱼的财经世界
2025-12-24 14:56:20
憋尿看完阿凡达3,我连连感慨:留给好莱坞的时间,真的不多了

憋尿看完阿凡达3,我连连感慨:留给好莱坞的时间,真的不多了

糊咖娱乐
2025-12-22 17:14:59
故事:山东一男子救下5只黄鼠狼后,身上频发怪事,至今都难以解释

故事:山东一男子救下5只黄鼠狼后,身上频发怪事,至今都难以解释

清茶浅谈
2024-12-04 14:29:09
三千年完好 一朝受损——南京博物院一级文物西周玉鹿受损记

三千年完好 一朝受损——南京博物院一级文物西周玉鹿受损记

老鹰哥
2025-12-22 11:51:40
王毅一锤定音,泰国开出停火条件,洪森倒向美国,最大输家已定

王毅一锤定音,泰国开出停火条件,洪森倒向美国,最大输家已定

策前论
2025-12-19 20:01:58
俄被曝或正研发新式反卫星武器,目标SpaceX“星链”

俄被曝或正研发新式反卫星武器,目标SpaceX“星链”

凤凰卫视
2025-12-24 10:59:07
杨澜母女合照首曝光!让人惊掉下巴,这女儿浪费了老妈的颜值基因

杨澜母女合照首曝光!让人惊掉下巴,这女儿浪费了老妈的颜值基因

娱圈小愚
2025-12-23 10:29:58
剧终!南京博物院 剧本只能写到省委调查组进驻西康宾馆

剧终!南京博物院 剧本只能写到省委调查组进驻西康宾馆

八斗小先生
2025-12-24 09:47:17
婚变传闻后,罗晋携任素汐与母亲去祈福,撕碎了唐嫣最后一丝体面

婚变传闻后,罗晋携任素汐与母亲去祈福,撕碎了唐嫣最后一丝体面

姩姩有娱
2025-12-22 18:32:13
国足新集训名单浮现!邵佳一清洗30岁老将 40名中国球员效力欧洲

国足新集训名单浮现!邵佳一清洗30岁老将 40名中国球员效力欧洲

侃球熊弟
2025-12-24 00:05:03
2025-12-24 18:08:49
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12534文章数 34730关注度
往期回顾 全部

科技要闻

智谱和MiniMax拿出了“血淋淋”的账本

头条要闻

韩国财阀千金在柬埔寨被捕 被指涉嫌参与性交易和贩毒

头条要闻

韩国财阀千金在柬埔寨被捕 被指涉嫌参与性交易和贩毒

体育要闻

26岁广西球王,在质疑声中成为本土得分王

娱乐要闻

曝阚清子女儿早产但没保住

财经要闻

重磅!北京市优化调整住房限购政策

汽车要闻

“运动版库里南”一月份亮相   或命名极氪9S

态度原创

家居
亲子
艺术
公开课
军事航空

家居要闻

法式大平层 智能家居添彩

亲子要闻

纸巾+彩笔+筷子就能做的毛毛虫,低成本哄娃小游戏轻松get

艺术要闻

2026第一福!孙晓云亲笔“福”字出炉

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

"九三"受阅女民兵:96米需踢出128个正步 每步75厘米

无障碍浏览 进入关怀版