网易首页 > 网易号 > 正文 申请入驻

深度解读Chiplet互连标准“UCIe”

0
分享至

今年三月份出现的UCIe, 即Universal Chiplet Interconnect Express,是一种由Intel、AMD、ARM、高通、三星、台积电、日月光、Google Cloud、Meta和微软等公司联合推出的Die-to-Die互连标准,其主要目的是统一Chiplet(芯粒)之间的互连接口标准,打造一个开放性的Chiplet生态系统。UCIe在解决Chiplet标准化方面具有划时代意义。

到目前为止,已经成功商用的Die-to-Die互连接口协议多达十几种,主要分为串行接口协议和并行接口协议。串行接口及协议有LR、MR、VSR、XSR、USR、PCIe、NVLink(NVIDIA),用于Cache一致性的CXL、CCIX、TileLink、OpenCAPI等;并行接口及协议有AIB/MDIO(Intel)、LIPINCON(TSMC)、Infinity Fabric(AMD)、OpenHBI(Xilinx)、BoW(OCP ODSA)、INNOLINK(Innosilicon)等。比较而言,串行接口一般延迟比较大,而并行接口可以做到更低延迟,但也会消耗更多的Die-to-Die互连管脚;而且因为要尽量保证多组管脚之间延迟的一致,所以每个管脚不易做到高速率。下面,让我们从以下几个层面来共同探讨、解读UCIe互连标准。

1

UCIe架构概览

UCIe主要包括协议层(Protocol Layer)、适配层(Adapter Layer)和物理层(Physical Layer)。

UCIe协议层支持已经广泛使用的协议PCIe6.0、CXL2.0、CXL3.0,还支持用户自定义的Streaming 协议来映射其他传输协议,协议层把数据转换成Flit包进行传输。用户通过用UCIe的适配层和PHY来替换PCIe/CXL的PHY和Link重传功能,就可以实现更低功耗和性能更优的Die-to-Die互连接口。

适配层在协议层和物理层中间,当协议层有多个协议同时工作时,ARB/MUX用来在多个协议之间进行选择和仲裁。协议层提供CRC和Retry机制来以获得更好的BER(Bit Error Rate)指标。同时负责Link状态的管理,与对端UCIe Link进行协议相关参数的交换。

物理层主要用来解析Flit包在UCIe Data Lane上进行传输,主要功能除了并串转换,还包括Link Training、Lane Repair、Lane Reversal、Scrambling/De‐scrambling、Sideband Training等。

图1 UCIe分层结构和功能

01

Package

UCIe支持两种封装,Standard Package (2D) 和Advanced Package (2.5D)。Standard Package主要用于低成本、长距离(10mm到25mm)互连,Bump间距要求为100um到130um,互连线在有机衬底上进行布局布线即可实现Die间数据传输。

图2 Standard Package封装示意图

图3 Standard Package特性指标

Advanced Package主要用于高性能、短距离(小于2mm)互连,以获得更大传输带宽和更低延迟。但其Bump间距要求为25um到55um,一般要通过Interposer或者Silicon Bridge进行互连,封装成本比较高,下图示例了三种不同的封装形式。

图4 使用Silicon Bridge的Advanced Package

图5 使用Interposer的Advanced Package

图6 使用Interposer和Silicon Bridge的Advanced Package

图7 Advanced Package特性指标

02

Interface

UCIe定义了协议层和适配层之间的传输接口FDI (Flit-aware D2D Interface),适配层和物理层之间的传输接口RDI(Raw D2D Interface)。UCIe 定义了一组Die-to-Die之间的物理接口,称为module。每个module包含Main Band用于数据传输,Side Band用于寄存器配置、初始化和Link Training,其频率固定跑在800MHz,Side Band相关逻辑电路需要处于“always on”电压域。

一个Standard Package module包含的信号线如下图所示,其中包括16个单端TX数据线(16 TX Lane)和16个单端RX数据线(16 RX Lane)。Side Band由两组不同方向的单端数据线和时钟线组成。

图8 Standard Package module

一个Advanced Package module包含的信号线如下图所示,其中包括64个单端TX数据线和64个单端RX数据线,每32个数据管脚提供2个额外的管脚用于Lane repair,而Standard Package module没有额外管脚用于Lane repair。Side Band由两组不同方向的单端数据线和时钟线组成。

图9 Advanced Package module

单个module在Standard Package中是一个x16的数据接口,在Advanced Package中是一个x64的数据接口。可以通过使用single module来实现带宽扩展,每个module可以独立运行于不同频率。

图10 Single module configuration for Standard Package

UCIe允许2个或者4个module的配置,如图11和图12所示,这时每个配置中的module不能独立运行。

图11 Two module configuration for Standard Package

图12 Four module configuration for Standard Package

03

Speed and Clock

如图13中的Die Edge Bandwidth Density是Die-to-Die接口的一个关键指标,其假设条件为45um(Advanced Package)和110um(Standard Package)的bump pitch。

图13 UCIe带宽指标

对Advanced Package ,UCIe支持较宽范围的bump pitch(25 ~55um),随着工艺进步,更小的bump pitch将会成为主流,这样可以降低接口工作频率,减小面积,降低功耗。如下图14。

图14 UCIe Advanced Package接口频率

下图为时钟架构图,时钟频率一般是数据速率的1/2(双沿采样),当数据速率为24GT/s或32GT/s时,时钟频率可以是数据速率的1/4。当数据速率变高时,发送端必须支持Per Lane de-skew,因为接收端的眼图会变得更小,任何数据Lane之间的skew都会导致链路性能的下降。

图15 随路时钟架构

图16 随路时钟频率和速率

04

latency

除了带宽,Latency是另外一个重要指标。UCIe Specification 1.0中提出了小于等于2ns的指标,这主要包括适配层和物理层的延迟,即从发送端的FDI接口到PHY Main Band接口,然后再从接收端的PHY Main Band接口到FDI接口的延迟(TX+RX)。其中没有包括接口信号在有机衬底或者Interposer上的布线延迟,也没有包括协议层处理延迟,如果采用PCIe或CXL,延迟一般较大,UCIe要想用在对延时比较敏感的互连场景,比如CPU Die和CPU Die之间的连接,还是比较困难的。

图17 UCIe功耗延迟指标

2

协议层

UCIe支持PCIe 6.0 Standard 256B Flit Mode、CXL 2.0 "CXL 68B-Enhanced Flit Mode"和CXL3.0 "CXL 256B Flit Mode” ,其子协议CXL.io, CXL.cache, CXL.mem是单独协商的,不支持CXL 1.1。在这些模式下,Retry机制在适配层实现。

PCIe6.0、CXL2.0和CXL3.0都支持一种模式叫RAW Mode,用户自定义的Streaming协议只支持RAW Mode,在这种模式下,所有64B或者256B数据都由协议层填充,适配层做透明传输,CRC、FEC和Retry都由协议层处理。

协议层支持的协议模式和Flit格式在SOC集成时或者Die bring up时确定。在协商过程中适配层通过FDI接口把这些信息作为Link Training的一部分传给协议层。

图18 64B RAW Mode数据格式

图19 PCIe 6.0 Standard 256B Flit Mode数据格式

3

适配层

UCIe可以配置2个协议栈运行在同一个物理链路(physical Link)上,通过多路选择器来选择不同的协议栈,条件是两个协议栈的带宽总和不能超过一个物理链路的带宽。适配层可以在协议Flit后插入空Flit,来解决物理链路和RDI接口之间的速率不匹配问题。

图20适配层复用两个CXL协议栈

在Main Band上传送Flit数据之前,首先要进行Link的初始化。如下图总共分为4个Stage,比如Stage 0 每个Die独立进行,下图蓝色方框大小不一样表示不同的Die用不同的时间来完成初始化。Stage 3涉及到适配层之间的参数交换,用来Die之间进行协议和Flit格式的协商。

图21 Link初始化步骤

当协议层发送64 Byte Flit数据,适配层一般会在有效数据Flit的前面加上2 Byte Flit Header,后面加上2 Byte CRC值,对于256B Flit一般需要额外增加2 Byte CRC,每128B Flit对应2 Byte CRC。

适配层最主要的一项功能是CRC、FEC、Retry,CRC最多可以检测3bit随机错误。

当Link速度超过8GT/s时,适配层必须支持Retry机制(除了RAW Mode)。如果在最初Link bring up过程中使能Retry机制,即使Link速率在运行过程中下降,也不能在运行过程中关闭Retry机制,只能在下次Link bring up时关闭。UCIe中的Retry机制是PCIe 6.0 Flit Mode下Retry机制的简化版。

4

物理层

物理层主要包括逻辑物理层、电气物理层和AFE(analog front-end)。限于篇幅,这里主要介绍Byte to Lane Map、Lane reversal、Lane repair和Equalization。

图22物理层构成

数据包是通过Byte形式传输的,下图显示了一个Byte是在4个时钟周期内如何映射到一个Data Lane上传输的。

图23 Byte to Lane Mapping

下图演示了一个CXL 256B Flit如何在一个x64的接口上进行映射传输,每个Byte占用一个Lane。

图24 Byte map for x64 interface

Lane reversal主要用于一个module内的物理接口信号,比如近端Die的Data Lane 0连接到远端Die的Data Lane (N-1) ,Data Lane 1连接到远端Die的Data Lane (N-2) 。Standard Package 中N为16,Advanced Package中N为64。

Lane repair只有Advanced Package支持,每个module支持4个冗余Bump用于Data Lane,一个冗余Bump用于Clock和Track Lane,一个冗余Bump用于Valid Lane。

每32个Data Lane都有对应的2个冗余Data Bump用来进行修复使用,TRD_P [1:0] 对应TD_P[31:0],TRD_P[3:2]对应TD_P[63:32],RRD_P[1:0]对应RD_P[31:0],RRD_P[3:2]对应RD_P[63:32]。当有些Data Lane有问题后,通过如下图左移或者右移的方式进行Lane重映射,把有问题的Bump移除掉。

图25 Data Lane repair

当数据速率达到16GT/s时,推荐使能发送端的Equalization,到24GT/s或32GT/s时,必须使能发送端的Equalization以缓解通道间的码间干扰(ISI)效益。接收端的Equalization是可选的,在发送端没有Equalization的时候,使能接收端Equalization可以保证链路运行正常。

下图是在不同数据速率下的原始BER,对于BER为1E-15的情况,必须使能CRC和Retry机制来确保FIT(Failure In Time)远小于1(1 FIT = 1 device failure in 109 Hours)。对于BER为1E-27的情况,可以使能parity或者CRC来确保FIT远小于1。

图26原始BER

5

总结

UCIe物理接口采用双沿采样,数据速率一般是时钟频率的两倍,可以认为是一种并行Die-to-Die接口标准;但是,协议层如果采用PCIe或者CXL,协议层的延迟估计要超过10ns或者更多,在对延迟敏感的场景中使用有局限性,离真正的“通用”还有一定距离。如果用户自定义协议层可以做到比PCIe或CXL更低延迟,相信UCIe应用的范围将会更加广阔。

说明:

1.本文是对UCIe Specification Revision 1.0核心内容的提炼,若读者想对其中细节做进一步了解,可以参考其官方文档。

2.图片来源:UCIe Specification Revision 1.0

END

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
纽约市的犹太人 ,有 33%的人在市长竞选中把票投给马姆达尼

纽约市的犹太人 ,有 33%的人在市长竞选中把票投给马姆达尼

老王说正义
2025-11-07 00:03:31
独行侠自由落体湖人被77带飞 尼科的耻辱愈演愈烈

独行侠自由落体湖人被77带飞 尼科的耻辱愈演愈烈

体坛周报
2025-11-06 15:08:13
张角败亡,数十吨黄金埋在江苏铁山寺,几百年后一个牧童发现宝藏

张角败亡,数十吨黄金埋在江苏铁山寺,几百年后一个牧童发现宝藏

白云故事
2025-11-05 12:15:03
雷军回应造车争议翻车,网友怒喷:标准雷不群说法

雷军回应造车争议翻车,网友怒喷:标准雷不群说法

公子麦少
2025-11-06 14:19:48
顶级名模海边戏水,有没有让你冲动

顶级名模海边戏水,有没有让你冲动

妮妮玩不够
2025-11-07 09:27:07
张凌赫 回应曾经理想是进入国家电网 江苏电力回应张凌赫 :愿共探前路 期谱佳话

张凌赫 回应曾经理想是进入国家电网 江苏电力回应张凌赫 :愿共探前路 期谱佳话

每日经济新闻
2025-11-06 12:21:44
肖捷在广西调研

肖捷在广西调研

政知新媒体
2025-11-07 09:29:07
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
西海岸官方确认!为国养士,郑智是热门人选,3人随邵佳一离队

西海岸官方确认!为国养士,郑智是热门人选,3人随邵佳一离队

小金体坛大视野
2025-11-07 11:32:31
27国联手对华展开“混合战”,荷兰率先对华核心零件断供,中方反击出招!

27国联手对华展开“混合战”,荷兰率先对华核心零件断供,中方反击出招!

娱乐圈的笔娱君
2025-11-07 10:42:33
女博士出轨副院长导师,男友反击被怼:“我真的无法无法拒绝他”

女博士出轨副院长导师,男友反击被怼:“我真的无法无法拒绝他”

苏大强专栏
2025-02-28 16:39:18
印媒指出福建舰严重设计缺陷! 这回没瞎说: 福建舰确实存在这问题

印媒指出福建舰严重设计缺陷! 这回没瞎说: 福建舰确实存在这问题

福建平子
2025-11-03 10:21:52
张勋的最后六年:远离政坛,生活阔绰,死后溥仪还赐谥号“忠武”

张勋的最后六年:远离政坛,生活阔绰,死后溥仪还赐谥号“忠武”

普览
2025-11-01 21:23:29
大米公司为什么被全网群嘲?这两点就够了!

大米公司为什么被全网群嘲?这两点就够了!

宏哥谈商道
2025-11-06 19:00:03
人社部召开发布会,2026年养老金调整有望!还会向低收入倾斜吗?

人社部召开发布会,2026年养老金调整有望!还会向低收入倾斜吗?

好贤观史记
2025-11-07 08:53:31
6胜2负东部第二!坐拥4个前五顺位,成翻版雷霆,五少平均才22岁

6胜2负东部第二!坐拥4个前五顺位,成翻版雷霆,五少平均才22岁

你的篮球频道
2025-11-07 11:03:31
最新斯诺克排名:赵心童跃升6位,吴宜泽飙升9位反超希金斯

最新斯诺克排名:赵心童跃升6位,吴宜泽飙升9位反超希金斯

求球不落谛
2025-11-06 14:16:54
固态电池爆发:国家队悄悄重仓的10家真干活企业

固态电池爆发:国家队悄悄重仓的10家真干活企业

时尚的弄潮
2025-11-07 01:28:59
国运来了挡不住!30亿吨铁矿重见天日,美媒:中国将改写全球格局

国运来了挡不住!30亿吨铁矿重见天日,美媒:中国将改写全球格局

来科点谱
2025-11-06 13:44:10
女孩每天去超市货架偷面包,老板装没看见,10年后老板收到快递哭了

女孩每天去超市货架偷面包,老板装没看见,10年后老板收到快递哭了

悬案解密档案
2025-11-03 10:58:58
2025-11-07 12:20:49
芯榜 incentive-icons
芯榜
中国芯片排行榜
3660文章数 3215关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

美国试射洲际弹道导弹后 俄方几乎整个领导层齐聚克宫

头条要闻

美国试射洲际弹道导弹后 俄方几乎整个领导层齐聚克宫

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

白百何回应东京电影节争议

财经要闻

老登们的社交货币全崩了

汽车要闻

小鹏X9增程版综合续航1606公里 有底气挑战赛那?

态度原创

亲子
家居
艺术
房产
公开课

亲子要闻

在低年级使用绘本来支持意义建构

家居要闻

现代自由 功能美学居所

艺术要闻

砸30亿!酷狗给音乐盖了座“声波大楼”,正在穿玻璃外衣!

房产要闻

锚定居住新趋势!广佛新世界重构湾区“理想生活投资学”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版