网易首页 > 网易号 > 正文 申请入驻

深度解读Chiplet互连标准“UCIe”

0
分享至

今年三月份出现的UCIe, 即Universal Chiplet Interconnect Express,是一种由Intel、AMD、ARM、高通、三星、台积电、日月光、Google Cloud、Meta和微软等公司联合推出的Die-to-Die互连标准,其主要目的是统一Chiplet(芯粒)之间的互连接口标准,打造一个开放性的Chiplet生态系统。UCIe在解决Chiplet标准化方面具有划时代意义。

到目前为止,已经成功商用的Die-to-Die互连接口协议多达十几种,主要分为串行接口协议和并行接口协议。串行接口及协议有LR、MR、VSR、XSR、USR、PCIe、NVLink(NVIDIA),用于Cache一致性的CXL、CCIX、TileLink、OpenCAPI等;并行接口及协议有AIB/MDIO(Intel)、LIPINCON(TSMC)、Infinity Fabric(AMD)、OpenHBI(Xilinx)、BoW(OCP ODSA)、INNOLINK(Innosilicon)等。比较而言,串行接口一般延迟比较大,而并行接口可以做到更低延迟,但也会消耗更多的Die-to-Die互连管脚;而且因为要尽量保证多组管脚之间延迟的一致,所以每个管脚不易做到高速率。下面,让我们从以下几个层面来共同探讨、解读UCIe互连标准。

1

UCIe架构概览

UCIe主要包括协议层(Protocol Layer)、适配层(Adapter Layer)和物理层(Physical Layer)。

UCIe协议层支持已经广泛使用的协议PCIe6.0、CXL2.0、CXL3.0,还支持用户自定义的Streaming 协议来映射其他传输协议,协议层把数据转换成Flit包进行传输。用户通过用UCIe的适配层和PHY来替换PCIe/CXL的PHY和Link重传功能,就可以实现更低功耗和性能更优的Die-to-Die互连接口。

适配层在协议层和物理层中间,当协议层有多个协议同时工作时,ARB/MUX用来在多个协议之间进行选择和仲裁。协议层提供CRC和Retry机制来以获得更好的BER(Bit Error Rate)指标。同时负责Link状态的管理,与对端UCIe Link进行协议相关参数的交换。

物理层主要用来解析Flit包在UCIe Data Lane上进行传输,主要功能除了并串转换,还包括Link Training、Lane Repair、Lane Reversal、Scrambling/De‐scrambling、Sideband Training等。

图1 UCIe分层结构和功能

01

Package

UCIe支持两种封装,Standard Package (2D) 和Advanced Package (2.5D)。Standard Package主要用于低成本、长距离(10mm到25mm)互连,Bump间距要求为100um到130um,互连线在有机衬底上进行布局布线即可实现Die间数据传输。

图2 Standard Package封装示意图

图3 Standard Package特性指标

Advanced Package主要用于高性能、短距离(小于2mm)互连,以获得更大传输带宽和更低延迟。但其Bump间距要求为25um到55um,一般要通过Interposer或者Silicon Bridge进行互连,封装成本比较高,下图示例了三种不同的封装形式。

图4 使用Silicon Bridge的Advanced Package

图5 使用Interposer的Advanced Package

图6 使用Interposer和Silicon Bridge的Advanced Package

图7 Advanced Package特性指标

02

Interface

UCIe定义了协议层和适配层之间的传输接口FDI (Flit-aware D2D Interface),适配层和物理层之间的传输接口RDI(Raw D2D Interface)。UCIe 定义了一组Die-to-Die之间的物理接口,称为module。每个module包含Main Band用于数据传输,Side Band用于寄存器配置、初始化和Link Training,其频率固定跑在800MHz,Side Band相关逻辑电路需要处于“always on”电压域。

一个Standard Package module包含的信号线如下图所示,其中包括16个单端TX数据线(16 TX Lane)和16个单端RX数据线(16 RX Lane)。Side Band由两组不同方向的单端数据线和时钟线组成。

图8 Standard Package module

一个Advanced Package module包含的信号线如下图所示,其中包括64个单端TX数据线和64个单端RX数据线,每32个数据管脚提供2个额外的管脚用于Lane repair,而Standard Package module没有额外管脚用于Lane repair。Side Band由两组不同方向的单端数据线和时钟线组成。

图9 Advanced Package module

单个module在Standard Package中是一个x16的数据接口,在Advanced Package中是一个x64的数据接口。可以通过使用single module来实现带宽扩展,每个module可以独立运行于不同频率。

图10 Single module configuration for Standard Package

UCIe允许2个或者4个module的配置,如图11和图12所示,这时每个配置中的module不能独立运行。

图11 Two module configuration for Standard Package

图12 Four module configuration for Standard Package

03

Speed and Clock

如图13中的Die Edge Bandwidth Density是Die-to-Die接口的一个关键指标,其假设条件为45um(Advanced Package)和110um(Standard Package)的bump pitch。

图13 UCIe带宽指标

对Advanced Package ,UCIe支持较宽范围的bump pitch(25 ~55um),随着工艺进步,更小的bump pitch将会成为主流,这样可以降低接口工作频率,减小面积,降低功耗。如下图14。

图14 UCIe Advanced Package接口频率

下图为时钟架构图,时钟频率一般是数据速率的1/2(双沿采样),当数据速率为24GT/s或32GT/s时,时钟频率可以是数据速率的1/4。当数据速率变高时,发送端必须支持Per Lane de-skew,因为接收端的眼图会变得更小,任何数据Lane之间的skew都会导致链路性能的下降。

图15 随路时钟架构

图16 随路时钟频率和速率

04

latency

除了带宽,Latency是另外一个重要指标。UCIe Specification 1.0中提出了小于等于2ns的指标,这主要包括适配层和物理层的延迟,即从发送端的FDI接口到PHY Main Band接口,然后再从接收端的PHY Main Band接口到FDI接口的延迟(TX+RX)。其中没有包括接口信号在有机衬底或者Interposer上的布线延迟,也没有包括协议层处理延迟,如果采用PCIe或CXL,延迟一般较大,UCIe要想用在对延时比较敏感的互连场景,比如CPU Die和CPU Die之间的连接,还是比较困难的。

图17 UCIe功耗延迟指标

2

协议层

UCIe支持PCIe 6.0 Standard 256B Flit Mode、CXL 2.0 "CXL 68B-Enhanced Flit Mode"和CXL3.0 "CXL 256B Flit Mode” ,其子协议CXL.io, CXL.cache, CXL.mem是单独协商的,不支持CXL 1.1。在这些模式下,Retry机制在适配层实现。

PCIe6.0、CXL2.0和CXL3.0都支持一种模式叫RAW Mode,用户自定义的Streaming协议只支持RAW Mode,在这种模式下,所有64B或者256B数据都由协议层填充,适配层做透明传输,CRC、FEC和Retry都由协议层处理。

协议层支持的协议模式和Flit格式在SOC集成时或者Die bring up时确定。在协商过程中适配层通过FDI接口把这些信息作为Link Training的一部分传给协议层。

图18 64B RAW Mode数据格式

图19 PCIe 6.0 Standard 256B Flit Mode数据格式

3

适配层

UCIe可以配置2个协议栈运行在同一个物理链路(physical Link)上,通过多路选择器来选择不同的协议栈,条件是两个协议栈的带宽总和不能超过一个物理链路的带宽。适配层可以在协议Flit后插入空Flit,来解决物理链路和RDI接口之间的速率不匹配问题。

图20适配层复用两个CXL协议栈

在Main Band上传送Flit数据之前,首先要进行Link的初始化。如下图总共分为4个Stage,比如Stage 0 每个Die独立进行,下图蓝色方框大小不一样表示不同的Die用不同的时间来完成初始化。Stage 3涉及到适配层之间的参数交换,用来Die之间进行协议和Flit格式的协商。

图21 Link初始化步骤

当协议层发送64 Byte Flit数据,适配层一般会在有效数据Flit的前面加上2 Byte Flit Header,后面加上2 Byte CRC值,对于256B Flit一般需要额外增加2 Byte CRC,每128B Flit对应2 Byte CRC。

适配层最主要的一项功能是CRC、FEC、Retry,CRC最多可以检测3bit随机错误。

当Link速度超过8GT/s时,适配层必须支持Retry机制(除了RAW Mode)。如果在最初Link bring up过程中使能Retry机制,即使Link速率在运行过程中下降,也不能在运行过程中关闭Retry机制,只能在下次Link bring up时关闭。UCIe中的Retry机制是PCIe 6.0 Flit Mode下Retry机制的简化版。

4

物理层

物理层主要包括逻辑物理层、电气物理层和AFE(analog front-end)。限于篇幅,这里主要介绍Byte to Lane Map、Lane reversal、Lane repair和Equalization。

图22物理层构成

数据包是通过Byte形式传输的,下图显示了一个Byte是在4个时钟周期内如何映射到一个Data Lane上传输的。

图23 Byte to Lane Mapping

下图演示了一个CXL 256B Flit如何在一个x64的接口上进行映射传输,每个Byte占用一个Lane。

图24 Byte map for x64 interface

Lane reversal主要用于一个module内的物理接口信号,比如近端Die的Data Lane 0连接到远端Die的Data Lane (N-1) ,Data Lane 1连接到远端Die的Data Lane (N-2) 。Standard Package 中N为16,Advanced Package中N为64。

Lane repair只有Advanced Package支持,每个module支持4个冗余Bump用于Data Lane,一个冗余Bump用于Clock和Track Lane,一个冗余Bump用于Valid Lane。

每32个Data Lane都有对应的2个冗余Data Bump用来进行修复使用,TRD_P [1:0] 对应TD_P[31:0],TRD_P[3:2]对应TD_P[63:32],RRD_P[1:0]对应RD_P[31:0],RRD_P[3:2]对应RD_P[63:32]。当有些Data Lane有问题后,通过如下图左移或者右移的方式进行Lane重映射,把有问题的Bump移除掉。

图25 Data Lane repair

当数据速率达到16GT/s时,推荐使能发送端的Equalization,到24GT/s或32GT/s时,必须使能发送端的Equalization以缓解通道间的码间干扰(ISI)效益。接收端的Equalization是可选的,在发送端没有Equalization的时候,使能接收端Equalization可以保证链路运行正常。

下图是在不同数据速率下的原始BER,对于BER为1E-15的情况,必须使能CRC和Retry机制来确保FIT(Failure In Time)远小于1(1 FIT = 1 device failure in 109 Hours)。对于BER为1E-27的情况,可以使能parity或者CRC来确保FIT远小于1。

图26原始BER

5

总结

UCIe物理接口采用双沿采样,数据速率一般是时钟频率的两倍,可以认为是一种并行Die-to-Die接口标准;但是,协议层如果采用PCIe或者CXL,协议层的延迟估计要超过10ns或者更多,在对延迟敏感的场景中使用有局限性,离真正的“通用”还有一定距离。如果用户自定义协议层可以做到比PCIe或CXL更低延迟,相信UCIe应用的范围将会更加广阔。

说明:

1.本文是对UCIe Specification Revision 1.0核心内容的提炼,若读者想对其中细节做进一步了解,可以参考其官方文档。

2.图片来源:UCIe Specification Revision 1.0

END

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“微信通知显示头像”冲上热搜,客服回应:目前仅限iOS设备

“微信通知显示头像”冲上热搜,客服回应:目前仅限iOS设备

河南交通广播1041
2026-01-12 21:46:17
陈梦谈出演电视剧:本来想探班黄晓明,结果探成了客串

陈梦谈出演电视剧:本来想探班黄晓明,结果探成了客串

懂球帝
2026-01-12 20:25:15
运往中国的千万桶石油被美劫走,特朗普喊话:想要就加价从美国买

运往中国的千万桶石油被美劫走,特朗普喊话:想要就加价从美国买

虎哥闲聊
2026-01-13 13:30:12
贵金属大涨!黄金再创新高,白银猛拉3%,油价直线拉升

贵金属大涨!黄金再创新高,白银猛拉3%,油价直线拉升

21世纪经济报道
2026-01-12 08:56:03
小米二手车开始血崩,雷军坐不住了!

小米二手车开始血崩,雷军坐不住了!

鸣金网
2026-01-12 12:40:42
台退役上校呼吁:只要大陆答应2个条件,台湾随时可以和平统一!

台退役上校呼吁:只要大陆答应2个条件,台湾随时可以和平统一!

科普100克克
2026-01-09 10:38:43
软饭硬吃?17次上春晚全靠老婆,结婚28年身上没有一分积蓄

软饭硬吃?17次上春晚全靠老婆,结婚28年身上没有一分积蓄

不写散文诗
2026-01-11 19:41:19
机关事业单位退休人员,2026年职业年金领取,超过1200元的多吗?

机关事业单位退休人员,2026年职业年金领取,超过1200元的多吗?

阿纂看事
2026-01-13 09:20:40
蒋万安吁赖清德效法陈水扁,与在野党领袖会面化解对立

蒋万安吁赖清德效法陈水扁,与在野党领袖会面化解对立

海峡导报社
2026-01-12 12:16:03
中使馆:柬埔寨侦破两起绑架、非法拘禁中国公民案件,抓获8名中国籍犯罪嫌疑人

中使馆:柬埔寨侦破两起绑架、非法拘禁中国公民案件,抓获8名中国籍犯罪嫌疑人

界面新闻
2026-01-12 22:59:02
陈赫前妻许婧和匈牙利老公在沙特庆生,39 岁身材超棒,太吸睛。

陈赫前妻许婧和匈牙利老公在沙特庆生,39 岁身材超棒,太吸睛。

乡野小珥
2025-12-23 05:38:57
宋庆龄拒绝与孙中山合葬,坦言:她陪我53年,我答应要和她葬一起

宋庆龄拒绝与孙中山合葬,坦言:她陪我53年,我答应要和她葬一起

史之铭
2026-01-12 16:26:19
“2299元羽绒服充绒仅86克”背后:多个品牌商务羽绒服充绒量低于100克有的仅55克,商务款通常比普通款充绒量低

“2299元羽绒服充绒仅86克”背后:多个品牌商务羽绒服充绒量低于100克有的仅55克,商务款通常比普通款充绒量低

极目新闻
2026-01-12 11:45:51
再见,浓眉!奇迹不会降临了!

再见,浓眉!奇迹不会降临了!

体育新角度
2026-01-13 14:09:56
不被婚俗“捆绑”的Z世代:两万块的婚,我们结得很尽兴

不被婚俗“捆绑”的Z世代:两万块的婚,我们结得很尽兴

上观新闻
2026-01-12 07:54:09
他照顾了病妻46年,病妻离世后誓与妻子合葬,4年后娶了妻子闺蜜

他照顾了病妻46年,病妻离世后誓与妻子合葬,4年后娶了妻子闺蜜

林雁飞
2026-01-12 17:18:31
吃饭七分饱被推翻了?医生:过了75岁,吃饭尽量要做到这6点

吃饭七分饱被推翻了?医生:过了75岁,吃饭尽量要做到这6点

健康科普365
2026-01-12 12:05:08
年薪50万遭妻子嫌弃后续:丈夫身份曝光,工资全上交,挨骂是日常

年薪50万遭妻子嫌弃后续:丈夫身份曝光,工资全上交,挨骂是日常

单手搓核弹
2026-01-06 13:44:21
上海警方破获交友APP诈骗案:不断充值才能聊天,软件内竟设反诈提示

上海警方破获交友APP诈骗案:不断充值才能聊天,软件内竟设反诈提示

环球网资讯
2026-01-13 14:25:13
瑞典军工发布导弹视频:1枚导弹命中摧毁中国052d型驱逐舰!

瑞典军工发布导弹视频:1枚导弹命中摧毁中国052d型驱逐舰!

达文西看世界
2026-01-11 19:10:20
2026-01-13 15:12:49
芯榜 incentive-icons
芯榜
中国芯片排行榜
4019文章数 3222关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

媒体:巴基斯坦靠歼-10一鸣惊人后 北约成员国求保护

头条要闻

媒体:巴基斯坦靠歼-10一鸣惊人后 北约成员国求保护

体育要闻

CBA还能众筹换帅?

娱乐要闻

周杰伦以球员身份参加澳网,C位海报公开

财经要闻

中国一口气申报20万颗卫星,意味着什么?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

亲子
本地
艺术
旅游
公开课

亲子要闻

孩子不就是着凉了嘛,干嘛要查血?

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

艺术要闻

书法争议再起:拙与妍孰优孰劣引发热议

旅游要闻

粤港澳大湾区灯会2月10日南沙启幕,将推出吃喝玩乐购优惠

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版