网易首页 > 网易号 > 正文 申请入驻

华为清华联手,研发28nm存内计算芯片

0
分享至



论文入选ISSCC 2026。

编译 | 程茜

编辑 | Panken

芯东西2月26日消息,2月15日-19日,在被业界誉为“芯片设计国际奥林匹克会议”的国际固态电路大会(ISSCC 2026)上,清华大学、华为等大学与公司的研究人员发表论文,首次提出一款基于HYDAR框架的28nm混合存内计算(CiR)芯片的推荐系统(RecSys)加速器。



这款36M RRAM CiR芯片能实现390K QPS的吞吐率与1574K QPS/W能效比。其构建的多芯片系统可实现百万级实时端到端推荐系统(RecSys)。



▲芯片显微照片与系统概述

在实际推荐系统任务中,CiR通过扩展至576M规模的多芯片系统,QPS提升了66倍,QPS/W提升181倍,准确率与CPU相当



▲芯片性能与当前顶尖设计的对比

该芯片的核心优势包括:采用DL-ADC实现非Top-K计算的早期终止;基于预测的预取调度流水线(PPSP)数据流提升不规则工作负载的吞吐量;由粗到细的检索架构(coarse-to-fine)在保证系统召回精度的同时,可扩展至大规模应用。

推荐系统中的核心运算单元是相似向量检索(SVS),该方式通过计算查询向量与大规模向量库之间的距离,检索出Top‑K最邻近向量。

SVS会占据推荐系统绝大部分的计算时间与功耗,主要原因是外部存储器访问(EMA)开销。其中,采用混合键合技术的DRAM加速器成本高昂,基于NAND TCAM的加速器存在读取延迟高、数据与距离表示精度有限等问题。

针对上述痛点,研究人员提出一种基于RRAM的数模混合存内计算加速器HYDAR,可实现高吞吐量、高能效、高精度的SVS。

基于RRAM的存内计算(Compute-in-RRAM,CiR)因能最大限度减少数据移动、存储密度高、并行度极大,已被公认为深度学习加速的极具前景的技术路线。但将CiR应用于SVS仍会带来额外挑战,如能耗与延迟急剧增加、降低PE利用率与吞吐量、精度降低等。



▲面向高效推荐系统的、基于CiR的SVS加速器的研究动机与设计挑战

HYDAR通过CiR PE(存内计算处理单元)、混合芯片设计与多芯片系统架构协同优化,解决了上述挑战:

首先是带动态延迟ADC(DL‑ADC)的CiR PE,其通过多位模拟CiR PE集成DL‑ADC,用于基于直方图的相似向量检索,可提前将距离与检索阈值比较,并跳过非Top‑K向量,从而降低延迟与功耗。

其次是基于预测的抢占式调度流水线(PPSP),通过这种混合芯片机制,预测每个PE的运行时间、中断不平衡任务、插入短任务来平衡负载,以适应动态SVS工作流,提升利用率与吞吐量。

最后是两步由粗到精的检索架构,其软硬件协同设计框架,先在CiR PE上进行粗粒度检索以保证高吞吐量,再在数字SVS引擎上进行精粒度检索,在保证召回精度的同时最大化吞吐量。

在此基础上,基于HYDAR框架,研究人员采用28nm工艺流片实现了一款CiR原型芯片,包含36M RRAM单元,分为16个并行PE,每个PE包含一个288×4096阵列



▲HYDAR整体架构与核心特性及基于CiR的端到端检索系统

具体来看基于模拟存内计算单元(CiR PE)的直方图相似向量检索(SVS)实现,以及支持计算提前终止的DL‑ADC设计。

其通过查询向量与基础向量之间的距离分布直方图来确定Top‑K检索的截断阈值(CK)。在欧氏距离框架下,距离超过CK的基础向量由双模DL‑ADC过滤,该ADC可动态监测比较结果,实现非Top‑K向量的计算提前终止。

欧氏距离计算可在288×4096的CiR阵列上完成,其中每个2T2R单元表示一个4位维度,每一列代表一个256维基础向量及32维偏置。

本设计中,CiR PE在计算过程中将直方图存入本地直方图存储器,随后同步至跨PE直方图单元(CHU),合并分布式结果以生成CK。该论文设计了三条定制指令来执行该流程。

在DL‑ADC方面,基于逐次逼近寄存器(SAR)的结构支持提前终止模式(ET),将预生成的CK作为输入,与每个周期生成的SAR码一同送入按位比较器。

在迭代调整IDAC以逼近ADC输入电流的过程中,任何一位不匹配都表明计算结果与CK存在差异,触发提前终止,停止计算并输出2位向量掩码(vMask)。

最后,通过将DL‑ADC设置为ET模式,距离计算与过滤可同时执行。



▲基于动态延迟ADC(DL‑ADC)的直方图式SVS的CiR实现

该ET机制在数据库规模扩大时效果显著,平均减少60%的计算时间和71%的功耗,宏单元面积开销增加7%。

其次是面向SVS负载提出的基于预测的抢占式调度流水线(PPSP)。

查询在不同PE间并行计算,而每个PE参与计算的基础向量数量通常不同,这会造成计算周期差异与PE间同步开销,进而引发调度停顿与流水线气泡。

PPSP采用连续抢占式调度与动态任务调度器(DTS)解决了这一问题。

DTS会对各PE上查询执行的完成时间戳进行监测与预测。该论文提出的抢占式调度机制允许新任务抢占那些即将完成的正在运行任务,这可以消除流水线气泡、让任务更早完成、PE更快释放,以服务后续查询。

在接收到指令时,任务会占用一个DTS槽位,并将其PE/段掩码存入任务表,然后作为子任务路由到目标PE的两个待处理缓冲区之一。

DTS同时监控每个任务的预测关键结束时间(PCET),其定义为所有子任务PET的最大值。其中的仲裁器检查PE与正在运行任务的重叠情况,如果新任务的PET可以降低且不影响正在运行任务的PCET,则切换待处理缓冲区以抢占式调度新任务,从而提升吞吐量、降低延迟。

此外,在查询调度期间,DTS会在后端内存分配器中为每个查询预分配地址空间,使得PE可以直接将结果写入输出缓冲区,无需PE间同步,从而实现PE快速释放以处理新查询。



▲面向动态SVS负载的、所提出的基于预测的抢占式调度流水线(PPSP)

通过以上优化,PPSP将PE利用率提升至91%,平均查询延迟降低30%,QPS吞吐量提升1.82倍。

最后是面向SVS、基于CiR的两步检索架构。

为提升系统精度,该架构集成了数字精检索引擎,在高吞吐粗检索结果中精确筛选向量。这使得即使在模拟CiR存在噪声与低精度处理的情况下,仍能保持高召回精度。

该架构还通过多CiR芯片并行扩展了向量库容量,并支持更广泛的并行粗检索,同时采用Thresh‑IVF流程与系统流水线,进一步提升吞吐量。

CiR PE分为三类:质心PE(CPE)存储聚类中心坐标,采样PE(SPE)存储从每个聚类中采样的少量向量,用于表征分布并生成CK;全量库PE(FPE)存储所有基础向量,并全程运行在高能效的DL‑ADC提前终止(ET)模式下,在整个流程中占据92.7%的向量存储。

CiR专用的Thresh‑IVF工作流程包括查询首先送入CPE,通过IT运算计算查询与聚类中心的距离,识别最近的聚类;系统将查询路由到所选聚类的SPE,通过IH在多芯片间生成直方图,进而生成CK;CK被路由到步骤1所确定聚类的所有FPE,通过IC完成粗检索ID生成。

这种系统级基于阈值的粗检索,最小化了每个芯片输出的过滤结果数量,避免了在各芯片上执行相同Top‑K计算带来的冗余ID过滤。最后,少量候选ID被送入数字引擎,以FP16格式进行精检索,使系统级存储带宽需求降低97.44%。



▲两步由粗到精检索系统架构与工作流程

该设计实现了系统级四级流水线并行;同时芯片内不同PE也可并行处理不同任务。相较于传统基于CPU的IVF方案,这种多芯片层级流水线可将延迟降低90.17%。

推荐系统在连接用户与海量内容和服务方面发挥着至关重要的作用,已广泛部署于电商和流媒体平台,但作为其核心运算单元相似向量检索占据了推荐系统绝大部分的计算时间和功耗。

其中采用混合键合技术的DRAM加速器提升了带宽以缓解EMA问题,但其成本高昂,且仍受限于DRAM与逻辑单元之间的数据传输瓶颈;基于NAND TCAM的加速器将计算集成到存储阵列中以减少EMA,但存在读取延迟高、数据和距离表示精度有限的问题。

基于此,这篇最新研究提出了一款高效的SVS加速器,能在保证高吞吐量检索的同时,不牺牲召回精度,进一步降低推荐系统的功耗。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网暴全红婵的群主被处理后,博主劝她改香港籍,以后替香港队比赛

网暴全红婵的群主被处理后,博主劝她改香港籍,以后替香港队比赛

谈史论天地
2026-04-16 14:32:12
结婚登记创36年新低,越来越多男人主动不结婚,到底在怕啥?

结婚登记创36年新低,越来越多男人主动不结婚,到底在怕啥?

老特有话说
2026-04-15 15:05:41
普京:俄罗斯经济连续两个月负增长

普京:俄罗斯经济连续两个月负增长

看看新闻Knews
2026-04-16 11:40:07
大快人心!浙江4057座寺庙,密集关停整顿,网友:乱象早该根治

大快人心!浙江4057座寺庙,密集关停整顿,网友:乱象早该根治

我不叫阿哏
2026-04-16 10:53:56
心梗是喝茶喝出来的?医生:即使是铁打的心脏,这几种茶也要少喝

心梗是喝茶喝出来的?医生:即使是铁打的心脏,这几种茶也要少喝

医学原创故事会
2026-04-16 23:44:09
郑丽文这回麻烦大了!

郑丽文这回麻烦大了!

小熊看国际
2026-04-16 11:11:58
两届世锦赛亚军坦言难夺冠:赢赵心童这类球员没机会

两届世锦赛亚军坦言难夺冠:赢赵心童这类球员没机会

老贃是个手艺人
2026-04-15 22:55:04
美伊要打第二场,伊朗发现,有巴基斯坦插手,不能随便打美基地了

美伊要打第二场,伊朗发现,有巴基斯坦插手,不能随便打美基地了

书纪文谭
2026-04-16 18:13:52
惨败!6亿豪阵啊!输得太扎心了!又要重建了?

惨败!6亿豪阵啊!输得太扎心了!又要重建了?

篮球盛世
2026-04-16 12:36:36
镇店之宝不再保密!莫氏鸡煲创始人累到想休息,公开全部配方

镇店之宝不再保密!莫氏鸡煲创始人累到想休息,公开全部配方

大鱼简科
2026-04-15 19:49:23
48集谍战剧开播!丁勇岱马伊琍上演乱世暗战

48集谍战剧开播!丁勇岱马伊琍上演乱世暗战

陈意小可爱
2026-04-16 19:57:50
真干了!以色列彻底失控

真干了!以色列彻底失控

新浪财经
2026-04-16 20:45:55
24岁抗癌小伙去世,他所患的黑色素瘤到底有多恐怖,发现即晚期

24岁抗癌小伙去世,他所患的黑色素瘤到底有多恐怖,发现即晚期

呼吸科大夫胡洋
2026-04-16 06:11:28
不堪重富,快船无缘季后赛后雷霆将在今年选秀中获得乐透签

不堪重富,快船无缘季后赛后雷霆将在今年选秀中获得乐透签

懂球帝
2026-04-16 13:15:15
45岁谢霆锋盯紧25岁欧阳娜娜,全网对溢出屏幕的情侣感疯狂尖叫!

45岁谢霆锋盯紧25岁欧阳娜娜,全网对溢出屏幕的情侣感疯狂尖叫!

陈意小可爱
2026-04-16 15:14:10
北影节开幕式出现抢位风波!沈腾被挤出C位,强行在沈马中间加桌

北影节开幕式出现抢位风波!沈腾被挤出C位,强行在沈马中间加桌

萌神木木
2026-04-16 21:18:03
疯狂!种马男星沃伦睡过12775名女友,性欲成瘾缠着女友不让下床

疯狂!种马男星沃伦睡过12775名女友,性欲成瘾缠着女友不让下床

钱小刀娱乐
2026-04-14 10:39:13
刚刚,平壤深夜突然开炮!日本这份外交蓝皮书,彻底把朝鲜惹毛了

刚刚,平壤深夜突然开炮!日本这份外交蓝皮书,彻底把朝鲜惹毛了

菁菁子衿
2026-04-16 08:25:29
纪委不会查这3种情况,很多人不知道,要切记!

纪委不会查这3种情况,很多人不知道,要切记!

细说职场
2026-04-16 15:27:18
当场打脸!松岛辉空说世乒赛要赢国乒拿金牌,把身后队友都听笑了!尴尬到家了!

当场打脸!松岛辉空说世乒赛要赢国乒拿金牌,把身后队友都听笑了!尴尬到家了!

最爱乒乓球
2026-04-17 00:07:21
2026-04-17 03:40:49
芯东西 incentive-icons
芯东西
专注AI芯片、半导体产业媒体
2284文章数 8153关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

艺术
时尚
家居
房产
手机

艺术要闻

你绝对想不到!这幅油画背后的美丽故事!

爆火的前额叶梗,让多少年轻人主动确诊「脑残」?

家居要闻

智能舒适 简约风尚

房产要闻

人人人人!封关后首届消博会,挤爆了!

手机要闻

OPPO Find X10:8000mAh超大电池+双2亿影像,中屏机皇实锤!

无障碍浏览 进入关怀版