网易首页 > 网易号 > 正文 申请入驻

入选芯片顶会ISSCC,阿里达摩院最新存算芯片技术解读

0
分享至

芯东西(公众号:aichip001)
作者 | 陈巍 千芯科技

编者注:阿里达摩院12月3日宣布其已成功研发基于DRAM的3D键合堆叠存算一体AI芯片,该芯片可满足AI等场景对高带宽、高容量内存和极致算力的需求,相关研究成果已被国际芯片顶会ISSCC 2022收录。本文为千芯科技董事长陈巍对该芯片创新技术的解读。

12月3日,阿里达摩院宣布成功研发新型架构芯片,已经被证明能够在阿里推荐系统中发挥极大的应用价值,并受到技术圈的普遍关注。

据悉,这颗芯片与数据中心的推荐系统对于带宽/存储的需求完美匹配,大幅提升带宽的同时还实现了超低功耗,充分展示了存算技术(第一代仅是近存计算)在数据中心场景的潜力。

▲达摩院存算芯片工作将发表在2022年ISSCC

让我们根据达摩院成员已公开的技术信息,来大胆解读这颗芯片的新科技。

据悉,该工作将发表在2022年ISSCC的Session 29的第一篇,堪称Session 29的扛鼎之作。需要说明的是,ISSCC(International Solid-State Circuits Conference)被业界视为芯片设计界的奥林匹克运动会,是芯片设计圈的顶级盛会。

根据该论文的信息,我们可以看到,这款存算芯片的设计合作方包括北美Sunnyvale、北京、上海三地的达摩院和西安紫光国芯。幕后大佬包括了达摩院的谢源教授和紫光国芯的CEO任奇伟。

该存算芯片的吞吐率能效达到184QPS/W,单位面积存储密度为64Mb/mm^2,使用了基于3D混合键合(3D Hybrid Bonding)近存计算技术,将逻辑单元与DRAM单元键合在一起。

一、为什么达摩院要使用存算技术?

▲传统架构存在“存储墙”问题

“冯·诺伊曼架构存储和计算分离的模型,已无法满足人工智能应用的需求,计算存储一体化将突破AI算力瓶颈。”这是达摩院判断的2020十大科技趋势中的技术趋势之一。

AI技术的快速发展,使得算力需求呈爆炸式增长。虽然多核(例如CPU)/众核(例如GPU)并行加速技术也能提升算力,但在后摩尔时代,存储带宽制约了计算系统的有效带宽,芯片算力增长步履维艰。

巨大的算力需求与实际算力有限增长之间的矛盾,将问题根源指向了冯·诺依曼架构存算分离的局限性。由于计算与存储分离,在计算的过程中就需要不断通过总线交换数据,将数据从内存读进CPU,计算完成后再写回存储。这一运转方式让冯·诺依曼架构无法适应新型计算的大算力需求。

分析显示,数据从内存传输到计算单元需要的功耗大约是计算本身的200倍,真正用于计算的时间和功耗占比大大降低。

为了从根本上解决冯·诺依曼架构瓶颈,就必须使用将计算和存储合二为一的存算技术

二、基于SeDRAM的近存计算技术

▲SeDRAM技术图示(B. Fujun et al.,2020)

达摩院存算芯片的内存单元采用了异质集成嵌入式DRAM(SeDRAM),拥有超大带宽、超大容量等特点,片上内存带宽可高达37.5GB/s/mm^2。

达摩院存算芯片所使用的SeDRAM就是堆叠嵌入式DRAM(Stacked Embedded DRAM)。

在以往的HBM使用硅中介层(interposer)和微凸块(microbump)来增加逻辑到内存接口的I/O连接数量,以在高数据速率下提供高带宽。然而,进一步提高每引脚数据速率需要HBM和复杂且耗电的PHY电路。而且TSV 和中介层连接具有较大的电阻和电容,从而导致高功耗。

在基于SeDRAM的存算芯片中,AI电路和外围电路,包括控制、I/O和DFT,被分立到一个逻辑芯片,并通过混合键合堆叠在存储阵列芯片上方,混合键合使用 Cu到Cu直接熔合键合。DFT模块则被设计为逻辑芯片中的 IP,用于为阵列芯片执行BISR(内置自修复)。

▲SeDRAM技术的延迟更低带宽更大(B. Fujun et al.,2020)

作为线路后端(BEOL)互连工艺的延伸,混合键合比微凸块和TSV的寄生电容小很多。因此,逻辑到存储器接口的功耗也可以降低40%。

混合键合的PIN间距尺寸为3μm,相反,microbump的间距约为50μm,TSV的间距约为6μm。与使用微凸块和TSV技术的HBM相比,使用混合键合技术的SeDRAM可以达到 110,000/mm^2的最大通孔密度

仅就带宽而言,基于混合键合技术的SeDRAM比HBM效率更高

当然,我们也看到,达摩院的这颗芯片仅仅是使用了近存计算技术,就已经获得了显著的性能,如果使用更先进的存算技术,则会产生更大的技术跃迁。

三、存算芯片的数据流架构

▲一种数据流架构(Wang Z. et al.,2020)

数据流架构是这颗芯片的另一个特色。

达摩院研发设计了基于数据流的定制化加速器架构,对推荐系统端到端进行加速,包括匹配、粗排序、神经网络计算、细排序等任务。

如数据流架构图所示,节点(Node Cluster)是构建整个架构的基本模块,每个检点的微架构包括多个存储块和一个处理核心。(例如权重存储和输入数据存储)

底层电路结构采用了同构设计,所有节点都可以灵活配置,每个节点有点像多处理器片上系统。

整个计算流程分为多轮(Round)。一轮可以进一步分为两个子轮。在计算子轮期间,存储在其本地缓冲区中的输入特征和神经权重被传送到处理数组中以进行计算。在每个通信子轮中,节点转发其输出特征,簇(Cluster)之间以循环方式交换存储的数据

通过这种近存计算(基于SeDRAM)和数据流架构的耦合,可以大大减少访问外部内存的次数,提升整体计算能效和性能

以搜索推荐为例,这一场景对内存带宽、功耗、时延等方面有很高的要求,如果用传统计算来实现,系统性能不易提高,但用存算的方式就能解决这些问题,同时降低成本。在实际推荐系统应用中,该芯片相对于传统CPU计算系统可以达到10倍以上性能提升和300倍的能效提升。

▲数据流架构的执行方式(Wang Z. et al.,2020)

四、存算技术路线的演进

目前存算技术在按照以下路线在演进:

查存计算(Processing With Memory):GPU中对于复杂函数就采用了这种计算方法,是早已落地多年的技术。存储芯片内部的存储单元完成查表计算操作,存储单元和计算单元完全融合,没有一个独立的计算单元。

近存计算(Computing Near Memory):典型代表包括AMD的Zen系列CPU和达摩院本次发表的存算芯片。计算操作由位于存储区域外部的独立计算芯片/模块完成。这种架构设计的代际设计成本较低,适合传统架构芯片转入。这次达摩院发布的存算芯片也属于这一类型。

内计算(Computing In Memory):典型代表是Mythic、闪忆、知存、九天睿芯。计算操作由位于存储芯片/区域内部的独立计算单元完成,存储和计算可以是模拟的也可以是数字的。这种路线适合算法固定的场景算法计算,目前主要用于语音等轻算力场景。

▲存算架构的演进路线

逻辑存储(Logic In Memory):通过在内部存储中添加计算逻辑,直接在内部存储执行数据计算,这种架构数据传输路径最短,同时能满足大模型的计算精度要求。典型代表包括TSMC(在2021 ISSCC发表)和千芯。

在达摩院前期的测试中,这颗存算芯片(目前还仅是近存计算)已经被证明能够在阿里推荐系统中发挥极大的应用价值

可以看到,由于存算技术本身的高能效和大算力特点,可以打破传统计算架构的“存储墙”问题。

这次近存架构在数据中心推荐系统中的应用还只是小试牛刀。存算技术在海量数据计算场景中拥有天然的优势,将在云计算、自动驾驶、元宇宙等场景拥有广阔的发展空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国递交申请,48小时内普京获邀入新联合国,特朗普欲任主席

中国递交申请,48小时内普京获邀入新联合国,特朗普欲任主席

灿若银烂
2026-01-20 07:43:01
川普为何一定拿下格陵兰?攻防体系、夹击加拿大、稀土能源

川普为何一定拿下格陵兰?攻防体系、夹击加拿大、稀土能源

邵旭峰域
2026-01-19 16:41:55
曝卡里克希望曼联租左边锋!中场引援等夏窗再说,巴莱巴又成首选

曝卡里克希望曼联租左边锋!中场引援等夏窗再说,巴莱巴又成首选

罗米的曼联博客
2026-01-20 07:32:40
新款MacBook,即将来了

新款MacBook,即将来了

放毒
2026-01-19 16:12:09
不打伊朗了?特朗普突然调转枪口,指责泽连斯基成为俄乌和平阻碍

不打伊朗了?特朗普突然调转枪口,指责泽连斯基成为俄乌和平阻碍

刘勇教授
2026-01-20 09:55:39
不像话!央视直播,刘维伟却“下架”4大主力,网友:体育精神呢?

不像话!央视直播,刘维伟却“下架”4大主力,网友:体育精神呢?

金山话体育
2026-01-20 05:03:09
炸裂!曼联高层强令卡里克:必须重用这名红魔新星!

炸裂!曼联高层强令卡里克:必须重用这名红魔新星!

澜归序
2026-01-20 03:01:27
神仙姐姐的野生图,太美了。

神仙姐姐的野生图,太美了。

微微热评
2026-01-09 12:20:53
真是没想到,原来田朴珺没和王石睡在一起!她是单独睡一个房间…

真是没想到,原来田朴珺没和王石睡在一起!她是单独睡一个房间…

火山诗话
2026-01-20 06:43:44
陈冠希一家洛杉矶参加婚礼,留小胡子像赵本山,女儿更像秦舒培!

陈冠希一家洛杉矶参加婚礼,留小胡子像赵本山,女儿更像秦舒培!

明星私服穿搭daily
2026-01-19 07:30:49
“买英国精子生3娃”的山东女人,8年后现状曝光!如今她后悔不?

“买英国精子生3娃”的山东女人,8年后现状曝光!如今她后悔不?

说历史的老牢
2026-01-19 10:33:42
故事:广东一母亲过于宠溺儿子,竟答应他提出的要求

故事:广东一母亲过于宠溺儿子,竟答应他提出的要求

墨染尘香
2024-11-15 23:37:11
国产手机集体沉默鸿蒙:5大核心原因,不是不愿是不能

国产手机集体沉默鸿蒙:5大核心原因,不是不愿是不能

时尚的弄潮
2026-01-18 12:13:35
公积金大变局:一次不得不做的“妥协”

公积金大变局:一次不得不做的“妥协”

李荣茂
2026-01-20 08:21:49
分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

查尔菲的笔记
2026-01-09 22:17:44
演都不演了?李国庆给李亚鹏捐款不到24小时,恶心的一幕出现了

演都不演了?李国庆给李亚鹏捐款不到24小时,恶心的一幕出现了

春日在捕月
2026-01-20 00:01:10
4-6!中国男足真踢不过,遇苦主难进U23亚洲杯决赛,李昊神奇不再

4-6!中国男足真踢不过,遇苦主难进U23亚洲杯决赛,李昊神奇不再

国足风云
2026-01-19 22:15:04
文班生涯第32次单场得分30+ 追平吉诺比利并列马刺队史第九

文班生涯第32次单场得分30+ 追平吉诺比利并列马刺队史第九

北青网-北京青年报
2026-01-20 10:26:02
3-2!中国斯诺克大获全胜:赵心童连赢两位世界冠军,提前晋级4强

3-2!中国斯诺克大获全胜:赵心童连赢两位世界冠军,提前晋级4强

郝小小看体育
2026-01-20 07:57:12
长辈身故存款难办?2026新规:有密码不如备好这份证明

长辈身故存款难办?2026新规:有密码不如备好这份证明

陈博世财经
2026-01-19 17:07:16
2026-01-20 10:40:49
芯东西 incentive-icons
芯东西
专注AI芯片、半导体产业媒体
2155文章数 8145关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

31岁新疆舞蹈老师因罕见病去世 从确诊到离世仅2个月

头条要闻

31岁新疆舞蹈老师因罕见病去世 从确诊到离世仅2个月

体育要闻

新的时代!东契奇生涯首夺全明星票王 此前10年詹姆斯7次夺魁

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

2026年,7个趋势正在爆发

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

本地
房产
时尚
公开课
军事航空

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

码住抄作业!春节见人不翻车就靠这8样!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

古美关系高度紧张 古巴启动"战争状态"

无障碍浏览 进入关怀版