网易首页 > 网易号 > 正文 申请入驻

清华大学 集成电路学院在 MICRO 2025 成功举办“Ventus:基于 RISC-V 的高性能开源 GPGPU”学术教程

0
分享至

当地时间2025 年 10 月 18 日下午,在韩国首尔举办的第 58 届国际微体系结构会议 (IEEE/ACM International Symposium on Microarchitecture, MICRO 2025)学术教程(Tutorial)时段,清华大学集成电路学院何虎老师和其团队成功组织了一场主题为“Ventus: A High-performance Open-source GPGPU Based on RISC-V and Its Vector Extension”学术教程。


本次教程由 8 场教程报告和一个实践演示环节组成,全面且深入地介绍了清华大学在开源 GPGPU“乘影”(Ventus) 项目上的最新研究成果,涵盖了从 GPGPU 顶层设计理念、微架构实现、缓存与内存子系统、AI 加速单元,到软件编译器、工具链、差分验证框架以及 FPGA 原型验证的全栈技术细节。

教程内容纲要如下:

01

Ventus GPGPU 项目总览 (Project Overview)

Ventus GPGPU 项目总览 (Project Overview) 清华大学集成电路学院副教授何虎老师发表了开篇演讲。他系统介绍了 Ventus (乘影) GPGPU 项目的发起初心、关键技术要点、团队发展历程、未来研究目标以及开源社区建设计划。何老师向与会者简要介绍了乘影 GPGPU 在指令集(ISA)、硬件架构、编译器、仿真器及验证工具等方面的完整布局。

02

GPGPU 设计哲学、指令集与核心架构

(GPU Design Philosophy & ISA & Core Architecture)

GPGPU 设计哲学、指令集与核心架构 (GPU Design Philosophy & ISA & Core Architecture) 清华大学集成电路学院博士生马鸣远从现代处理器的指令、数据、线程三个并行维度出发,深入阐明了 GPGPU 作为硬件多线程 SIMD 处理器的本质。他详细讨论了 SIMT (单指令多线程) 硬件在指令设计中需解决的核心问题,并阐述了 Ventus GPGPU 如何在 RISC-V Vector 扩展的基础上,构建一个功能完备的 GPGPU 基座。报告进一步介绍了 Ventus ISA 的几个重要设计方面,以及包括 CTA 调度器、Core pipeline、warp scheduler 等核心组件的 Chisel 开源版本微架构实现。

03

Ventus GPGPU 缓存子系统与 MMU 设计 (Ventus GPGPU Cache Subsystem and MMU)

Ventus GPGPU 缓存子系统与 MMU 设计 (Ventus GPGPU Cache Subsystem and MMU) 清华大学集成电路学院博士生孙浩楠系统介绍了乘影 GPGPU 的缓存子系统与内存管理模块 (MMU) 设计。该设计在 RISC-V RVWMO 内存模型下,采用了基于释放一致性引导的缓存一致性机制 (RCC),通过快通路 (fast-path) 与稳健通路 (robust-path) 的分工,兼顾了低延迟与全局正确性。微架构层面,L1D 缓存采用分级 MSHR/WSHR/SMSHR 与 RTAB 机制实现高效的非阻塞访问;原子单元紧耦合 L2 缓存,并扩展 TL-UH/精简 TL-UL 通道以高效处理 LR/SC 与 AMO 操作。虚拟内存部分,系统配置了多级 TLB 并结合辅助跳级结构优化页表遍历。测试数据显示,该设计在保证功能正确性的同时,将 MMU 开销控制在 15%–25% 之间,并获得了超过 95% 的 L1 DTLB 命中率和超过 85% 的 L2 TLB 命中率。

04

适配 Ventus GPGPU 的多精度可复用张量核心 (A Multi-Precision Reusable Tensor Core Design)

适配 Ventus GPGPU 的多精度可复用张量核心 (A Multi-Precision Reusable Tensor Core Design) 清华大学集成电路学院博士生刘威介绍了专为 AI 负载优化设计的 Ventus GPGPU 新一代多精度张量核心 (Tensor Core)。该设计支持从 FP16 到 INT4,以及 MX FP8/FP6/FP4 等多种新兴数据精度,并兼容 OCP MX 细粒度量化标准,实现了灵活高效的矩阵乘法计算。Tensor Core 采用硬件资源复用设计,通过异质乘法器的动态复用,高效支持多种精度切换并节省硬件面积。架构上结合了双缓冲与流水线设计,使内存与计算能力高度匹配,逼近 Roofline 模型的理论性能最优... ...点。该单元同时支持多尺寸 MMA (Matrix Multiply-Accumulate) 计算 (如 m16n16k16, m32n8k32) 并集成了 2:4 稀疏加速技术。基准测试表明,集成 Tensor Core 后,特定负载的指令数与执行周期数分别实现了 69.1% 与 68.4% 的显著优化。

05

GVM:面向 Ventus GPGPU 的实用化差分验证框架 (GVM: A Practical Differential Verification Framework)

GVM:面向 Ventus GPGPU 的实用化差分验证框架 (GVM: A Practical Differential Verification Framework) 清华大学集成电路学院硕士生谢文轩介绍了 GVM (GPU Verification Model) 框架。GVM 是一款面向 Ventus GPGPU 的指令级软硬件协同差分验证框架,通过将 RTL (DUT, Design Under Test) 与定制化的指令集模拟器 (ISS, Instruction Set Simulator) (REF, Reference Model) 进行差分比较。该框架为解决 GPGPU 指令乱序完成带来的验证挑战,在 SIMT 语义下引入了软件 ROB (Re-Order Buffer) 并进行状态比对。GVM 以 Warp 为粒度,支持可配置的 retire 指令集合、比对范围、按需单指令比对与 Next-PC 核对,并对 barrier、指令拼接与原子操作等特殊语义提供了专门处理。GVM 已成功接入 Ventus 软件栈,可由 OpenCL 程序直接调用,有效发现了多处细微 BUG,显著缩短了调试周期。

06

适用于 Ventus GPGPU 的 Triton 与 OpenCL 编译器 (Triton and OpenCL Compilers for Ventus GPGPU)

适用于 Ventus GPGPU 的 Triton 与 OpenCL 编译器 (Triton and OpenCL Compilers for Ventus GPGPU) 兆松科技 CTO 伍华林博士介绍了乘影 GPGPU 的软件栈设计,重点讨论了 OpenCL 编译器的实现考量以及 Triton AI 算子库编译器的设计。目前,乘影 GPGPU 支持 OpenCL 2.0 profile,已通过超过 85% 的 OpenCL conformance test。伍博士分析了 OpenCL 相较于 CUDA 在生态和高性能函数库方面的挑战,并提出基于 Triton 的 AI 算子库是解决当前困局的有效路径。乘影 GPGPU 可借助 Triton 生态,使 ML 工程师能以更友好的方式开发高效算子。兆松科技利用其在 MLIR 和 LLVM 编译技术的长期积累,为乘影 GPGPU 打造了完整的 MLIR+LLVM 模型/算子库到硬件指令翻译优化的端到端解决方案。

07

Ventus GPGPU 工具链设计

(Toolchain Design for Ventus OpenGPGPU)

Ventus GPGPU 工具链设计 (Toolchain Design for Ventus OpenGPGPU) 清华大学工程师孔荔介绍了 Ventus GPGPU 工具链的设计理念。该工具链包含 Compiler、Runtime、Driver、Simulator 等核心模块,实现了 OpenCL API 接口和统一的设备控制,并支持自定义指令与 GPGPU 组件模拟。工具链的功能稳定性通过了 OpenCL-CTS (整体通过率约 85%) 与 Rodinia 等基准测试集的 核心验证,实现了从硬件验证到上层程序运行的全流程支持。

08

动手实践:Ventus GPGPU 仿真与 FPGA 验证 (Hands-on Demo)

动手实践:Ventus GPGPU 仿真与 FPGA 验证 (Hands-on Demo) 教程的最后环节为实践演示。清华大学集成电路学院硕士生王俣翰通过交互式的 Jupyter 网页,为初次接触乘影 GPGPU 的开发者提供了入门级指导,详细介绍了项目开源仓库 (https://github.com/THU-DSP-LAB/ventus-env) 的组件构成、全套项目的自行部署方法,以及在功能/时序/RTL 仿真器上运行 OpenCL 程序的流程与功能设置。

随后,清华大学集成电路学院硕士生陈笑川展示了基于 FPGA 的 Ventus GPGPU 实现与验证。团队构建了两个层次的 FPGA 验证平台:基础层是在 VCU128 FPGA 上部署的自包含验证系统,以 MicroBlaze 软核为控制单元,集成了 Ventus GPGPU 核心 (1SM 8warp 16thread@50MHz),通过 JTAG 接口加载测试程序;进阶层则展示了主流神经网络推理等关键测试在 FPGA 上的实际运行,构成了从核心功能验证到实际应用加速的全流程硬件验证方案。

本次学术教程系统性地展示了清华大学在 RISC-V 开源 GPGPU 领域的全栈式研究布局与深入探索,受到了与会学者和业界专家的广泛关注与积极讨论。

清华大学集成电路学院在MICRO 2025

成功举办“Ventus:基于RISC-V的

高性能开源GPGPU”学术教程

2025年10月18日,在韩国首尔举办的第58届国际微体系结构会议(MICRO 2025)的学术教程环节中,清华大学集成电路学院何虎老师及其团队成功组织了一场题为《Ventus:基于RISC-V及其向量扩展的高性能开源GPGPU》的专题教程,系统展示了团队在开源通用图形处理器(GPGPU)领域的全栈研究成果,引起国际学术界与工业界的广泛关注。

本次教程由8场专题报告和一场实践演示组成,全面介绍了清华大学“乘影”(Ventus)GPGPU项目的设计理念、硬件架构、软件工具链及验证体系,覆盖从指令集、微架构、缓存与内存管理、AI加速单元,到编译器、差分验证框架与FPGA原型系统的完整技术链条。

何虎老师在项目总览报告中介绍了Ventus项目的发起背景、关键技术路径与开源社区建设规划,展现了项目在指令集、硬件设计、编译工具和验证平台等方面的完整布局。

在核心架构方面,博士生马鸣远从指令、数据与线程三个并行维度出发,深入剖析了GPGPU作为硬件多线程SIMD处理器的本质,并阐述了Ventus如何在RISC-V Vector扩展基础上构建完整的SIMT(单指令多线程)架构,介绍了包括CTA调度器、warp调度器在内的核心微架构设计。

缓存子系统与内存管理单元(MMU)由博士生孙浩楠详细讲解。该设计在RISC-V RVWMO内存模型下采用释放一致性引导的缓存一致性机制(RCC),通过快通路与稳健通路的协同,兼顾性能与正确性。测试数据显示,该MMU设计在保持功能正确的同时,实现了L1 DTLB命中率超95%,L2 TLB命中率超85%。

针对AI负载优化,博士生刘威介绍了Ventus新一代多精度可复用张量核心(Tensor Core),支持从FP16到INT4乃至MX FP8/FP6/FP4等多种精度,并集成稀疏加速技术。基准测试显示,集成该模块后,特定负载的指令数与执行周期分别优化了69.1%与68.4%。

在验证与软件生态方面,硕士生谢文轩介绍了团队开发的GVM差分验证框架,有效解决了GPGPU指令乱序完成带来的验证挑战。兆松科技CTO伍华林博士则分享了基于MLIR与LLVM的OpenCL与Triton编译器设计,助力Ventus支持现代AI算子开发。工程师孔荔进一步介绍了工具链的整体架构,涵盖编译、运行时、驱动与仿真器等模块,已通过OpenCL-CTS等测试验证。

教程最后设置了动手实践环节。硕士生王俣翰通过Jupyter交互环境演示了如何部署Ventus环境并运行OpenCL程序;硕士生陈笑川则展示了基于VCU128 FPGA的硬件验证平台,成功运行了向量加法、高斯消元和MNIST推理等关键测试,完成了从仿真到实际硬件加速的全流程验证。

本次教程是清华大学集成电路学院在RISC-V与GPGPU交叉领域系统性研究能力的一次集中展示,标志着我国在开源高性能计算架构方面取得了重要进展,为全球开源硬件社区注入了新的活力。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4205期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
莫言:你越是做事果断,我行我素,不服就干,就越有人欣赏你

莫言:你越是做事果断,我行我素,不服就干,就越有人欣赏你

清风拂心
2025-09-17 11:15:06
中方一锤定音,安世事件荷兰100%担责,再不悔改一切后果自负!

中方一锤定音,安世事件荷兰100%担责,再不悔改一切后果自负!

闻识
2025-11-06 16:08:17
女机器人被质疑藏真人,何小鹏视频回应后公司股价拉升

女机器人被质疑藏真人,何小鹏视频回应后公司股价拉升

界面新闻
2025-11-06 12:52:37
“老公不愿捐肾,导致我爸去世”,32岁女子闹离婚,律师当场抨击

“老公不愿捐肾,导致我爸去世”,32岁女子闹离婚,律师当场抨击

游者走天下
2025-11-06 16:02:09
勇士输国王!库明加+理查德+穆迪合砍82分,波斯特+替补难贡献

勇士输国王!库明加+理查德+穆迪合砍82分,波斯特+替补难贡献

篮球资讯达人
2025-11-06 13:37:24
白应苍被宣判死刑时,仍旧昂首挺胸,毫无悔意,他爹已经屁滚尿流

白应苍被宣判死刑时,仍旧昂首挺胸,毫无悔意,他爹已经屁滚尿流

我心纵横天地间
2025-11-05 11:28:28
重庆最强区出现,两江新区GDP将超万亿

重庆最强区出现,两江新区GDP将超万亿

特特农村生活
2025-11-06 14:52:21
俄总理从中国带回好消息,全体高层都在场,普京听完后心情大好

俄总理从中国带回好消息,全体高层都在场,普京听完后心情大好

三毛看世界
2025-11-06 15:40:32
解放前我党一特工将被处决,房东送断头饭时悄声道:这饭要仔细吃

解放前我党一特工将被处决,房东送断头饭时悄声道:这饭要仔细吃

兴趣知识
2025-11-04 02:40:03
全红婵的真正跳台,不在池水上——那一刻她抱起了世界的重量

全红婵的真正跳台,不在池水上——那一刻她抱起了世界的重量

爱的圆周率不循环w
2025-11-06 16:08:39
四渡赤水简单来说,就是40万国军把3万人的红军包围在一条河附近

四渡赤水简单来说,就是40万国军把3万人的红军包围在一条河附近

忠于法纪
2025-11-04 09:02:20
我在部队当了5年通讯兵,退伍发现村后头的信号塔每晚都准时闪3下

我在部队当了5年通讯兵,退伍发现村后头的信号塔每晚都准时闪3下

五元讲堂
2025-11-05 10:35:02
CBA官方:吉伦沃特哈雷尔兴奋剂违规 广东新疆扣6分核减经费60万

CBA官方:吉伦沃特哈雷尔兴奋剂违规 广东新疆扣6分核减经费60万

醉卧浮生
2025-11-06 16:56:12
何超仪老公大病后罕露面,陈子聪面色红润胖不少,私人医生是主角

何超仪老公大病后罕露面,陈子聪面色红润胖不少,私人医生是主角

疯说时尚
2025-11-06 11:58:53
水洗貂皮退货后续!商家曝全过程,顾客买的特价貂,第7天无理由

水洗貂皮退货后续!商家曝全过程,顾客买的特价貂,第7天无理由

奇思妙想草叶君
2025-11-05 23:48:44
安徽20名干部,职务拟调整!

安徽20名干部,职务拟调整!

凤凰网安徽
2025-11-06 16:13:59
山西王阎锡山的妹妹,没来得及跟哥哥逃到台湾,她的结局如何?

山西王阎锡山的妹妹,没来得及跟哥哥逃到台湾,她的结局如何?

鹤羽说个事
2025-11-04 16:56:07
实锤!孙颖莎生日蛋糕北京定制藏细节,放烟花的是王CC和草莓熊

实锤!孙颖莎生日蛋糕北京定制藏细节,放烟花的是王CC和草莓熊

情感大头说说
2025-11-06 11:31:01
面相全变了,分手7年,马思纯欧豪罕见同框,才知两人差距在哪里

面相全变了,分手7年,马思纯欧豪罕见同框,才知两人差距在哪里

银河史记
2025-11-05 21:33:57
山姆新产品图被吐槽像电商牛皮癣广告,前天猫高管成新总裁后会员气得投诉「一股阿里味」?

山姆新产品图被吐槽像电商牛皮癣广告,前天猫高管成新总裁后会员气得投诉「一股阿里味」?

Vista氢商业
2025-11-04 14:36:18
2025-11-06 17:31:03
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12161文章数 34696关注度
往期回顾 全部

教育要闻

报名 | “2025·光华创新创业计划大赛”:智汇光华,创享未来

头条要闻

医院副院长被指出轨眼科主任 湖南卫健委:两人被停职

头条要闻

医院副院长被指出轨眼科主任 湖南卫健委:两人被停职

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

手机
房产
时尚
游戏
公开课

手机要闻

新一代iPhone Air曝光,有望新增48MP超广角镜头

房产要闻

中旅·三亚蓝湾,以一座城市会客厅回应世界的滨海想象

中国色特别策划 | 故宫技艺与古意新生

CS2迎来重磅更新!“比过去更贴近真实”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版