网易首页 > 网易号 > 正文 申请入驻

清华大学 集成电路学院在 MICRO 2025 成功举办“Ventus:基于 RISC-V 的高性能开源 GPGPU”学术教程

0
分享至

当地时间2025 年 10 月 18 日下午,在韩国首尔举办的第 58 届国际微体系结构会议 (IEEE/ACM International Symposium on Microarchitecture, MICRO 2025)学术教程(Tutorial)时段,清华大学集成电路学院何虎老师和其团队成功组织了一场主题为“Ventus: A High-performance Open-source GPGPU Based on RISC-V and Its Vector Extension”学术教程。


本次教程由 8 场教程报告和一个实践演示环节组成,全面且深入地介绍了清华大学在开源 GPGPU“乘影”(Ventus) 项目上的最新研究成果,涵盖了从 GPGPU 顶层设计理念、微架构实现、缓存与内存子系统、AI 加速单元,到软件编译器、工具链、差分验证框架以及 FPGA 原型验证的全栈技术细节。

教程内容纲要如下:

01

Ventus GPGPU 项目总览 (Project Overview)

Ventus GPGPU 项目总览 (Project Overview) 清华大学集成电路学院副教授何虎老师发表了开篇演讲。他系统介绍了 Ventus (乘影) GPGPU 项目的发起初心、关键技术要点、团队发展历程、未来研究目标以及开源社区建设计划。何老师向与会者简要介绍了乘影 GPGPU 在指令集(ISA)、硬件架构、编译器、仿真器及验证工具等方面的完整布局。

02

GPGPU 设计哲学、指令集与核心架构

(GPU Design Philosophy & ISA & Core Architecture)

GPGPU 设计哲学、指令集与核心架构 (GPU Design Philosophy & ISA & Core Architecture) 清华大学集成电路学院博士生马鸣远从现代处理器的指令、数据、线程三个并行维度出发,深入阐明了 GPGPU 作为硬件多线程 SIMD 处理器的本质。他详细讨论了 SIMT (单指令多线程) 硬件在指令设计中需解决的核心问题,并阐述了 Ventus GPGPU 如何在 RISC-V Vector 扩展的基础上,构建一个功能完备的 GPGPU 基座。报告进一步介绍了 Ventus ISA 的几个重要设计方面,以及包括 CTA 调度器、Core pipeline、warp scheduler 等核心组件的 Chisel 开源版本微架构实现。

03

Ventus GPGPU 缓存子系统与 MMU 设计 (Ventus GPGPU Cache Subsystem and MMU)

Ventus GPGPU 缓存子系统与 MMU 设计 (Ventus GPGPU Cache Subsystem and MMU) 清华大学集成电路学院博士生孙浩楠系统介绍了乘影 GPGPU 的缓存子系统与内存管理模块 (MMU) 设计。该设计在 RISC-V RVWMO 内存模型下,采用了基于释放一致性引导的缓存一致性机制 (RCC),通过快通路 (fast-path) 与稳健通路 (robust-path) 的分工,兼顾了低延迟与全局正确性。微架构层面,L1D 缓存采用分级 MSHR/WSHR/SMSHR 与 RTAB 机制实现高效的非阻塞访问;原子单元紧耦合 L2 缓存,并扩展 TL-UH/精简 TL-UL 通道以高效处理 LR/SC 与 AMO 操作。虚拟内存部分,系统配置了多级 TLB 并结合辅助跳级结构优化页表遍历。测试数据显示,该设计在保证功能正确性的同时,将 MMU 开销控制在 15%–25% 之间,并获得了超过 95% 的 L1 DTLB 命中率和超过 85% 的 L2 TLB 命中率。

04

适配 Ventus GPGPU 的多精度可复用张量核心 (A Multi-Precision Reusable Tensor Core Design)

适配 Ventus GPGPU 的多精度可复用张量核心 (A Multi-Precision Reusable Tensor Core Design) 清华大学集成电路学院博士生刘威介绍了专为 AI 负载优化设计的 Ventus GPGPU 新一代多精度张量核心 (Tensor Core)。该设计支持从 FP16 到 INT4,以及 MX FP8/FP6/FP4 等多种新兴数据精度,并兼容 OCP MX 细粒度量化标准,实现了灵活高效的矩阵乘法计算。Tensor Core 采用硬件资源复用设计,通过异质乘法器的动态复用,高效支持多种精度切换并节省硬件面积。架构上结合了双缓冲与流水线设计,使内存与计算能力高度匹配,逼近 Roofline 模型的理论性能最优... ...点。该单元同时支持多尺寸 MMA (Matrix Multiply-Accumulate) 计算 (如 m16n16k16, m32n8k32) 并集成了 2:4 稀疏加速技术。基准测试表明,集成 Tensor Core 后,特定负载的指令数与执行周期数分别实现了 69.1% 与 68.4% 的显著优化。

05

GVM:面向 Ventus GPGPU 的实用化差分验证框架 (GVM: A Practical Differential Verification Framework)

GVM:面向 Ventus GPGPU 的实用化差分验证框架 (GVM: A Practical Differential Verification Framework) 清华大学集成电路学院硕士生谢文轩介绍了 GVM (GPU Verification Model) 框架。GVM 是一款面向 Ventus GPGPU 的指令级软硬件协同差分验证框架,通过将 RTL (DUT, Design Under Test) 与定制化的指令集模拟器 (ISS, Instruction Set Simulator) (REF, Reference Model) 进行差分比较。该框架为解决 GPGPU 指令乱序完成带来的验证挑战,在 SIMT 语义下引入了软件 ROB (Re-Order Buffer) 并进行状态比对。GVM 以 Warp 为粒度,支持可配置的 retire 指令集合、比对范围、按需单指令比对与 Next-PC 核对,并对 barrier、指令拼接与原子操作等特殊语义提供了专门处理。GVM 已成功接入 Ventus 软件栈,可由 OpenCL 程序直接调用,有效发现了多处细微 BUG,显著缩短了调试周期。

06

适用于 Ventus GPGPU 的 Triton 与 OpenCL 编译器 (Triton and OpenCL Compilers for Ventus GPGPU)

适用于 Ventus GPGPU 的 Triton 与 OpenCL 编译器 (Triton and OpenCL Compilers for Ventus GPGPU) 兆松科技 CTO 伍华林博士介绍了乘影 GPGPU 的软件栈设计,重点讨论了 OpenCL 编译器的实现考量以及 Triton AI 算子库编译器的设计。目前,乘影 GPGPU 支持 OpenCL 2.0 profile,已通过超过 85% 的 OpenCL conformance test。伍博士分析了 OpenCL 相较于 CUDA 在生态和高性能函数库方面的挑战,并提出基于 Triton 的 AI 算子库是解决当前困局的有效路径。乘影 GPGPU 可借助 Triton 生态,使 ML 工程师能以更友好的方式开发高效算子。兆松科技利用其在 MLIR 和 LLVM 编译技术的长期积累,为乘影 GPGPU 打造了完整的 MLIR+LLVM 模型/算子库到硬件指令翻译优化的端到端解决方案。

07

Ventus GPGPU 工具链设计

(Toolchain Design for Ventus OpenGPGPU)

Ventus GPGPU 工具链设计 (Toolchain Design for Ventus OpenGPGPU) 清华大学工程师孔荔介绍了 Ventus GPGPU 工具链的设计理念。该工具链包含 Compiler、Runtime、Driver、Simulator 等核心模块,实现了 OpenCL API 接口和统一的设备控制,并支持自定义指令与 GPGPU 组件模拟。工具链的功能稳定性通过了 OpenCL-CTS (整体通过率约 85%) 与 Rodinia 等基准测试集的 核心验证,实现了从硬件验证到上层程序运行的全流程支持。

08

动手实践:Ventus GPGPU 仿真与 FPGA 验证 (Hands-on Demo)

动手实践:Ventus GPGPU 仿真与 FPGA 验证 (Hands-on Demo) 教程的最后环节为实践演示。清华大学集成电路学院硕士生王俣翰通过交互式的 Jupyter 网页,为初次接触乘影 GPGPU 的开发者提供了入门级指导,详细介绍了项目开源仓库 (https://github.com/THU-DSP-LAB/ventus-env) 的组件构成、全套项目的自行部署方法,以及在功能/时序/RTL 仿真器上运行 OpenCL 程序的流程与功能设置。

随后,清华大学集成电路学院硕士生陈笑川展示了基于 FPGA 的 Ventus GPGPU 实现与验证。团队构建了两个层次的 FPGA 验证平台:基础层是在 VCU128 FPGA 上部署的自包含验证系统,以 MicroBlaze 软核为控制单元,集成了 Ventus GPGPU 核心 (1SM 8warp 16thread@50MHz),通过 JTAG 接口加载测试程序;进阶层则展示了主流神经网络推理等关键测试在 FPGA 上的实际运行,构成了从核心功能验证到实际应用加速的全流程硬件验证方案。

本次学术教程系统性地展示了清华大学在 RISC-V 开源 GPGPU 领域的全栈式研究布局与深入探索,受到了与会学者和业界专家的广泛关注与积极讨论。

清华大学集成电路学院在MICRO 2025

成功举办“Ventus:基于RISC-V的

高性能开源GPGPU”学术教程

2025年10月18日,在韩国首尔举办的第58届国际微体系结构会议(MICRO 2025)的学术教程环节中,清华大学集成电路学院何虎老师及其团队成功组织了一场题为《Ventus:基于RISC-V及其向量扩展的高性能开源GPGPU》的专题教程,系统展示了团队在开源通用图形处理器(GPGPU)领域的全栈研究成果,引起国际学术界与工业界的广泛关注。

本次教程由8场专题报告和一场实践演示组成,全面介绍了清华大学“乘影”(Ventus)GPGPU项目的设计理念、硬件架构、软件工具链及验证体系,覆盖从指令集、微架构、缓存与内存管理、AI加速单元,到编译器、差分验证框架与FPGA原型系统的完整技术链条。

何虎老师在项目总览报告中介绍了Ventus项目的发起背景、关键技术路径与开源社区建设规划,展现了项目在指令集、硬件设计、编译工具和验证平台等方面的完整布局。

在核心架构方面,博士生马鸣远从指令、数据与线程三个并行维度出发,深入剖析了GPGPU作为硬件多线程SIMD处理器的本质,并阐述了Ventus如何在RISC-V Vector扩展基础上构建完整的SIMT(单指令多线程)架构,介绍了包括CTA调度器、warp调度器在内的核心微架构设计。

缓存子系统与内存管理单元(MMU)由博士生孙浩楠详细讲解。该设计在RISC-V RVWMO内存模型下采用释放一致性引导的缓存一致性机制(RCC),通过快通路与稳健通路的协同,兼顾性能与正确性。测试数据显示,该MMU设计在保持功能正确的同时,实现了L1 DTLB命中率超95%,L2 TLB命中率超85%。

针对AI负载优化,博士生刘威介绍了Ventus新一代多精度可复用张量核心(Tensor Core),支持从FP16到INT4乃至MX FP8/FP6/FP4等多种精度,并集成稀疏加速技术。基准测试显示,集成该模块后,特定负载的指令数与执行周期分别优化了69.1%与68.4%。

在验证与软件生态方面,硕士生谢文轩介绍了团队开发的GVM差分验证框架,有效解决了GPGPU指令乱序完成带来的验证挑战。兆松科技CTO伍华林博士则分享了基于MLIR与LLVM的OpenCL与Triton编译器设计,助力Ventus支持现代AI算子开发。工程师孔荔进一步介绍了工具链的整体架构,涵盖编译、运行时、驱动与仿真器等模块,已通过OpenCL-CTS等测试验证。

教程最后设置了动手实践环节。硕士生王俣翰通过Jupyter交互环境演示了如何部署Ventus环境并运行OpenCL程序;硕士生陈笑川则展示了基于VCU128 FPGA的硬件验证平台,成功运行了向量加法、高斯消元和MNIST推理等关键测试,完成了从仿真到实际硬件加速的全流程验证。

本次教程是清华大学集成电路学院在RISC-V与GPGPU交叉领域系统性研究能力的一次集中展示,标志着我国在开源高性能计算架构方面取得了重要进展,为全球开源硬件社区注入了新的活力。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4205期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春节档票房崩了!《飞驰人生3》暴跌7000万,张艺谋新片为何垫底

春节档票房崩了!《飞驰人生3》暴跌7000万,张艺谋新片为何垫底

小娱乐悠悠
2026-02-20 10:43:46
尼格买提没想到,官宣与自己离婚三年的帕夏,竟走了另一条上坡路

尼格买提没想到,官宣与自己离婚三年的帕夏,竟走了另一条上坡路

原来仙女不讲理
2026-02-20 11:03:04
有人说早年的张萌很耐看!

有人说早年的张萌很耐看!

阿废冷眼观察所
2026-02-20 18:38:06
徐志胜大年初二走亲戚,家宴吃馒头配豆角朴素,开13万的车子低调

徐志胜大年初二走亲戚,家宴吃馒头配豆角朴素,开13万的车子低调

离离言几许
2026-02-19 14:54:16
关键时刻内讧爆发,第一狠人带头投降,乌克兰将迎来自己的普京?

关键时刻内讧爆发,第一狠人带头投降,乌克兰将迎来自己的普京?

浮光惊掠影
2026-02-20 00:14:22
明星卸妆后,金晨嘴凸龅牙,陈数苍老了不少,王一博简直认不出

明星卸妆后,金晨嘴凸龅牙,陈数苍老了不少,王一博简直认不出

胡一舸南游y
2026-01-20 16:50:06
6亿打水漂?投资人揭《美人鱼2》不上映原因,劣迹艺人害惨周星驰

6亿打水漂?投资人揭《美人鱼2》不上映原因,劣迹艺人害惨周星驰

查尔菲的笔记
2025-09-02 00:48:54
美国保镖重庆摆擂,扬言打败所有华人,一老头跳上台:我一掌赢你

美国保镖重庆摆擂,扬言打败所有华人,一老头跳上台:我一掌赢你

李哥三观很正
2024-08-18 12:56:18
塔利班焚毁500件乐器:音乐导致“道德败坏”

塔利班焚毁500件乐器:音乐导致“道德败坏”

桂系007
2026-02-20 10:45:31
国行 iPhone,开启 AI 设置界面!

国行 iPhone,开启 AI 设置界面!

花果科技
2026-02-19 22:00:48
快船险胜!马瑟林38+5+4,赛后鲍尔默怒吼庆祝,穆雷直接走入通道

快船险胜!马瑟林38+5+4,赛后鲍尔默怒吼庆祝,穆雷直接走入通道

担酒
2026-02-20 14:18:15
打得太舒服了!哈登16+5+9+3!米切尔恐怖正负值,阿伦吃饼乐开花

打得太舒服了!哈登16+5+9+3!米切尔恐怖正负值,阿伦吃饼乐开花

Tracy的篮球博物馆
2026-02-20 10:30:13
马筱梅产期将近,张兰汪玺前后脚回台北,汪小菲带娃玩得风生水起

马筱梅产期将近,张兰汪玺前后脚回台北,汪小菲带娃玩得风生水起

夏末moent
2026-02-20 09:54:03
浙江一快递员跳河救落水小孩,弄湿客户名牌包被索赔8万,谁料孩子爷爷拿出一张卡,客户瞬间懵了!

浙江一快递员跳河救落水小孩,弄湿客户名牌包被索赔8万,谁料孩子爷爷拿出一张卡,客户瞬间懵了!

明智家庭教育
2026-02-20 20:15:56
突破性进展!微软研发出万年存储玻璃:单块可存4.84TB

突破性进展!微软研发出万年存储玻璃:单块可存4.84TB

快科技
2026-02-19 15:30:06
极限2换1,首秀来了,再见,库里

极限2换1,首秀来了,再见,库里

体育新角度
2026-02-20 21:36:20
春晚到底是哪个天才想出来要让演员余皑磊来饰演9月花神陶渊明的

春晚到底是哪个天才想出来要让演员余皑磊来饰演9月花神陶渊明的

动物奇奇怪怪
2026-02-18 21:22:34
黄岩岛以东发生激烈对峙!052D合肥舰不顾阻挠,强行加入美菲舰队

黄岩岛以东发生激烈对峙!052D合肥舰不顾阻挠,强行加入美菲舰队

林子说事
2026-02-19 18:07:00
香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

读懂世界历史
2026-02-12 21:48:53
斯诺克比赛结果:6-3晋级4强,赵心童大满贯出局

斯诺克比赛结果:6-3晋级4强,赵心童大满贯出局

墨史轩
2026-02-20 06:22:06
2026-02-20 23:04:49
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12974文章数 34801关注度
往期回顾 全部

教育要闻

数学这件事,做得多不如想得透

头条要闻

7名中国游客溺亡 目击者:司机强闯贝加尔湖冰面裂缝

头条要闻

7名中国游客溺亡 目击者:司机强闯贝加尔湖冰面裂缝

体育要闻

宁忠岩:我拿过那么多银牌和铜牌 现在终于赢了

娱乐要闻

苏翊鸣夺金朱易示爱,两人默契引热议

财经要闻

太疯狂!“顾客不问价直接出手”

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

游戏
亲子
艺术
公开课
军事航空

桌面陪伴治愈新体验!《仓鼠萌语》亮相Steam新品节,免费试玩今日开启

亲子要闻

婆婆向儿媳讨要孙女满月酒礼金,看儿媳如何霸气反击,结局真痛快

艺术要闻

开绿灯!特朗普心心念的白宫宴会厅设计方案,一致通过!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

消息人士透露:美军赴黄海活动 解放军有效应对处置

无障碍浏览 进入关怀版