网易首页 > 网易号 > 正文 申请入驻

清华大学 集成电路学院在 MICRO 2025 成功举办“Ventus:基于 RISC-V 的高性能开源 GPGPU”学术教程

0
分享至

当地时间2025 年 10 月 18 日下午,在韩国首尔举办的第 58 届国际微体系结构会议 (IEEE/ACM International Symposium on Microarchitecture, MICRO 2025)学术教程(Tutorial)时段,清华大学集成电路学院何虎老师和其团队成功组织了一场主题为“Ventus: A High-performance Open-source GPGPU Based on RISC-V and Its Vector Extension”学术教程。


本次教程由 8 场教程报告和一个实践演示环节组成,全面且深入地介绍了清华大学在开源 GPGPU“乘影”(Ventus) 项目上的最新研究成果,涵盖了从 GPGPU 顶层设计理念、微架构实现、缓存与内存子系统、AI 加速单元,到软件编译器、工具链、差分验证框架以及 FPGA 原型验证的全栈技术细节。

教程内容纲要如下:

01

Ventus GPGPU 项目总览 (Project Overview)

Ventus GPGPU 项目总览 (Project Overview) 清华大学集成电路学院副教授何虎老师发表了开篇演讲。他系统介绍了 Ventus (乘影) GPGPU 项目的发起初心、关键技术要点、团队发展历程、未来研究目标以及开源社区建设计划。何老师向与会者简要介绍了乘影 GPGPU 在指令集(ISA)、硬件架构、编译器、仿真器及验证工具等方面的完整布局。

02

GPGPU 设计哲学、指令集与核心架构

(GPU Design Philosophy & ISA & Core Architecture)

GPGPU 设计哲学、指令集与核心架构 (GPU Design Philosophy & ISA & Core Architecture) 清华大学集成电路学院博士生马鸣远从现代处理器的指令、数据、线程三个并行维度出发,深入阐明了 GPGPU 作为硬件多线程 SIMD 处理器的本质。他详细讨论了 SIMT (单指令多线程) 硬件在指令设计中需解决的核心问题,并阐述了 Ventus GPGPU 如何在 RISC-V Vector 扩展的基础上,构建一个功能完备的 GPGPU 基座。报告进一步介绍了 Ventus ISA 的几个重要设计方面,以及包括 CTA 调度器、Core pipeline、warp scheduler 等核心组件的 Chisel 开源版本微架构实现。

03

Ventus GPGPU 缓存子系统与 MMU 设计 (Ventus GPGPU Cache Subsystem and MMU)

Ventus GPGPU 缓存子系统与 MMU 设计 (Ventus GPGPU Cache Subsystem and MMU) 清华大学集成电路学院博士生孙浩楠系统介绍了乘影 GPGPU 的缓存子系统与内存管理模块 (MMU) 设计。该设计在 RISC-V RVWMO 内存模型下,采用了基于释放一致性引导的缓存一致性机制 (RCC),通过快通路 (fast-path) 与稳健通路 (robust-path) 的分工,兼顾了低延迟与全局正确性。微架构层面,L1D 缓存采用分级 MSHR/WSHR/SMSHR 与 RTAB 机制实现高效的非阻塞访问;原子单元紧耦合 L2 缓存,并扩展 TL-UH/精简 TL-UL 通道以高效处理 LR/SC 与 AMO 操作。虚拟内存部分,系统配置了多级 TLB 并结合辅助跳级结构优化页表遍历。测试数据显示,该设计在保证功能正确性的同时,将 MMU 开销控制在 15%–25% 之间,并获得了超过 95% 的 L1 DTLB 命中率和超过 85% 的 L2 TLB 命中率。

04

适配 Ventus GPGPU 的多精度可复用张量核心 (A Multi-Precision Reusable Tensor Core Design)

适配 Ventus GPGPU 的多精度可复用张量核心 (A Multi-Precision Reusable Tensor Core Design) 清华大学集成电路学院博士生刘威介绍了专为 AI 负载优化设计的 Ventus GPGPU 新一代多精度张量核心 (Tensor Core)。该设计支持从 FP16 到 INT4,以及 MX FP8/FP6/FP4 等多种新兴数据精度,并兼容 OCP MX 细粒度量化标准,实现了灵活高效的矩阵乘法计算。Tensor Core 采用硬件资源复用设计,通过异质乘法器的动态复用,高效支持多种精度切换并节省硬件面积。架构上结合了双缓冲与流水线设计,使内存与计算能力高度匹配,逼近 Roofline 模型的理论性能最优... ...点。该单元同时支持多尺寸 MMA (Matrix Multiply-Accumulate) 计算 (如 m16n16k16, m32n8k32) 并集成了 2:4 稀疏加速技术。基准测试表明,集成 Tensor Core 后,特定负载的指令数与执行周期数分别实现了 69.1% 与 68.4% 的显著优化。

05

GVM:面向 Ventus GPGPU 的实用化差分验证框架 (GVM: A Practical Differential Verification Framework)

GVM:面向 Ventus GPGPU 的实用化差分验证框架 (GVM: A Practical Differential Verification Framework) 清华大学集成电路学院硕士生谢文轩介绍了 GVM (GPU Verification Model) 框架。GVM 是一款面向 Ventus GPGPU 的指令级软硬件协同差分验证框架,通过将 RTL (DUT, Design Under Test) 与定制化的指令集模拟器 (ISS, Instruction Set Simulator) (REF, Reference Model) 进行差分比较。该框架为解决 GPGPU 指令乱序完成带来的验证挑战,在 SIMT 语义下引入了软件 ROB (Re-Order Buffer) 并进行状态比对。GVM 以 Warp 为粒度,支持可配置的 retire 指令集合、比对范围、按需单指令比对与 Next-PC 核对,并对 barrier、指令拼接与原子操作等特殊语义提供了专门处理。GVM 已成功接入 Ventus 软件栈,可由 OpenCL 程序直接调用,有效发现了多处细微 BUG,显著缩短了调试周期。

06

适用于 Ventus GPGPU 的 Triton 与 OpenCL 编译器 (Triton and OpenCL Compilers for Ventus GPGPU)

适用于 Ventus GPGPU 的 Triton 与 OpenCL 编译器 (Triton and OpenCL Compilers for Ventus GPGPU) 兆松科技 CTO 伍华林博士介绍了乘影 GPGPU 的软件栈设计,重点讨论了 OpenCL 编译器的实现考量以及 Triton AI 算子库编译器的设计。目前,乘影 GPGPU 支持 OpenCL 2.0 profile,已通过超过 85% 的 OpenCL conformance test。伍博士分析了 OpenCL 相较于 CUDA 在生态和高性能函数库方面的挑战,并提出基于 Triton 的 AI 算子库是解决当前困局的有效路径。乘影 GPGPU 可借助 Triton 生态,使 ML 工程师能以更友好的方式开发高效算子。兆松科技利用其在 MLIR 和 LLVM 编译技术的长期积累,为乘影 GPGPU 打造了完整的 MLIR+LLVM 模型/算子库到硬件指令翻译优化的端到端解决方案。

07

Ventus GPGPU 工具链设计

(Toolchain Design for Ventus OpenGPGPU)

Ventus GPGPU 工具链设计 (Toolchain Design for Ventus OpenGPGPU) 清华大学工程师孔荔介绍了 Ventus GPGPU 工具链的设计理念。该工具链包含 Compiler、Runtime、Driver、Simulator 等核心模块,实现了 OpenCL API 接口和统一的设备控制,并支持自定义指令与 GPGPU 组件模拟。工具链的功能稳定性通过了 OpenCL-CTS (整体通过率约 85%) 与 Rodinia 等基准测试集的 核心验证,实现了从硬件验证到上层程序运行的全流程支持。

08

动手实践:Ventus GPGPU 仿真与 FPGA 验证 (Hands-on Demo)

动手实践:Ventus GPGPU 仿真与 FPGA 验证 (Hands-on Demo) 教程的最后环节为实践演示。清华大学集成电路学院硕士生王俣翰通过交互式的 Jupyter 网页,为初次接触乘影 GPGPU 的开发者提供了入门级指导,详细介绍了项目开源仓库 (https://github.com/THU-DSP-LAB/ventus-env) 的组件构成、全套项目的自行部署方法,以及在功能/时序/RTL 仿真器上运行 OpenCL 程序的流程与功能设置。

随后,清华大学集成电路学院硕士生陈笑川展示了基于 FPGA 的 Ventus GPGPU 实现与验证。团队构建了两个层次的 FPGA 验证平台:基础层是在 VCU128 FPGA 上部署的自包含验证系统,以 MicroBlaze 软核为控制单元,集成了 Ventus GPGPU 核心 (1SM 8warp 16thread@50MHz),通过 JTAG 接口加载测试程序;进阶层则展示了主流神经网络推理等关键测试在 FPGA 上的实际运行,构成了从核心功能验证到实际应用加速的全流程硬件验证方案。

本次学术教程系统性地展示了清华大学在 RISC-V 开源 GPGPU 领域的全栈式研究布局与深入探索,受到了与会学者和业界专家的广泛关注与积极讨论。

清华大学集成电路学院在MICRO 2025

成功举办“Ventus:基于RISC-V的

高性能开源GPGPU”学术教程

2025年10月18日,在韩国首尔举办的第58届国际微体系结构会议(MICRO 2025)的学术教程环节中,清华大学集成电路学院何虎老师及其团队成功组织了一场题为《Ventus:基于RISC-V及其向量扩展的高性能开源GPGPU》的专题教程,系统展示了团队在开源通用图形处理器(GPGPU)领域的全栈研究成果,引起国际学术界与工业界的广泛关注。

本次教程由8场专题报告和一场实践演示组成,全面介绍了清华大学“乘影”(Ventus)GPGPU项目的设计理念、硬件架构、软件工具链及验证体系,覆盖从指令集、微架构、缓存与内存管理、AI加速单元,到编译器、差分验证框架与FPGA原型系统的完整技术链条。

何虎老师在项目总览报告中介绍了Ventus项目的发起背景、关键技术路径与开源社区建设规划,展现了项目在指令集、硬件设计、编译工具和验证平台等方面的完整布局。

在核心架构方面,博士生马鸣远从指令、数据与线程三个并行维度出发,深入剖析了GPGPU作为硬件多线程SIMD处理器的本质,并阐述了Ventus如何在RISC-V Vector扩展基础上构建完整的SIMT(单指令多线程)架构,介绍了包括CTA调度器、warp调度器在内的核心微架构设计。

缓存子系统与内存管理单元(MMU)由博士生孙浩楠详细讲解。该设计在RISC-V RVWMO内存模型下采用释放一致性引导的缓存一致性机制(RCC),通过快通路与稳健通路的协同,兼顾性能与正确性。测试数据显示,该MMU设计在保持功能正确的同时,实现了L1 DTLB命中率超95%,L2 TLB命中率超85%。

针对AI负载优化,博士生刘威介绍了Ventus新一代多精度可复用张量核心(Tensor Core),支持从FP16到INT4乃至MX FP8/FP6/FP4等多种精度,并集成稀疏加速技术。基准测试显示,集成该模块后,特定负载的指令数与执行周期分别优化了69.1%与68.4%。

在验证与软件生态方面,硕士生谢文轩介绍了团队开发的GVM差分验证框架,有效解决了GPGPU指令乱序完成带来的验证挑战。兆松科技CTO伍华林博士则分享了基于MLIR与LLVM的OpenCL与Triton编译器设计,助力Ventus支持现代AI算子开发。工程师孔荔进一步介绍了工具链的整体架构,涵盖编译、运行时、驱动与仿真器等模块,已通过OpenCL-CTS等测试验证。

教程最后设置了动手实践环节。硕士生王俣翰通过Jupyter交互环境演示了如何部署Ventus环境并运行OpenCL程序;硕士生陈笑川则展示了基于VCU128 FPGA的硬件验证平台,成功运行了向量加法、高斯消元和MNIST推理等关键测试,完成了从仿真到实际硬件加速的全流程验证。

本次教程是清华大学集成电路学院在RISC-V与GPGPU交叉领域系统性研究能力的一次集中展示,标志着我国在开源高性能计算架构方面取得了重要进展,为全球开源硬件社区注入了新的活力。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4205期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
开拓者官宣召回杨瀚森!未来下放只训练不比赛?队记解析核心原因

开拓者官宣召回杨瀚森!未来下放只训练不比赛?队记解析核心原因

罗说NBA
2025-11-03 08:35:00
争议!全红婵与王伟莹第2跳明显不在同一节奏 裁判打出8分同步分

争议!全红婵与王伟莹第2跳明显不在同一节奏 裁判打出8分同步分

风过乡
2025-11-03 08:22:39
惨绝人寰!RSF屠杀震惊联合国,妇产医院460人被杀,土壤都被染红

惨绝人寰!RSF屠杀震惊联合国,妇产医院460人被杀,土壤都被染红

霁寒飘雪
2025-11-02 09:25:37
谢谢翁青雅,贡献出25年年底内娱的最大笑话!

谢谢翁青雅,贡献出25年年底内娱的最大笑话!

八卦南风
2025-11-03 16:42:30
带小三产检后续:男方发朋友圈道歉,称已从律所辞职,恐将办离婚

带小三产检后续:男方发朋友圈道歉,称已从律所辞职,恐将办离婚

揽星河的笔记
2025-11-03 16:32:01
工信部突然鼓励燃油车?给燃油车补贴,释放什么信号?

工信部突然鼓励燃油车?给燃油车补贴,释放什么信号?

大道微言
2025-11-01 08:58:16
刘强东带火宿迁名菜:黄狗猪头肉搜索量增长300%

刘强东带火宿迁名菜:黄狗猪头肉搜索量增长300%

极目新闻
2025-11-03 20:13:29
黄安曝高德导航覆盖全台湾省!从广东可直导台北,跨海通道藏深意

黄安曝高德导航覆盖全台湾省!从广东可直导台北,跨海通道藏深意

行者聊官
2025-11-01 11:22:00
10岁患儿被切除6个器官迎来反转!舆论从网暴医生,转为网暴父母

10岁患儿被切除6个器官迎来反转!舆论从网暴医生,转为网暴父母

垛垛糖
2025-11-03 14:51:45
跌幅超60%!苏州昆山房价呈现大幅雪崩态势,从单价30000跌至8000

跌幅超60%!苏州昆山房价呈现大幅雪崩态势,从单价30000跌至8000

火山诗话
2025-11-02 15:24:56
墨西哥牛油果之都市长怀抱幼子被当众枪杀,曾誓言根除贩毒集团,该州4年7位市长遇害

墨西哥牛油果之都市长怀抱幼子被当众枪杀,曾誓言根除贩毒集团,该州4年7位市长遇害

红星新闻
2025-11-03 14:06:23
历经30年,世界上每台电脑都标配的技术,终于要被抛弃了……

历经30年,世界上每台电脑都标配的技术,终于要被抛弃了……

码农翻身
2025-11-03 08:58:46
太辣眼:64岁高市早苗的“身体外交”!

太辣眼:64岁高市早苗的“身体外交”!

仕道
2025-11-03 10:11:14
美国前总统奥巴马狠批特朗普“无法无天”:政府关门仍决定翻修白宫,“天天像过万圣节 只有恶作剧没有糖果”

美国前总统奥巴马狠批特朗普“无法无天”:政府关门仍决定翻修白宫,“天天像过万圣节 只有恶作剧没有糖果”

鲁中晨报
2025-11-03 10:55:01
全红婵夺得冠军不可怕!可怕的是她赛后采访说的那段话!

全红婵夺得冠军不可怕!可怕的是她赛后采访说的那段话!

乐悠悠娱乐
2025-11-03 16:10:22
长沙坍塌事件中,遇难女生现场救援图片曝光!男友在身旁哭到昏厥

长沙坍塌事件中,遇难女生现场救援图片曝光!男友在身旁哭到昏厥

火山诗话
2025-11-03 13:29:00
两弹一星元勋姚桐斌,被一闷棍结束生命,年仅46岁

两弹一星元勋姚桐斌,被一闷棍结束生命,年仅46岁

霹雳炮
2025-11-01 21:05:52
上海赘婿带小三产检后续:原配照片曝光,比小三漂亮多了

上海赘婿带小三产检后续:原配照片曝光,比小三漂亮多了

江山挥笔
2025-11-03 14:47:10
确实,今年基本上是降薪20%左右~

确实,今年基本上是降薪20%左右~

老庄聊薪水
2025-11-03 07:07:07
中共中央批准,开除王建军党籍

中共中央批准,开除王建军党籍

新京报
2025-11-03 11:16:46
2025-11-03 21:51:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12137文章数 34695关注度
往期回顾 全部

教育要闻

李亚栋院士:降低高考难度,尤其是数学与物理

头条要闻

郑丽文公开表态愿意访问大陆100次:要来解决2个问题

头条要闻

郑丽文公开表态愿意访问大陆100次:要来解决2个问题

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

旅游
亲子
本地
健康
军事航空

旅游要闻

摩旅湘西,偶遇湖南省最大的少数民族聚居安置区,感受却五味杂陈

亲子要闻

孩子内裤上有这样的东西, 宝妈不要急着洗!

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

超声探头会加重受伤情况吗?

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版