网易首页 > 网易号 > 正文 申请入驻

一文读懂GPU虚拟化:除了直通、全虚拟化 (vGPU),还有谁?

0
分享至

大家伙,我是老猫,今天我们来聊聊GPU虚拟化。

随着AI、加密货币等技术的发展,GPU在市场上“一卡难求”,这也导致GPU售价非常昂贵,而且供货周期也不稳定。

对于有GPU需求的企业用户,不但需要思考GPU卡的选型,同时需要考虑怎样尽可能高效利用GPU资源。为了提高GPU资源利用率,很多人选择对GPU进行虚拟化。



当然,除了提升资源利用率,GPU虚拟化还可以提供了良好的隔离性,从而确保虚拟环境之间的安全和独立性。另外,通过GPU虚拟化,用户还可以根据应用程序的需求动态调整虚拟GPU的计算和显存资源,实现资源的弹性扩展。

今天我们就详细聊下GPU的虚拟化技术。

▉GPU虚拟化的分类

相比于CPU虚拟化,GPU虚拟化人们了解的并不多。

目前,在GPU虚拟化大类上一般分为三种:软件模拟、直通独占(类似网卡独占、显卡独占)、直通共享(如vGPU、MIG)

下面我们来具体看下每一种的特点。

第一种,软件模拟(eg sGPU), 又被叫半虚拟化。这种方式主要通过软件模拟来完成,也就是大部分的KVM在用,主要原理就是在Host操作系统层面上建立一些比较底层的API,让Guest看上去好像就是真的硬件一样。

这种方式的优点是比较灵活,而且并不需要有实体GPU,当然没有实体GPU的缺点就很明显了,模拟出来的东西运行比较慢。另外就是这个方式并没有官方研发,因此产品质量肯参差不齐。软件模拟虚拟化就不讲了,因为真实场景太少,做做实验还将就用,几乎没法用在生产环境,毕竟性能损失太多。

第二种,直通独占 (pGPU) 。直通是最早出现,即技术上最简单和成熟的方案。直通主要是利用PCIe Pass-through技术,将物理主机上的整块GPU显卡直通挂载到虚拟机上使用,与市场网卡直通的原理类似,但是这种方式需要主机支持IOMMU。



因为直通方式的性能损耗最小,各大公用云厂商广泛采用直通模式,但直通方式相当于虚拟机独享GPU,因此硬件驱动无需修改。另外因为直通模式没有对可支持的GPU数量做限制,也没有对GPU功能性做阉割,因此大多数功能可以在直通模式下无修改支持。

GPU 直通的缺点是一张GPU卡不能同时直通给多个虚拟机使用,相当于虚拟机独占了GPU卡。如果多个虚拟机需要同时使用GPU,需要在服务器中安装多块GPU卡,分别直通给不同的虚拟机使用。而且直通GPU的虚拟机不支持在线迁移。

为了应对GPU直通不能共享GPU的限制,第三种方式直通共享的虚拟化方式出现了。直通共享在技术上分类叫全虚拟化 。实现原理是物理GPU虚拟化为多个虚拟机GPU,每个虚拟GPU直接分配给虚拟机使用,通过软件调度的方式在Host与计算机的Guest之间提供一个中间设备来允许Guest虚拟机访问Host中的物理GPU。

GUP直通共享方式是目前GPU厂商主推的技术趋势,接下来我们就详细介绍的下直通共享虚拟化这方面的内容。

▉不同GPU直通技术有何区别?

在本文开头介绍过,GPU全虚拟化的实现原理是将物理GPU虚拟化为多个虚拟机GPU,每个虚拟GPU直接分配给虚拟机使用。

目前,GPU全虚拟化技术先后有SR-IOV(开源技术) ,API转发、MPS还有vGPU 、MIG等,下面我们就详细看下。

第一种:PCIe SR-IOV

前文我们提到了GPU直通,这种通过PCIe直通GPU的方式只能支持1:1,不支持GPU资源分隔。于是为了解决这个问题,PCIe SR-IOV(Single Root Input/Output Virtualization)出现。

PCIe SR-IOV(Single Root Input/Output Virtualization)是一种更高级的虚拟化技术,允许一个PCIe设备在多个虚拟机之间共享,同时保持较高的性能。



PCIe SR-IOV通过在物理设备(Physical Functions,PF)上创建多个虚拟功能(Virtual Functions,VF)来实现的,每个虚拟功能可以被分配给一个虚拟机,让虚拟机直接访问和控制这些虚拟功能,从而实现高效的I/O虚拟化。基于PCIe SR-IOV的GPU虚拟化方案,本质是把一个物理GPU显卡设备(PF)拆分成多份虚拟(VF)的显卡设备,而且VF 依然是符合 PCIe 规范的设备。核心架构如下图:

PCIe SR-IOV的有点就是真正实现了真正实现了1:N,一个PCIe设备提供给多个VM使用;但缺点是灵活性较差,无法进行更细粒度的分割与调度;并且不支持热迁移。

第二种:API转发

在苦等PCIe SR-IOV期间,业界出现了基于API转发的GPU虚拟化方案。API转发分为被调方和调用方,两方对外提供同样的接口(API),被调方API实现是真实的渲染、计算处理逻辑,而调用方API实现仅仅是转发,转发给被调方。其核心架构示意如下图:

在GPU API层的转发,业界有针对OpenGL的AWS Elastic GPU,OrionX,有针对CUDA的腾讯vCUDA,瓦伦西亚理工大学rCUDA;在GPU驱动层的转发,有针对CUDA的阿里云cGPU和腾讯云pGPU。



API转发方案的优点是实现了1:N,并且N是可以自行设定,灵活性高。同时不依赖GPU硬件厂商。但缺点复杂度极高。同一功能有多套 API(渲染的 DirectX 和 OpenGL),同一套 API 还有不同版本(如 DirectX 9 和 DirectX 11),兼容性非常复杂。并且功能不完整,如不支持媒体编解码,并且,编解码甚至还不存在业界公用的 API。

第三种:MPS方案

除了PCIe SR-IOV,Nvidia还推出了MPS方案,这是一种算力分割的软件虚拟化方案。该方案和PCIe SR-IOV方案相比,配置很灵活,并且和docker适配良好。

MPS基于C/S架构,配置成MPS模式的GPU上运行的所有进程,会动态的将其启动的内核发送给MPS server,MPS Server借助CUDA stream,实现多个内核同时启动执行。除此之外,MPS还可配置各个进程对GPU的使用占比。

但该方案的一个问题在于,各个服务进程依赖MPS,一旦MPS进程出现问题,所有在该GPU上的进程直接受影响,需要使用Nvidia-smi重置GPU 的方式才能恢复。

第四种:MIG技术

也属于全虚拟化技术。MIG是Nvidia 搞出的新技术,可将单个 GPU 分区为最多7个完全的隔离vGPU实例,每个实例均完全独立于各自的高带宽显存、缓存和计算核心。



减少资源争抢的延时,提高物理 GPU 利用率。但可惜目前仅昂贵和国内禁售的NVIDIA A100 GPU支持。

由于MIG 是基于 NVIDIA Ampere GPU 架构引入的,仅有 Ampere 架构的 GPU 型号才能使用 MIG 方式。

第五种:Time-sliced GPU

这种方式是把本来再空间上并行(时间独占)的成百上千的GPU流水线进行的时间维度的分割和共享。各个GPU厂家都有类似的技术。Time-sliced 切分方式是按时间切分 GPU,每个 vGPU 对应物理 GPU 一段时间内的使用权。

在此方式下,vGPU 上运行的进程被调度为串行运行,当有进程在某个 vGPU 上运行时,此 vGPU 会独占 GPU 引擎,其他 vGPU 都会等待。所有支持 vGPU 技术 GPU 卡都能支持 Time-sliced 的切分方式。

好的,就汇总到这里吧,后续工作中,我们还继续关注GPU虚拟化技术和方案,来解决 GPU利用率低的问题,欢迎大家持续关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越闹越大!卫龙一天道歉两次,网友:它把缺的都加到国外去了

越闹越大!卫龙一天道歉两次,网友:它把缺的都加到国外去了

猫小狸同学
2024-05-25 20:05:02
詹妮弗-洛佩兹黄色短卫衣+工装裤+运动鞋+手袋+太阳镜时尚休闲

詹妮弗-洛佩兹黄色短卫衣+工装裤+运动鞋+手袋+太阳镜时尚休闲

白宸侃片
2024-05-25 17:08:59
还得是亲爸!汪小菲决定接送俩娃上下学,俩娃再也不会厌学了!

还得是亲爸!汪小菲决定接送俩娃上下学,俩娃再也不会厌学了!

娱圈小愚
2024-05-23 10:38:14
1939年,阿部规秀战死,日军大惊:有没有一个卖花生的在看澡堂?

1939年,阿部规秀战死,日军大惊:有没有一个卖花生的在看澡堂?

让时间说真话
2024-05-24 12:46:45
客人餐后把豆芽都吊死在锅边,将蒜苔搭九层妖塔,这是什么造型?

客人餐后把豆芽都吊死在锅边,将蒜苔搭九层妖塔,这是什么造型?

校长侃财
2024-05-25 12:32:51
中国GDP已经滑落到美国的59%了,这是怎么了?

中国GDP已经滑落到美国的59%了,这是怎么了?

老道闲聊
2024-05-07 11:54:26
解放军“围台”演习开始后,日本竖起导弹发射架

解放军“围台”演习开始后,日本竖起导弹发射架

枢密院十号
2024-05-24 23:41:13
“山城骑士”又立功了!暴雨吹倒李家沱大桥上围挡,市民拍下感人一幕

“山城骑士”又立功了!暴雨吹倒李家沱大桥上围挡,市民拍下感人一幕

上游新闻
2024-05-26 12:55:09
福耀科技大学今年无法招生,曹德旺只顾盖楼忽视了引进大师

福耀科技大学今年无法招生,曹德旺只顾盖楼忽视了引进大师

上林院
2024-05-25 13:03:25
新老“台独”内讧!陈水扁威胁赖清德,不特赦就曝光绿营黑金内幕

新老“台独”内讧!陈水扁威胁赖清德,不特赦就曝光绿营黑金内幕

纵横观天下ZK
2024-05-25 14:19:49
曝演员杜旭东又帮电诈团伙拍广告,受害者发声:杜旭东骗的我好惨

曝演员杜旭东又帮电诈团伙拍广告,受害者发声:杜旭东骗的我好惨

阿桥侃娱乐
2024-05-25 11:55:11
沙俄300年的对外扩张史,证明唇亡齿寒无效?邻居就是用来欺负的

沙俄300年的对外扩张史,证明唇亡齿寒无效?邻居就是用来欺负的

高志凯频道
2024-05-24 09:05:47
乱套了!博主B太揭秘100元3个泰国榴莲冲上热搜,评论炸锅

乱套了!博主B太揭秘100元3个泰国榴莲冲上热搜,评论炸锅

手工制作阿歼
2024-05-25 12:41:25
乌军在赫尔松左岸取得重大突破!

乌军在赫尔松左岸取得重大突破!

娱宙观
2024-05-25 11:15:01
曝51岁上海主持人程雷因肝病去世,本人晒合影回应,知名者曝近况

曝51岁上海主持人程雷因肝病去世,本人晒合影回应,知名者曝近况

篮球的热爱
2024-05-24 12:11:03
1958年,一名干部斗胆问毛主席:您相信1亩地能产几万斤粮食吗?

1958年,一名干部斗胆问毛主席:您相信1亩地能产几万斤粮食吗?

南书房
2024-05-24 19:10:02
墨西哥夫妇吐槽“在中国几乎丧命的那一天”,网友笑麻了:真虎啊

墨西哥夫妇吐槽“在中国几乎丧命的那一天”,网友笑麻了:真虎啊

通文知史
2024-05-25 12:50:02
台湾艺人,有没有保持沉默的权利?

台湾艺人,有没有保持沉默的权利?

基本常识
2024-05-23 23:30:24
NBA老照片:姚明宴请穆大叔和“大猩猩”尤因,三大中锋品尝美食

NBA老照片:姚明宴请穆大叔和“大猩猩”尤因,三大中锋品尝美食

开心体育站
2024-05-24 18:46:53
8号楼被占,越南总理来访无法安排,总理怒:让她搬走,不知轻重

8号楼被占,越南总理来访无法安排,总理怒:让她搬走,不知轻重

荒沙历史
2024-05-20 10:19:01
2024-05-26 19:20:49
了不起的云计算
了不起的云计算
致力数字化转型的技术探讨
48文章数 104关注度
往期回顾 全部

科技要闻

QQ的大哥,宣布关闭!已运营28年

头条要闻

2名厅官被开除党籍 退休女厅官被指"长期搞迷信活动"

头条要闻

2名厅官被开除党籍 退休女厅官被指"长期搞迷信活动"

体育要闻

足总杯,红魔小鬼的成人礼

娱乐要闻

霍启仁求婚成功,郭晶晶要有妯娌了

财经要闻

李嘉诚,为何频频“打折卖楼”?

汽车要闻

底盘升级/首搭DM5.0混动技术 比亚迪秦L到店

态度原创

旅游
本地
房产
教育
公开课

旅游要闻

外国游客对小笼包好奇,看了20分钟后问道…

本地新闻

2024沈阳皇姑第二届半程马拉松

房产要闻

超高性价比!仁恒长天云汀价格曝光!近500套房源一次砸出!

教育要闻

父女俩一个多小时没解答出来题目,妈妈十分钟就给出了答案,真棒

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版