网易首页 > 网易号 > 正文 申请入驻

内存减少3%-7%!谷歌提出用于编译器优化的机器学习框架 MLGO

0
分享至

MLGO 使用强化学习训练神经网络来作决策,是一种用机器学习策略取代复杂的启发式方法。作为一个通用的工业级框架,它将更深入、更广泛应用于更多环境,不仅仅在内联和寄存器分配。

作者 | 钱云迪、Mircea Trofin

编译 | 刘冰一

编辑 | 陈彩娴

现代计算机诞生,如何编译更快、更小的代码问题随之出现。

编译优化是成本收益比最高的优化手段,更好的代码优化可以显著降低大型数据中心应用程序的操作成本。编译代码的大小对于部署在安全引导分区上的移动和嵌入式系统或软件来说是至关重要的,因为编译后的二进制文件必须符合严格的代码大小预算。随着这一领域的进步,越来越复杂的启发式方法严重挤压有限的系统空间,阻碍了维护和进一步的改进。

最近的研究表明,机器学习可以通过用机器学习策略取代复杂的启发式方法,在编译器优化中释放更多的机会。然而,在通用的、行业级编译器中采用机器学习策略仍然是一个挑战。

为了解决这个问题,谷歌两位高级工程师钱云迪、Mircea Trofin 提出了“MLGO,一个机器学习指导的编译器优化框架”,这是第一个工业级的通用框架,用于将机器学习技术系统地集成到 LLVM(一个开源的工业编译器基础设施,在构建关键任务、高性能软件时无处不在)中。

论文地址:https://arxiv.org/pdf/2101.04808.pdf

MLGO 使用强化学习训练神经网络来做出决策,以取代 LLVM 中的启发式算法。根据作者描述,LLVM 上有两处 MLGO 优化:

1)通过内联减少代码量;

2)通过寄存器分配提高代码性能。

这两种优化都可以在 LLVM 资源库中获得,并已在生产中部署。

1

MLGO是如何工作的?

内联(Inlining)有助于通过做出能够删除冗余代码的决策来减少代码大小。在下面的示例中,调用者函数foo()调用被调用者函数bar(),而bar()本身又调用了baz()。内联这两个调用站点将返回一个简单的foo()函数,该函数将减小代码大小。

图注:内联通过删除冗余代码来减少代码大小

在实际代码中,有成千上万的函数相互调用,因此构成了一个调用图(Call graph)。在内联阶段,编译器遍历(traverses)所有调用者-被调用者对的调用图,并决定是否内联一个调用者-被调用者对。这是一个连续的决策过程,因为以前的内联决策会改变调用图,影响后面的决策和最终的结果。在上面的例子中,调用图foo()bar()baz()需要在两条边上做出“yes”的决定,以使代码大小减少。

在MLGO之前,内联/非内联的决定是由启发式方法做出的,随着时间的推移,这种方法越来越难以改进。MLGO用一个机器学习模型代替了启发式方法。在调用图的遍历过程中,编译器通过输入图中的相关特征(即输入)来寻求神经网络对是否内联特定的调用者-被调用者对的建议,并按顺序执行决策,直到遍历整个调用图为止。

图注:内联过程中MLGO的图示,“ # bbs”、“ # users”和“ callsite height”是调用者-被调用者对特性的实例

MLGO 使用策略梯度和进化策略算法对决策网络进行 RL 训练。虽然没有关于最佳决策的基本事实,但在线 RL 使用经过培训的策略在培训和运行汇编之间进行迭代,以收集数据并改进策略。特别是,考虑到当前训练中的模型,编译器在内联阶段咨询模型,以做出内联/不内联的决策。编译完成后,它产生一个顺序决策过程的日志(状态、行动、奖励)。然后,该日志被传递给训练器以更新模型。这个过程不断重复,直到得到一个满意的模型为止。

图注:训练期间的编译器行为——编译器将源代码foo.cpp编译成对象文件foo.o,并进行了一系列的优化,其中一个是内联通道。

训练后的策略被嵌入到编译器中,在编译过程中提供内联/非内联的决策。与训练场景不同的是,该策略不生成日志。TensorFlow 模型被嵌入 XLA AOT ,它将模型转换为可执行代码。这避免了TensorFlow运行时的依赖性和开销,最大限度地减少了在编译时由ML模型推理引入的额外时间和内存成本。

图注:生产环境中的编译器行为

我们在一个包含30k 模块的大型内部软件包上培训了大小内联策略。训练后的策略在编译其他软件时可以推广,并减少了3% ~ 7% 的时间和内存开销。除了跨软件的通用性之外,跨时间的通用性也很重要,软件和编译器都在积极开发之中,因此训练有素的策略需要在合理的时间内保持良好的性能。我们在三个月后评估了该模型在同一组软件上的性能,发现只有轻微的退化。

图注:内联大小策略大小减少百分比,x 轴表示不同的软件,y 轴表示减小的百分比。“Training”是训练模型的软件,“InfraX”是不同的内部软件包。

MLGO 的内联换大小训练已经在 Fuchsia 上部署,Fuchsia 是一个通用的开源操作系统,旨在为不同的硬件和软件生态系统提供动力,其中二进制大小是关键。在这里,MLGO 显示 C++ 翻译单元的大小减少了6.3%。

2

寄存器分配

作为一个通用框架,我们使用 MLGO 来改进寄存器分配(Register allocation)通道,从而提高 LLVM 中的代码性能。寄存器分配解决了将物理寄存器分配给活动范围(即变量)的问题。

随着代码的执行,不同的活范围在不同的时间完成,释放出的寄存器供后续处理阶段使用。在下面的例子中,每个 "加法 "和 "乘法 "指令要求所有操作数和结果都在物理寄存器中。实时范围x被分配到绿色寄存器,并在蓝色或黄色寄存器的实时范围之前完成。x 完成后,绿色寄存器变得可用,并被分配给活范围t。

在代码执行过程中,不同的活范围在不同的时间完成,释放出的寄存器供后续处理阶段使用。在下面的例子中,每个“加法”和“乘法”指令要求所有操作数和结果都在物理寄存器中。活动范围 x 被分配到绿色寄存器,并在蓝色或黄色寄存器的实时范围之前完成。x 完成后,绿色寄存器变得可用,并被分配给活范围 t 。

图注:寄存器分配示例

当分配活动范围 q 时,没有可用的寄存器,因此寄存器分配通道必须决定哪个活动范围可以从其寄存器中“驱逐”,以便为 q 腾出空间。这被称为“现场驱逐”问题,是我们训练模型来取代原始启发式算法的决策。在这个例子中,它将 z 从黄色寄存器中驱逐出去,并将其赋给 q 和 z 的前半部分。

我们现在考虑实际范围 z 的未分配的下半部分。我们又有一个冲突,这次活动范围 t 被驱逐和分割,t 的前半部分和 z 的最后一部分最终使用绿色寄存器。Z 的中间部分对应于指令 q = t * y,其中没有使用 z,因此它没有被分配给任何寄存器,它的值存储在来自黄色寄存器的堆栈中,之后被重新加载到绿色寄存器中。同样的情况也发生在 t 上。这给代码增加了额外的加载/存储指令,降低了性能。寄存器分配算法的目标是尽可能地减少这种低效率。这被用作指导 RL 策略训练的奖励。

与内联大小策略类似,寄存器分配(regalloc-for-Performance)策略在 Google 内部一个大型软件包上进行了培训,并且可以在不同的软件上通用,在一组内部大型数据中心应用程序上每秒查询次数(QPS)提高了0.3% ~ 1.5% 。QPS 的改进在部署后持续了几个月,显示该模型的可推广性。

3

总结

MLGO使用强化学习训练神经网络来作决策,是一种机器学习策略取代复杂的启发式方法。作为一个通用的工业级框架它将更深入、更广泛应用于更多环境,不仅仅在内联和寄存器分配。

MLGO可以发展为:1)更深入,例如增加更多的功能,并应用更好的 RL 算法;2)更广泛,可应用于内联和重新分配之外的更多优化启发式方法。

作者对 MLGO 能够为编译器优化领域带来的可能性充满热情,并期待着它的进一步采用和研究界未来的贡献。

https://ai.googleblog.com/

github:https://github.com/google/ml-compiler-opt

demo:https://github.com/google/ml-compiler-opt/blob/main/docs/demo/demo.md

更多内容,点击下方关注:

扫码添加 AI 科技评论 微信号,投稿&进群:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
同样饰演继母,41岁赵柯和45岁陈乔恩一对比,才明白什么叫笑面虎

同样饰演继母,41岁赵柯和45岁陈乔恩一对比,才明白什么叫笑面虎

剧观花开
2024-06-12 12:27:27
“白天高温晚上突然暴风雨”最近北方天气这是怎么了?

“白天高温晚上突然暴风雨”最近北方天气这是怎么了?

北青网-北京青年报
2024-06-13 20:05:06
都是花言巧语,别再“尬吹”毛东东了

都是花言巧语,别再“尬吹”毛东东了

一枚小吏
2024-06-13 09:44:46
中俄外长会面后,24小时内,俄罗斯宣布,和中方“撇干净关系”?

中俄外长会面后,24小时内,俄罗斯宣布,和中方“撇干净关系”?

小影的娱乐
2024-06-13 21:55:53
发现妻子出轨第5天,我麻利做完财产分割,微笑祝福他俩白头偕老

发现妻子出轨第5天,我麻利做完财产分割,微笑祝福他俩白头偕老

星辰故事屋
2024-06-05 12:18:58
王思聪亲自否认黄一鸣的爆料:根本就没有的事

王思聪亲自否认黄一鸣的爆料:根本就没有的事

金牌娱乐
2024-06-13 09:02:52
提前“开门迎客”!什么信号?

提前“开门迎客”!什么信号?

中国基金报
2024-06-13 16:17:55
俄罗斯攻击型核潜艇抵达古巴,距美国180公里,俄媒称“导弹几秒内就可打到美国”

俄罗斯攻击型核潜艇抵达古巴,距美国180公里,俄媒称“导弹几秒内就可打到美国”

极目新闻
2024-06-13 12:06:38
唯一没有资格举办奥运会的世界强国,奥委会至今“一票否决”

唯一没有资格举办奥运会的世界强国,奥委会至今“一票否决”

小豆豆赛事
2024-06-13 07:45:35
泰晤士:图赫尔想签吕迪格曼联买不起,有教练震惊曼联开出低工资

泰晤士:图赫尔想签吕迪格曼联买不起,有教练震惊曼联开出低工资

直播吧
2024-06-13 12:38:10
普京还没踏上访朝飞机,金正恩率先发来贺电,中俄朝有件大事要干

普京还没踏上访朝飞机,金正恩率先发来贺电,中俄朝有件大事要干

说天说地说实事
2024-06-13 15:48:07
婚礼上,大姑屏幕播放了新娘和她13个男闺蜜的“单身派对”

婚礼上,大姑屏幕播放了新娘和她13个男闺蜜的“单身派对”

点众文学
2024-06-08 10:00:05
已做牺牲准备!央视曝光东部战区激烈对峙, 外机亮导弹被轰6逼退

已做牺牲准备!央视曝光东部战区激烈对峙, 外机亮导弹被轰6逼退

影孖看世界
2024-06-11 20:33:13
苹果watchOS 11史诗级更新:Apple Watch终于可以自动监测睡眠了

苹果watchOS 11史诗级更新:Apple Watch终于可以自动监测睡眠了

快科技
2024-06-13 21:00:08
6月13日,森林北深夜发文:已报案,她和汪峰的感情遭到巨大压力

6月13日,森林北深夜发文:已报案,她和汪峰的感情遭到巨大压力

花花lo先森
2024-06-13 13:32:47
重庆中考遇冷,考点外围冷清至极,极度罕见!

重庆中考遇冷,考点外围冷清至极,极度罕见!

白浅娱乐聊
2024-06-13 21:00:53
 上海76岁爷叔花光养老金追"女神" 结婚3次被分走3套房

上海76岁爷叔花光养老金追"女神" 结婚3次被分走3套房

鲁中晨报
2024-06-12 19:15:16
孙楠冲上热搜!身高178,体重130斤引爆笑,坐韩红对面瘦到认不出

孙楠冲上热搜!身高178,体重130斤引爆笑,坐韩红对面瘦到认不出

山野下
2024-06-12 08:33:54
新一轮失业潮来了?四川国企通知高管回家待岗,打工人出路在哪

新一轮失业潮来了?四川国企通知高管回家待岗,打工人出路在哪

时尚的弄潮
2024-06-13 21:12:02
泰勒-斯威夫特在安菲尔德开演唱会,将给利物浦带来1000万镑

泰勒-斯威夫特在安菲尔德开演唱会,将给利物浦带来1000万镑

直播吧
2024-06-13 20:29:12
2024-06-14 06:32:49
AI科技评论
AI科技评论
点评学术,服务AI
6513文章数 20573关注度
往期回顾 全部

科技要闻

小红书员工仅1/5工龄满2年 32岁就不让进了

头条要闻

上海楼市新政后有业主熬夜卖房:比之前最低价高360万

头条要闻

上海楼市新政后有业主熬夜卖房:比之前最低价高360万

体育要闻

乔丹最想单挑的男人走了

娱乐要闻

森林北报案,称和汪峰的感情遭受压力

财经要闻

私募大佬孙强:中国为什么缺少耐心资本

汽车要闻

升级8155芯片 新款卡罗拉锐放售12.98-18.48万

态度原创

亲子
手机
数码
艺术
公开课

亲子要闻

3岁前做好这三件事,能让孩子更聪明

手机要闻

定价4999元,荣耀Magic V Flip要成为搅动折叠屏市场的鲶鱼

数码要闻

三星 Galaxy Watch 首款 FE 产品正式发布,199 美元起

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版