网易首页 > 网易号 > 正文 申请入驻

Llama提速500%!谷歌美女程序员手搓矩阵乘法内核

0
分享至


新智元报道

编辑:alan

【新智元导读】近日,天才程序员Justine Tunney发推表示自己更新了Llamafile的代码,通过手搓84个新的矩阵乘法内核,将Llama的推理速度提高了500%!

谷歌的美女程序员,将Llama的推理速度提高了500%!

近日,天才程序员Justine Tunney发推表示自己更新了Llamafile的代码,


她重写了84个新的矩阵乘法内核,使得Llamafile可以更快地读取提示和图像。

与llama.cpp相比,新的Llamafile在CPU上的推理速度提升了30%到500%。


其中,ARMv8.2+(如RPI 5)、Intel(如Alderlake)和AVX512(如Zen 4)计算机的改进最为显著。

另外,对于适合L2缓存的矩阵,新的内核比MKL快2倍!


Justine Tunney表示:负责MKL的大家,你们有事做了!

毕竟,由微软,英特尔,TI,AMD,HPE,Oracle,Huawei,Facebook,ARM和National Science Foundation资助的BLIS,作为最强大的开源BLAS,输了就太没面子了!

Any time somebody outside Intel beats MKL by a nontrivial amount, I report it to the MKL team. It is fantastic for any open-source project to get within 10% of MKL... [T]his is why Intel funds BLIS development. 每当英特尔以外的人以不小的幅度击败MKL时,我都会向MKL团队报告。对于任何开源项目,超过MKL 10%以内就已经非常厉害了......这就是英特尔为BLIS开发提供资金的原因。

跨平台的「羊驼」

Llamafile作为一个本地LLM项目,诞生于去年11月,由Justine Tunney与Mozilla团队合作开发。

他们使用Cosmopolitan Libc,将llama.cpp打包为一个跨平台的单个二进制文件,让「羊驼」可以在基于AMD64和ARM64的六个操作系统上运行。

而且在GPU短缺的情况下,Llamafile可以不需要昂贵的CUDA内核,——家里的旧CPU,只要性能还行,再加一点RAM就足够了,很好地保护了大家的钱包。


项目地址:https://github.com/Mozilla-Ocho/llamafile/releases

Llamafile代码可以在GitHub上找到,使用C++编写的,没有外部依赖,可以在Linux、macOS、Windows、FreeBSD,甚至SerenityOS上编译。

而且,Justine Tunney并没有就此止步。她已经在努力支持新的数据格式,比如FP16和BF16,以进一步减少内存占用,——她甚至在Raspberry Pi上成功运行了TinyLlama!

性能提升

老惠普

Justine Tunney最开始尝试LLM时,用的是下面这台简陋的HP主机,运行Alpine,机械硬盘、慢速RAM、AVX2处理器、没有 GPU。


HP Intel® Core™ i9-9900 ($439) w/ 2200 MT/s RAM

出于对llama.cpp的喜爱,Justine Tunney与人合作为其引入了mmap()支持,使得权重可以立即加载,只使用原来一半的RAM。

之后,Justine又花了很长的时间来优化代码,让我来看一下改进后的效果:


在Skylake上,llamafile实现了2倍的加速,llama.cpp也获得了50%的性能提升。

到目前为止,Justine为q8_0、f16、q4_1、q4_0和f32数据类型编写了优化的内核。

树莓派

最新版的树莓派不仅提升了主频,还引入了对ARMv8.2 dotprod 和fp16算术ISA的支持,仅这两个功能就让llama.cpp在f16权重上实现了10倍性能提升。


因为树莓派的两个CPU都有32个矢量寄存器,Justine使用为AVX512编写的内核,使推理速度又提高了2倍。


不过值得注意的是,新的ARMv8.2 fp16 ISA可能会引入比平时更多的错误,因为它会导致llamafile使用fp16。因此,Q8_0权重实际上的效果更好,因为它使用dotprod ISA。

游戏主机

在Alderlake CPU上,Justine将float16的性能提高了五倍。


与ARMv8.2不同,Alderlake能够在不引入舍入错误的情况下做到这一点,因为内核在内部使用float32计算类型。

另外让人吃惊的是,当涉及到小工作负载时,这个芯片甚至能够在CUDA开始之前就完成任务。


苹果

Mac Studio,作为llama.cpp开发人员最关心的硬件平台,想要在这里提升性能比较困难。


另一个问题则是苹果自身的封闭环境:

M2 Ultra将RAM DIMM放在了CPU内部,使得token生成等受延迟限制的操作速度更快,因为CPU不再需要打「长途电话」了。


我们可以看到,与便宜得多的英特尔计算机相比,M2 Ultra仅通过ARM ISA暴露了30%的计算能力。

如果开发者想访问更多内容,则需要通过苹果的专有框架,例如Metal和Accelerate。

AMD

虽然llamafile非常关心帮助缺乏GPU的人,但也为另外1%的人提供了一流的体验。


AMD Ryzen Threadripper PRO 7995WX,通过花费10,000美元左右,你会得到96个基于Zen4架构的AVX512内核。

尽管价格只有M2 Ultra的两倍,但7995WX x86 ISA提供的原始计算能力是M2 Ultra ARM ISA的7倍,token生成速度几乎相同,这可能要归功于384M的L3缓存。


通过Justine的优化,现在可以在Zen4上以2.8倍的速度运行LLaMA。

天才程序员


Justine Tunney出生于1984年,14岁就开始帮别的黑客开发软件,当时的绰号是「Oogle」。

我们来浅浅地看一下她这些年的一些工作:

RedBean

一个web服务器,神奇的是可以跨平台在6种操作系统上运行!


这可不是Java那种叠了一层虚拟机的机制,Justine开发了一种叫做APE(Acctually Portable Executbale)的文件格式,可以在任何x86-64的操作系统上执行。

「一次编译,处处运行」——Java:嗯?这不是我吗?

cosmopolitan libc

为了能够跨平台调用外部程序,比如c标准库,Justine直接手搓了一个libc,在各种平台上实现了所有需要的核心操作:


看一下上面的工作量,实在是太炸裂了,而且一般人就算想肝,没有实力也是不可能的。

sectorLisp

仅有512个字节,最小的Lisp实现,可通过BIOS引导启动:


除了上面这几个,还有诸如Blinkenlights、RoseHub等天才项目,这里不再一一列举。

对于这番成就,有网友感叹道:


Every time I read something by Justine Tunney, I am continually reminded of my mediocrity.

对于之前提到的mmap工作,网友评价:「有Fabrice Bellard之风」。

Justine Tunney is a true genius. Similar to Fabrice Bellard, a truly unique mind. Justine or Fabrice are the true 10x engineers, their output is world class and they are much rarer than any hiring article about these gurus want us to believe. With Justine's work, I feel would need to be more than a 1x engineer myself just to find the time to play with all of her creations.

2012年,Justine Tunney开始在谷歌工作,并负责了一些知名项目的关键部分。


比如大名鼎鼎的TensorFlow,Tunney为这个项目做出了许多贡献,包括用于存储数据的摘要系统。

Bazel是谷歌从Make演变而来的PB级构建系统,Tunney的主要贡献是下载器代码部分,用于自动化运营商级公共工件传输。


Nomulus是一项用于管理顶级域名的服务,是谷歌的第一个开源生产服务。Tunney负责为其编写注册表数据托管系统。

参考资料:

https://twitter.com/JustineTunney/status/1774621341473489024

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
落寞的背影!泰山3:1大胜后,唯有2人格外失神,崔康熙已明确表态

落寞的背影!泰山3:1大胜后,唯有2人格外失神,崔康熙已明确表态

话体坛
2024-05-01 02:00:57
我国海军实力究竟多强?美智库预测:2030年中国海军或将反超美国

我国海军实力究竟多强?美智库预测:2030年中国海军或将反超美国

乐阳聊军事
2024-04-29 10:34:50
24岁小伙约45岁大妈开房,偷拍整个过程,大妈:一辈子都会有阴影

24岁小伙约45岁大妈开房,偷拍整个过程,大妈:一辈子都会有阴影

青史录
2023-09-19 19:03:40
体内有肺结节的人,尽量少吃4种“发物”,忍住不吃就是赢

体内有肺结节的人,尽量少吃4种“发物”,忍住不吃就是赢

旧梦初醒已千年
2024-02-01 22:02:30
扎心了!山东34岁大龄剩女相亲看中年薪50万上海剩男,被嫌弃太老

扎心了!山东34岁大龄剩女相亲看中年薪50万上海剩男,被嫌弃太老

狐哥讲动物
2024-04-30 11:34:48
内鬼开始下手了?当年颠覆苏联手法在中国重现,蹊跷事情接连发生

内鬼开始下手了?当年颠覆苏联手法在中国重现,蹊跷事情接连发生

昕梦倾城
2024-04-12 12:04:00
印度网友:如果战争爆发,中国真的有可能在2天内到达德里吗?

印度网友:如果战争爆发,中国真的有可能在2天内到达德里吗?

青年的背包
2024-04-30 12:06:06
河南女子电线塔跳下身亡后续:通报来了 同村人爆内幕 果然有情况

河南女子电线塔跳下身亡后续:通报来了 同村人爆内幕 果然有情况

鋭娱之乐
2024-04-30 14:57:00
两小时卖光两年订单,董宇辉登顶抖音带货榜第一

两小时卖光两年订单,董宇辉登顶抖音带货榜第一

电商报APP
2024-04-29 14:28:18
《城中之城》接近尾声了,各个人物评价。最烦人:1.陶无

《城中之城》接近尾声了,各个人物评价。最烦人:1.陶无

娱乐八卦木木子
2024-04-30 23:37:47
经过我不断被喷之后发现,支持哈、伊、俄的大体应该是同一群人!

经过我不断被喷之后发现,支持哈、伊、俄的大体应该是同一群人!

翻开历史和现实
2024-04-27 15:59:22
陈刚:北大博士,后来成为全国最年轻的省委书记,如今主政青海

陈刚:北大博士,后来成为全国最年轻的省委书记,如今主政青海

慢慢瑜伽吧
2024-05-01 07:15:40
大S这下彻底崩溃了,具俊晔亏了500万,汪小菲:亏钱别打我主意

大S这下彻底崩溃了,具俊晔亏了500万,汪小菲:亏钱别打我主意

归来老友
2024-04-30 14:14:06
NBA现役6大垃圾合同球员

NBA现役6大垃圾合同球员

元爸体育
2024-04-30 16:58:28
在单位,男女同事偷搞暧昧,你以为藏得很深,其实别人早就发现了

在单位,男女同事偷搞暧昧,你以为藏得很深,其实别人早就发现了

户外阿崭
2024-04-30 15:10:38
长城懵了!全新普拉多上市一小时预售5000辆,目标不只是坦克700

长城懵了!全新普拉多上市一小时预售5000辆,目标不只是坦克700

户外小阿隋
2024-04-30 21:50:17
神奇!没卖李炎哲时广州仅排第10,卖了台柱子后赛季CBA排名第8

神奇!没卖李炎哲时广州仅排第10,卖了台柱子后赛季CBA排名第8

篮球侍郎
2024-04-30 22:22:12
中方正式宣布出手,向波音空客下达“逐客令”,中方态度让人害怕

中方正式宣布出手,向波音空客下达“逐客令”,中方态度让人害怕

博文聊世界
2024-04-30 17:06:21
这些随意涂抹的画稿,竟是白石老人创作的源头!

这些随意涂抹的画稿,竟是白石老人创作的源头!

南方都市报
2024-04-27 19:24:22
崔永元喊话罗永浩卖骗子产品?交个朋友直播间刚回应

崔永元喊话罗永浩卖骗子产品?交个朋友直播间刚回应

i黑马
2024-04-30 12:25:35
2024-05-01 09:56:49
新智元
新智元
AI产业主平台领航智能+时代
10977文章数 65461关注度
往期回顾 全部

科技要闻

余承东卸任华为终端CEO 新任命为董事长

头条要闻

牛弹琴:因为去了趟中国 马斯克被印度骂惨了

头条要闻

牛弹琴:因为去了趟中国 马斯克被印度骂惨了

体育要闻

穆雷,绝杀了一个时代

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

查道炯:中国经济的外部挑战与应对思考

汽车要闻

预售2.89-3.49万 奔腾小马正式开启预售

态度原创

家居
本地
亲子
旅游
公开课

家居要闻

心之所栖 黑白灰色系打造设计专属感

本地新闻

食味印象 | 潍坊:碳水脑袋的人间乐园

亲子要闻

重视乖小孩的青春期叛逆

旅游要闻

五一大雨,浇灭了多少旅游城市的心气?

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版