网易首页 > 网易号 > 正文 申请入驻

使用 IPEX-LLM 加速英特尔®至强®可扩展处理器上的大语言模型推理

0
分享至


随着生成式 AI 的蓬勃发展,有越来越多的用户希望在英特尔®至强®可扩展处理器上探索大语言模型的应用。英特尔®至强®可扩展处理器配备众多物理核心和充足的内存容量和高带宽,可以有效的支持大语言模型的工作负载需求;同时,英特尔®至强®可扩展处理器的稳定性和可靠性,可以有效保障大语言模型在企业级应用或云服务中的长时间运行。

Intel® LLM Library for PyTorch (IPEX-LLM) 是英特尔开源的大语言模型低比特优化库,可以高效的运行在英特尔®至强®可扩展处理器上。IPEX-LLM 利用第四代英特尔®至强®可扩展处理器提供的 AMX 指令集,以及一系列低比特优化,使业界流行的大语言模型得以流畅运行,体现了在英特尔®至强®可扩展处理器运行大语言模型推理的优异性价比。同时,IPEX-LLM 也无缝支持各种大语言模型社区,优化和方案,例如 Hugging Face, LangChain, LlamaIndex, vLLM, llama.cpp, ollama 等等。

1 IPEX-LLM 在第四代英特尔 ®至强 ®可扩展处理器的大语言模型推理性能

使用 IPEX-LLM 可以在第四代英特尔®至强®可扩展处理器上运行当前流行的大语言模型的推理工作。下图展示了一部分模型的实测性能数据。图 1 性能数据基于 IPEX-LLM 低比特 INT4 优化,图 2 性能数据基于 IPEX-LLM BF16 Self-Speculative Decoding 优化。测试配置为输入 1024 个 Token,批处理大小 1,性能数据为每 Token 的延迟时间。


图 1:IPEX-LLM INT4 大语言模型推理延迟


图 2:IPEX-LLM BF16 (with Self-Speculative Decoding) 大语言模型推理延迟

请参考配置和免责声明以获取配置信息。

2 在第四代英特尔 ®至强 ®可扩展处理器上搭建和运行大语言模型推理

在第四代英特尔®至强®可扩展处理器上,可以使用 IPEX-LLM 非常轻松的构建大语言模型推理能力。用户可以通过参考快速安装指南以便在第四代英特尔®至强®可扩展处理器上安装和使用 IPEX-LLM。

我们提供了很多可以在第四代英特尔®至强®可扩展处理器上运行的大语言模型示例,用户可以在合适的示例基础上快速开发大语言模型推理应用。在用 IPEX-LLM 开发大语言模型推理应用时,用户可以使用 HuggingFace Transformer 样式的 API,仅需要做最小量的更改,例如使用合适的 import 声明,以及在 from_pretrained 参数中设置 “load_in_4bit=True” 来启用 IPEX-LLM 的低比特优化。具体改动可以参考以下代码示例:

from ipex_llm.transformers import AutoModelForCausalL
model = AutoModelForCausalLM.from_pretrained('/path/to/model/', 
load_in_4bit=True).to("xpu")

模型会被自动转换为低比特并加载到执行计算工作的第四代英特尔®至强®可扩展处理器上,在这个过程中,IPEX-LLM 实现的各种基于硬件和软件的优化会被利用,以加速大语言模型的推理性能。

同样,使用 IPEX-LLM 的 BF16 Self-Speculative Decoding 也很简单。用户可以通过在加载模型时指定一个额外参数 speculative=True 来启用该功能。以下是示例代码片段:

from ipex_llm.transformers import AutoModelForCausalL
model = AutoModelForCausalLM.from_pretrained('/path/to/model/',
  optimize_model = True, 
  torch_dtype = torch.bf16,
  load_in_lowbit = “bf16”),
  torchscript = True,
  speculative=True, #use self-speculative decoding
  trust_remote_code=True, 
  use_cache = True)
inputs = tokenizer(prompt, return_tensors='pt')
input_ids = inputs.input_ids.to(model.device)
attention_mask = inputs.attention_mask.to(model.device)
output = model.generate(input_ids,
  max_new_tokens=args.n_predict,
  attention_mask=attention_mask,
do_sample=False)

在使用 BF16 Self-Speculative Decoding 时,IPEX-LLM 会在幕后自动利用低比特优化后的 INT4 小模型来加速 BF16 模型,从而提高 BF16 模型的推理速度。用户可以查看 IPEX-LLM BF16 Self-Speculative Decoding 的样例代码来获得更多信息。

性能测试

用户可以在第四代英特尔®至强®可扩展处理器上运行大语言模型的性能测试,可以参考 IPEX-LLM 提供的性能测试快速指南 ,以正确的准备硬件和软件环境,以及调整测试脚本以满足用户的测试场景。在执行性能测试前,我们推荐用户使用 IPEX-LLM 的环境检查工具来进一步验证安装和运行环境是否正确设置。environment check utility scripts 。

3 总结

本文介绍了如何使用 IPEX-LLM 在第四代英特尔®至强®可扩展处理器上进行大语言模型推理,以及低比特 INT4 和 BF16 Self-Speculative Decoding 的性能数据。用户可以参考 IPEX-LLM github 和程序样例来获得大语言模型的最新技术内容。

致谢

特别感谢史栋杰,胡雅白,王健,田翔宇对本文的贡献,以及 Padma Apparao 的重要支持。

配置和免责声明

本次数据为截止 2024 年 3 月的测试结果。测试硬件配置:Intel® Xeon® Platinum 8468, 48 cores, HT On, Turbo On, 2-socket, Total Memory 1024GB (16x64GB DDR5 4800 MT/s [4800 MT/s])。系统配置:BIOS 05.02.01, microcode 0x2b0004d0, OS: Ubuntu 22.04.3 LTS, Kernel: 6.2.0-37-generic。软件配置:bigdl-llm 2.5.0b20240313 (prior to migration to ipex-llm), pytorch 2.3.0.dev20240128+cpu, intel-extension-for-pytorch 2.3.0+git004cd72, transformers 4.36.2。性能数据为单路处理器上的测试结果,采用 greedy search 解码方式,输入为 1024 token,输出为 128 token,批处理大小为 1。

实际性能受使用情况、配置和其他因素的差异影响。更多信息请见 www.Intel.cn/PerformanceIndex。性能测试结果基于配置信息中显示的日期进行测试,且可能并未反映所有公开可用的安全更新。详情请参阅配置信息披露。没有任何产品或组件是绝对安全的。具体成本和结果可能不同。英特尔技术可能需要启用硬件、软件或激活服务。英特尔未做出任何明示和默示的保证,包括但不限于,关于适销性、适合特定目的及不侵权的默示保证,以及在履约过程、交易过程或贸易惯例中引起的任何保证。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。© 英特尔公司版权所有。英特尔、英特尔标识以及其他英特尔商标是英特尔公司或其子公司在美国和 / 或其他国家的商标。其他的名称和品牌可能是其他所有者的资产。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今明两天南部地区有大到暴雨 后天起湖北进入降雨最强时段

今明两天南部地区有大到暴雨 后天起湖北进入降雨最强时段

极目新闻
2024-06-19 10:37:29
1985年春晚结束后,陈佩斯被送往医院急救,新闻联播公开承认错误

1985年春晚结束后,陈佩斯被送往医院急救,新闻联播公开承认错误

红色风云
2024-06-18 09:16:35
原来姜萍早就被调查过!她用一黑板的公式,震惊了达摩院专家

原来姜萍早就被调查过!她用一黑板的公式,震惊了达摩院专家

辉哥说动漫
2024-06-19 04:38:11
为何欠债几百万的家庭跟没事人一样,欠债几十万的家庭却苦不堪言

为何欠债几百万的家庭跟没事人一样,欠债几十万的家庭却苦不堪言

小马达情感故事
2024-06-18 10:56:13
大量日本科学家涌入中国,目的竟然不是纯挣钱,居然为了它而来

大量日本科学家涌入中国,目的竟然不是纯挣钱,居然为了它而来

嘿哥哥科技
2024-06-18 20:04:40
血泪史呀!江苏恐怖的中高考,网友们狠狠的共情了!评论区炸锅了

血泪史呀!江苏恐怖的中高考,网友们狠狠的共情了!评论区炸锅了

有趣的羊驼
2024-06-17 11:53:11
神也来抄底?宗教机构15亿上海再买楼

神也来抄底?宗教机构15亿上海再买楼

选址中国
2024-06-18 18:24:55
只比张若昀大5岁,却因《庆余年2》母子情深,41岁未婚的她好精彩

只比张若昀大5岁,却因《庆余年2》母子情深,41岁未婚的她好精彩

柴叔带你看电影
2024-06-18 13:54:01
手心手背!绿军名宿:不能说霍勒迪的交易好 只是为斯玛特而难受

手心手背!绿军名宿:不能说霍勒迪的交易好 只是为斯玛特而难受

直播吧
2024-06-18 20:56:23
中国发出警告:90天内不支付358亿赔偿金,18艘军舰就别想要了

中国发出警告:90天内不支付358亿赔偿金,18艘军舰就别想要了

星辰故事屋
2024-06-09 17:09:59
注销又有新规定!国家新明确:2024年,企业注销要按这个来了!

注销又有新规定!国家新明确:2024年,企业注销要按这个来了!

学税
2024-06-18 14:34:18
霸气十足!绿营发动“罢免战”围攻高金素梅,高金正面迎战

霸气十足!绿营发动“罢免战”围攻高金素梅,高金正面迎战

陆弃
2024-06-18 09:54:36
俄罗斯防空加速崩溃!

俄罗斯防空加速崩溃!

凡事一定有办法13119
2024-06-14 08:49:51
女港星晒17岁《龙虎豹》演出,大灯颜值身材都正到离谱

女港星晒17岁《龙虎豹》演出,大灯颜值身材都正到离谱

粤西生活圈
2024-06-18 17:02:30
男子网恋三年女友竟是店里阿姨,下跪道歉那一刻,男子当场破防

男子网恋三年女友竟是店里阿姨,下跪道歉那一刻,男子当场破防

看晓天下事
2024-06-18 20:33:32
安徽宿州公示:拟录用一名斯坦福大学博士为所辖县乡镇公务员

安徽宿州公示:拟录用一名斯坦福大学博士为所辖县乡镇公务员

澎湃新闻
2024-06-17 17:46:44
县城的无奈,只剩下“公务员经济”,也快要坚持不下去了!

县城的无奈,只剩下“公务员经济”,也快要坚持不下去了!

钦点历史
2024-06-16 18:55:02
不知几斤几两的哈马斯悲剧了,以色列:生擒哈尼亚,挖出指使者

不知几斤几两的哈马斯悲剧了,以色列:生擒哈尼亚,挖出指使者

娱宙观
2024-05-08 09:17:17
反制起效!中方宣布调查欧盟猪肉,不到24小时西班牙发出谈判请求

反制起效!中方宣布调查欧盟猪肉,不到24小时西班牙发出谈判请求

陈菲副教授
2024-06-18 16:51:48
C罗尴尬29射0中!挑衅对手的原因找到了:数万球迷齐喊梅西名字!

C罗尴尬29射0中!挑衅对手的原因找到了:数万球迷齐喊梅西名字!

风过乡
2024-06-19 08:03:25
2024-06-19 11:46:44
InfoQ
InfoQ
有内容的技术社区媒体
9918文章数 50097关注度
往期回顾 全部

数码要闻

罗斯・杨称苹果今年第四季度推出 14/16 英寸 M4 MacBook Pro

头条要闻

广东蕉岭大水"前所未见" 有人目睹父子落水却无能为力

头条要闻

广东蕉岭大水"前所未见" 有人目睹父子落水却无能为力

体育要闻

幸运的倒霉蛋!8年前差点退役,现在他帮两支NBA球队夺冠

娱乐要闻

黄一鸣“杀疯了” 直播间卖大葱养孩子

财经要闻

吴清:证监会将推出“科创板八条”

科技要闻

英伟达超越苹果、微软登顶全球新股王

汽车要闻

双肾格栅变化大/内饰焕新 新一代宝马X3官图发布

态度原创

家居
亲子
艺术
房产
军事航空

家居要闻

自然开放 实现灵动可变空间

亲子要闻

用这套幼升小暑假衔接一本通,数学拼音语文三合一

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

房产要闻

17.9亿!终于,有民企在三亚大手笔拿地了!周边房价10万+!

军事要闻

"局部战术暂停"后 以军袭击加沙地带多地

无障碍浏览 进入关怀版