AMD 的 APUs 已经有一段时间提供一个功能,这个功能不仅对游戏玩家有吸引力,对本地 AI 用户也同样如此;可变显存。现在,英特尔也紧随其后,为其 Core Ultra 芯片添加了类似的功能。
这一消息是英特尔的 Bob Duffy 通过 VideoCardz 透露的,新的共享 GPU 内存覆盖功能与最新版本的 Arc 驱动程序一起发布。
如果你有英特尔 Core Ultra 并且正在使用 AI,你需要更新到最新的英特尔 Arc 驱动程序... 因为 pic.twitter.com/4BlTqW1RCo2025年8月14日
那这到底是什么呢?
简单来说,就像在AMD最近的APU上一样,您现在可以决定将多少系统内存分配给GPU。这对游戏有帮助,尤其是在您使用本地LLM时。
Ollama 目前不支持集成GPU,但像LM Studio这样的工具支持这一功能,允许您将一些较大的模型,比如gpt-oss:20b,加载到GPU上,而不是CPU。
这些模型在不手动为GPU选择更多内存的情况下也能运行,但手动选择会带来一些好处。英特尔的Core Ultra芯片尚未采用真正的统一内存,这种内存在Apple Mac或AMD最新的Strix Halo芯片上可以找到。听起来是一样的,但实际上并不相同。在统一内存上,这个功能是多余的。
在我自己(尽管简短)的测试中,使用一款AMD Ryzen AI 9 HX 370,该设备不支持统一内存,给GPU设置更多可用内存会有性能上的好处。
在gpt-oss:20b中,当模型能够完全加载到专用GPU内存中时,性能比使用整体系统内存时高出约5个token每秒,在4k上下文窗口下尤其如此。
您仍然可以利用GPU进行计算,但如果只使用“RAM”,性能会更慢。最佳的情况是为加载模型分配足够的专用GPU内存。
这就是英特尔现在允许Core Ultra用户进行的操作,尽管目前还不太清楚这是否适用于所有Core Ultra系列,还是仅限于Core Ultra系列2。在英特尔图形软件中,添加了一个简单的滑块,允许您选择要为GPU保留多少内存。
以我自己的系统为例,当我使用像gpt-oss:20b这样的大型模型时,我将可用的32GB内存均分。16GB用于GPU,16GB用于其他所有内容。这让我可以将模型完全加载到GPU的内存中,而保留的内存则留给系统的其他部分。
这就是我从大型语言模型中获取最佳性能的方式,因为如果可以使用GPU,为什么要把所有的CPU都用完呢?即使是集成显卡,在这种情况下也能比使用CPU得到更好的效果。
当然,这一切仍然是相对的。如果你的系统总内存是16GB,你不能把它全部分配给GPU来运行LLM(大型语言模型)。PC仍然需要内存来处理Windows上其他的任务。理想情况下,你希望有足够的内存,至少为系统保留8GB。
要获得新的共享GPU内存覆盖功能,你需要使用最新的Intel驱动程序。请注意,这个功能仅适用于你的PC上只有集成的Arc显卡的情况。拥有独立显存的GPU不需要这个功能,而且在任何情况下它们的表现仍然会更好。
但是,如果你在Core Ultra系统上使用本地的LLM,这个功能是个不错的补充,能帮助你从AI工作负载中榨取一些额外的性能。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.