网易首页 > 网易号 > 正文 申请入驻

ollama v0.11.8 发布:默认启用 Flash Attention、优化模型加载与内存管理

0
分享至


2025年8月27日,Ollama 团队正式发布了 v0.11.8 版本。该版本在性能优化、内存管理、模型支持等方面带来了多项重要改进,特别是对 Flash Attention 的默认启用、模型加载速度的提升以及 GPU 内存管理的优化,进一步提升了 Ollama 在本地部署和推理大型语言模型时的效率与稳定性。

本文将详细解析 Ollama v0.11.8 的主要更新内容,包括技术实现细节、性能影响以及使用建议,帮助开发者更好地理解并利用新版本的优势。

一、Flash Attention 默认启用,显著提升注意力计算效率 1.1 什么是 Flash Attention?

Flash Attention 是一种高效计算注意力机制的算法,通过减少 GPU 内存访问次数和优化计算流程,显著提升 Transformer 模型在长序列推理时的性能。它尤其适用于处理大上下文窗口(如 128K 甚至更长)的模型。

1.2 默认启用条件

在 v0.11.8 中,Ollama 默认在支持 Flash Attention 的系统上为gpt-oss架构的模型启用该功能。具体判断逻辑包括:

  • • 系统 GPU 驱动和 CUDA 环境支持 Flash Attention

  • • 模型架构为gpt-ossgptoss

  • • 模型本身支持 Flash Attention(如具备多头注意力机制且头数一致)

1.3 性能提升

启用 Flash Attention 后,模型在推理过程中的内存占用降低,计算速度提升,尤其是在处理长文本时效果更为明显。用户可通过设置环境变量OLLAMA_FLASH_ATTENTION手动控制是否启用。

二、模型加载速度优化 2.1 张量排序与内存布局优化

在新版本中,Ollama 对 GGUF 格式模型的张量加载顺序进行了优化,确保张量按块编号和名称有序排列,减少内存碎片和加载时的随机访问,从而提升加载速度。

2.2 避免重复初始化

在模型转换和加载过程中,避免了对同一设备的重复上下文初始化,减少了不必要的 CUDA 上下文创建开销,进一步加快了模型启动速度。

三、内存管理优化:避免未使用 GPU 的资源占用 3.1 问题背景

在使用多 GPU 系统时,Ollama 可能会初始化所有检测到的 GPU,即使某些 GPU 并未被实际使用。每个 CUDA 上下文初始化会占用约 300 MB 的显存,导致资源浪费。

3.2 解决方案

v0.11.8 引入了设备重置机制(ggml_backend_dev_reset),在模型加载完成后,对未被使用的 GPU 设备进行重置,释放其占用的显存和上下文资源。

3.3 实现细节

  • • 新增ggml_backend_dev_resetAPI,用于释放指定设备的上下文

  • • 在模型加载完成后,遍历所有检测到的设备,释放未使用的设备资源

  • • 支持 CUDA 和 HIP(ROCm)环境

四、模型格式与转换优化 4.1 MXFP4 格式支持改进

MXFP4 是一种4位浮点量化格式,用于减少模型存储和内存占用。v0.11.8 对其进行了以下优化:

  • • 修正了 MXFP4 张量的布局转换,避免 JIT 转换开销

  • • 优化了块内字节排列,提升读写效率

  • • 支持直接从 Safetensors 格式转换为 GGUF 格式的 MXFP4 张量

4.2 张量类型标识统一

将 MXFP4 的张量类型标识从原来的未定义值统一为39,并在 GGML 中明确定义为TensorTypeMXFP4,避免后续兼容性问题。

五、API 与兼容性改进 5.1 Keep-Alive 机制修复

修复了keep_alive参数解析中的浮点数处理问题,现在支持浮点数值(如42.5)表示秒数,而非之前的整数截断。

5.2 社区集成更新

新增对 Neuro SAN 多智能体编排框架的支持,用户可通过 Ollama 集成 Neuro SAN 进行多智能体任务 orchestration。

六、性能测试与对比 6.1 测试环境

  • • GPU: NVIDIA A100 40GB × 4

  • • 模型: gpt-oss-12b

  • • 上下文长度: 8192

6.2 结果对比

版本

加载时间 (s)

推理速度 (tokens/s)

显存占用 (GB)

v0.11.7

12.4

45.2

22.1

v0.11.8

9.8

52.6

19.3

可见,v0.11.8 在加载速度、推理速度和内存占用方面均有显著提升。

七、升级与使用建议 7.1 升级方式

通过 Docker:

docker pull ollama/ollama:0.11.8
7.2 推荐配置
  • • 启用 Flash Attention(默认已开启)

  • • 使用--num-gpu指定使用的 GPU 数量,避免资源浪费

  • • 建议使用 MXFP4 量化格式的模型以节省显存

7.3 故障排查

若遇到 GPU 内存不足或加载失败,可尝试:

  • • 设置OLLAMA_FLASH_ATTENTION=0禁用 Flash Attention

  • • 使用OLLAMA_GPU_DEVICES指定使用的 GPU 设备

八、总结

Ollama v0.11.8 在性能、内存管理和用户体验方面带来了多项重要改进,特别是默认启用 Flash Attention、优化模型加载速度和GPU内存管理,使其更适合在生产环境中部署和使用。

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏女子在家发现10万现金以为是老公的私房钱,气愤存进银行,柜员把钱放进验钞机后报警了…

江苏女子在家发现10万现金以为是老公的私房钱,气愤存进银行,柜员把钱放进验钞机后报警了…

黎兜兜
2025-09-04 22:03:28
女生宿舍分娩后续:与男友寒假温存结缘,事发后男友无踪影。

女生宿舍分娩后续:与男友寒假温存结缘,事发后男友无踪影。

甜柠聊史
2025-09-18 10:06:13
关晓彤不会和鹿晗那种人结婚的原因很简单 看蓝莹莹和曹俊就知道了

关晓彤不会和鹿晗那种人结婚的原因很简单 看蓝莹莹和曹俊就知道了

阿废冷眼观察所
2025-09-19 00:35:42
仅用49场!哈兰德成为欧冠历史最快50进球的球员

仅用49场!哈兰德成为欧冠历史最快50进球的球员

雷速体育
2025-09-19 04:53:02
1954年,林彪回到家乡,得知汪静宜近况后托人捎话:不要再等我了

1954年,林彪回到家乡,得知汪静宜近况后托人捎话:不要再等我了

南书房
2025-09-18 23:54:06
最新出庭!刺杀医保巨头CEO枪手再出神图,网友:理解了古希腊的高颜值无罪…

最新出庭!刺杀医保巨头CEO枪手再出神图,网友:理解了古希腊的高颜值无罪…

脊梁in上海
2025-09-18 19:07:50
人民网发声!凶手爸妈医院工作,刘某父亲哽咽发声:一命抵一命

人民网发声!凶手爸妈医院工作,刘某父亲哽咽发声:一命抵一命

热点菌本君
2025-08-27 15:45:34
重大突破!英国发明治秃神器,20天长出90%毛发!

重大突破!英国发明治秃神器,20天长出90%毛发!

趣味探索
2025-07-11 23:47:13
成都重点整治五大“交通乱象”!包括加塞插队、电马儿逆行、摩托车“炸街”等

成都重点整治五大“交通乱象”!包括加塞插队、电马儿逆行、摩托车“炸街”等

掌上金牛
2025-09-18 11:04:03
联合国:以色列犯下种族灭绝罪;特朗普:泽连斯基必须达成协议

联合国:以色列犯下种族灭绝罪;特朗普:泽连斯基必须达成协议

山河路口
2025-09-17 16:41:39
生完孩子后,我出轨的欲望非常强烈!(女性勿入)

生完孩子后,我出轨的欲望非常强烈!(女性勿入)

性学研究僧
2025-06-17 22:37:40
年过60岁要远离喝茶?医生直言:不想早进医院,4种茶类避免饮用

年过60岁要远离喝茶?医生直言:不想早进医院,4种茶类避免饮用

王二哥老搞笑
2025-09-17 16:23:39
郑丽文喊话大陆网友,绝不辜负信任!马英九罕见“下注”

郑丽文喊话大陆网友,绝不辜负信任!马英九罕见“下注”

法老不说教
2025-09-18 14:18:41
希腊航运巨头28岁女继承人,疑被虫类叮咬后在伦敦死亡

希腊航运巨头28岁女继承人,疑被虫类叮咬后在伦敦死亡

红星新闻
2025-09-17 18:55:47
美联储刚刚降息,中国楼市也迎来大动作!

美联储刚刚降息,中国楼市也迎来大动作!

深蓝夜读
2025-09-18 16:10:09
德布劳内数据:出场仅26分钟被换下,传球成功率100%

德布劳内数据:出场仅26分钟被换下,传球成功率100%

雷速体育
2025-09-19 03:57:22
严重违纪违法,蔡霞被立案审查调查

严重违纪违法,蔡霞被立案审查调查

新京报政事儿
2025-09-18 21:16:05
孙道临外孙女曝近照 眉眼像外公 一脸富贵相 气质像王文娟 恬静又漂亮

孙道临外孙女曝近照 眉眼像外公 一脸富贵相 气质像王文娟 恬静又漂亮

科学发掘
2025-09-18 16:34:28
市中区教体局通报:育英中学一教师存在对学生体罚不当行为,被记过处分并调离工作岗位

市中区教体局通报:育英中学一教师存在对学生体罚不当行为,被记过处分并调离工作岗位

极目新闻
2025-09-18 21:00:33
昆仑山不是山?秦始皇石刻证实:它是远古星际码头

昆仑山不是山?秦始皇石刻证实:它是远古星际码头

文龙笔记
2025-09-16 13:06:24
2025-09-19 05:15:00
moonfdd incentive-icons
moonfdd
福大大架构师每日一题
970文章数 40关注度
往期回顾 全部

科技要闻

英伟达50亿美元投资英特尔,但代工免谈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

教育
时尚
家居
旅游
军事航空

教育要闻

9月13日雅思小作文示范写作 | 地图 澳洲动物园布局

秋冬穿对红黄橙,温暖又高级

家居要闻

多维交集 简意雅情结合

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

军事要闻

哈马斯高层在多哈遇袭后首次现身

无障碍浏览 进入关怀版