网易首页 > 网易号 > 正文 申请入驻

ollama v0.12.8 发布:Qwen3-VL性能优化、模型卸载改进及多平台兼容性增强

0
分享至


在 2025 年 10 月 31 日,Ollama 发布了 v0.12.8 版本。本次更新围绕性能提升、功能优化与跨平台兼容性进行了改进,同时修复了多个已知问题。以下是本版本的详细更新内容:

一、主要更新亮点 1. Qwen3-VL 性能优化

  • 默认启用 Flash Attention:Qwen3-VL 在推理过程中的注意力计算性能显著提升,减少显存占用的同时加快响应速度。

  • 清理前置空白输出:在思考(thinking)阶段后输出的文本中,减少多余的空格,提升文本美观与可读性。

  • 透明背景图像识别修复:解决了 Qwen3-VL 在解读透明背景图片时的解析失败问题。

2. 模型运行与卸载流程优化
  • • 在使用ollama rm删除模型之前,系统会自动停止正在运行的模型,避免删除过程中资源冲突。

  • • 新增卸载流程容错提示,如果卸载失败且并非“未找到模型”的情况,会给出警告信息。

3. Deepseek-V3.1 逻辑修复
  • • 修复了 Ollama 新版应用中无法关闭 deepseek-v3.1 思考模式的问题,用户可按需控制模型推理方式。

4. 跨平台 GPU 设备兼容性增强
  • • Windows 平台设备扫描中忽略不支持的集成显卡(iGPU),提高设备识别效率,避免无效设备导致的初始化异常。

  • • GPU 设备发现逻辑调整,增加 PCI ID 校验,确保设备匹配更加准确。

二、引擎与底层优化 1. 推理性能优化
  • • 解决了提示词(prompt)处理速度在 Ollama 引擎中偏慢的问题,提升整体响应速度。

  • • 在 GGML 引擎中,增加op_offload支持,以改进部分任务的性能。

2. GGML Flash Attention 支持范围调整
  • • 将 Qwen3、Qwen3-MOE、Qwen3-VL、Qwen3-VL-MOE 纳入支持列表,为更多模型带来更快、更高效的注意力计算。

3. 批处理与内存分配改进
  • • 增加批大小(batch size)提示参数,优化推理调度器在推理过程中的资源分配策略。

  • • 引入ggml_backend_sched_new_ext接口,支持自定义调度器的内存分配模式,并允许开启或关闭缓冲区分配以适应不同推理场景。

三、测试用例与稳定性提升 1. 工具调用(Tool Calling)测试增强
  • • 为多种模型(如 Qwen3-VL、GPT-OSS 系列、LLaMA3.1、Mixtral 等)增加工具调用集成测试,验证模型接收并执行工具请求的能力。

  • • 测试场景包括调用get_weather函数并传递location参数,确保多模型在对话流中能正确触发工具调用并返回预期结果。

2. 更高的测试容错能力
  • • 延长工具调用测试的等待时间,适配大模型加载与响应。

  • • 在显存不足时自动跳过对应测试,避免影响整体测试进程。

四、文档与可用性改进
  • • 部分文档链接更新为最新的在线版本,方便用户查阅(如 Linux 手动安装说明、模型导入指南、Modelfile 文档等)。

五、总结

Ollama v0.12.8 在 Qwen3-VL 以及底层推理引擎上进行了显著的性能优化,并改进了模型管理流程,增加了跨平台 GPU 兼容性。在测试覆盖方面,新增了针对工具调用的多模型验证,使系统在复杂应用场景中更加稳定和易用。

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
99年女演员机场发脾气,伸手皱眉大喊、表情不耐烦,现场成一锅粥

99年女演员机场发脾气,伸手皱眉大喊、表情不耐烦,现场成一锅粥

素衣读史
2025-11-04 18:00:02
“甜甜圈”再次被警察盯上:他的悲剧,早有答案

“甜甜圈”再次被警察盯上:他的悲剧,早有答案

半耳聆
2025-11-04 17:23:07
内蒙“女色虎”落马,靠陪睡高官上位,大肆敛财为了整容

内蒙“女色虎”落马,靠陪睡高官上位,大肆敛财为了整容

文史旺旺旺
2024-10-31 12:26:20
四川:完全赞成、坚决拥护

四川:完全赞成、坚决拥护

新京报政事儿
2025-11-03 18:55:01
香港餐厅收内地客“天价”小费?港人怒批:香港结业潮是有原因的

香港餐厅收内地客“天价”小费?港人怒批:香港结业潮是有原因的

财经八卦
2025-11-03 20:09:15
解放前我党一特工将被处决,房东送断头饭时悄声道:这饭要仔细吃

解放前我党一特工将被处决,房东送断头饭时悄声道:这饭要仔细吃

兴趣知识
2025-11-04 02:40:03
刘继永任浪潮集团党委书记、董事长

刘继永任浪潮集团党委书记、董事长

界面新闻
2025-11-04 15:07:47
红军城战况让人头皮发麻:乌军一边投降,一边机降突袭“送人头”

红军城战况让人头皮发麻:乌军一边投降,一边机降突袭“送人头”

瞩望云霄
2025-11-04 09:35:28
iOS 26.1 正式版发布:带来 7 大新变化

iOS 26.1 正式版发布:带来 7 大新变化

小柱解说游戏
2025-11-04 11:52:57
妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

经典段子
2025-10-11 22:34:42
广东选手王伟莹跳水女子个人全能夺冠

广东选手王伟莹跳水女子个人全能夺冠

新快报新闻
2025-11-04 13:31:03
中国发射卫星要经过韩国允许?韩国网友被回怼:太空是全人类的

中国发射卫星要经过韩国允许?韩国网友被回怼:太空是全人类的

大卫聊科技
2025-11-03 14:03:25
大军区司令卸任几个月,上级点将:还需继续在一线工作!超龄任职

大军区司令卸任几个月,上级点将:还需继续在一线工作!超龄任职

历史龙元阁
2025-11-03 16:30:07
不敢认!“这还是李宗伟?”43 岁近照引热议!

不敢认!“这还是李宗伟?”43 岁近照引热议!

情感大头说说
2025-11-03 12:28:01
好消息:乌克兰援军来了,红军村反击战取得初步胜利

好消息:乌克兰援军来了,红军村反击战取得初步胜利

史政先锋
2025-11-02 13:40:39
冷空气自西向东横扫全国,雨水将在山东“上线”

冷空气自西向东横扫全国,雨水将在山东“上线”

齐鲁壹点
2025-11-04 16:31:42
从未打过仗的文官,临危受命打败20倍敌军!毛主席评价:千古一人

从未打过仗的文官,临危受命打败20倍敌军!毛主席评价:千古一人

兴趣知识
2025-11-03 22:22:32
石榴立大功!新发现:石榴竟能在36小时清除50%的肠道垃圾

石榴立大功!新发现:石榴竟能在36小时清除50%的肠道垃圾

原来仙女不讲理
2025-11-03 22:41:50
如果没有她,海南岛和南海诸岛200多万海域,很可能已不属于我国

如果没有她,海南岛和南海诸岛200多万海域,很可能已不属于我国

历史求知所
2025-11-03 16:50:03
立冬将至,记得“多吃3白3黄,忌吃1红”,老传统别丢,平安入冬

立冬将至,记得“多吃3白3黄,忌吃1红”,老传统别丢,平安入冬

简食记工作号
2025-11-04 11:46:27
2025-11-04 18:47:00
moonfdd incentive-icons
moonfdd
福大大架构师每日一题
1022文章数 49关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

上海一老小区居民因加装电梯引争执 调解时一老人猝死

头条要闻

上海一老小区居民因加装电梯引争执 调解时一老人猝死

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

爸爸去哪儿6孩子现状,个个不同

财经要闻

作价40亿美元!星巴克中国易主

汽车要闻

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

游戏
家居
教育
手机
军事航空

国行PS5 Pro百亿补贴!无需领券 比官方还便宜200元

家居要闻

年轻态度 功能舒适兼备

教育要闻

L1寒·春︱情绪管理、接纳自我、理解他人...6-7岁孩子需要学的这里都有

手机要闻

消息称三星Galaxy S26系列手机将涨价,DRAM供应链短缺成主因

军事要闻

俄最新核潜艇下水 可搭载“末日鱼雷”

无障碍浏览 进入关怀版