ollama v0.12.8 发布：Qwen3-VL性能优化、模型卸载改进及多平台兼容性增强|调用|vl|引擎|新模型

ollama v0.12.8 发布：Qwen3-VL性能优化、模型卸载改进及多平台兼容性增强

2025-11-02 00:12:38　来源: moonfdd

北京举报

分享至

在 2025 年 10 月 31 日，Ollama 发布了 v0.12.8 版本。本次更新围绕性能提升、功能优化与跨平台兼容性进行了改进，同时修复了多个已知问题。以下是本版本的详细更新内容：

一、主要更新亮点 1. Qwen3-VL 性能优化

•默认启用 Flash Attention：Qwen3-VL 在推理过程中的注意力计算性能显著提升，减少显存占用的同时加快响应速度。
•清理前置空白输出：在思考（thinking）阶段后输出的文本中，减少多余的空格，提升文本美观与可读性。
•透明背景图像识别修复：解决了 Qwen3-VL 在解读透明背景图片时的解析失败问题。

2. 模型运行与卸载流程优化

• 在使用ollama rm删除模型之前，系统会自动停止正在运行的模型，避免删除过程中资源冲突。
• 新增卸载流程容错提示，如果卸载失败且并非“未找到模型”的情况，会给出警告信息。

3. Deepseek-V3.1 逻辑修复

• 修复了 Ollama 新版应用中无法关闭 deepseek-v3.1 思考模式的问题，用户可按需控制模型推理方式。

4. 跨平台 GPU 设备兼容性增强

• Windows 平台设备扫描中忽略不支持的集成显卡（iGPU），提高设备识别效率，避免无效设备导致的初始化异常。
• GPU 设备发现逻辑调整，增加 PCI ID 校验，确保设备匹配更加准确。

二、引擎与底层优化 1. 推理性能优化

• 解决了提示词（prompt）处理速度在 Ollama 引擎中偏慢的问题，提升整体响应速度。
• 在 GGML 引擎中，增加op_offload支持，以改进部分任务的性能。

2. GGML Flash Attention 支持范围调整

• 将 Qwen3、Qwen3-MOE、Qwen3-VL、Qwen3-VL-MOE 纳入支持列表，为更多模型带来更快、更高效的注意力计算。

3. 批处理与内存分配改进

• 增加批大小（batch size）提示参数，优化推理调度器在推理过程中的资源分配策略。
• 引入ggml_backend_sched_new_ext接口，支持自定义调度器的内存分配模式，并允许开启或关闭缓冲区分配以适应不同推理场景。

三、测试用例与稳定性提升 1. 工具调用（Tool Calling）测试增强

• 为多种模型（如 Qwen3-VL、GPT-OSS 系列、LLaMA3.1、Mixtral 等）增加工具调用集成测试，验证模型接收并执行工具请求的能力。
• 测试场景包括调用get_weather函数并传递location参数，确保多模型在对话流中能正确触发工具调用并返回预期结果。

2. 更高的测试容错能力

• 延长工具调用测试的等待时间，适配大模型加载与响应。
• 在显存不足时自动跳过对应测试，避免影响整体测试进程。

四、文档与可用性改进

• 部分文档链接更新为最新的在线版本，方便用户查阅（如 Linux 手动安装说明、模型导入指南、Modelfile 文档等）。

五、总结

Ollama v0.12.8 在 Qwen3-VL 以及底层推理引擎上进行了显著的性能优化，并改进了模型管理流程，增加了跨平台 GPU 兼容性。在测试覆盖方面，新增了针对工具调用的多模型验证，使系统在复杂应用场景中更加稳定和易用。

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。欢迎关注“福大大架构师每日一题”，发消息可获得面试资料，让AI助力您的未来发展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

ollama v0.12.8 发布：Qwen3-VL性能优化、模型卸载改进及多平台兼容性增强

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

上海一老小区居民因加装电梯引争执 调解时一老人猝死

上海一老小区居民因加装电梯引争执 调解时一老人猝死

27岁热刺门将，夺冠后退役当导演

爸爸去哪儿6孩子现状，个个不同

作价40亿美元！星巴克中国易主

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

国行PS5 Pro百亿补贴！无需领券 比官方还便宜200元

年轻态度 功能舒适兼备

L1寒·春︱情绪管理、接纳自我、理解他人...6-7岁孩子需要学的这里都有

消息称三星Galaxy S26系列手机将涨价，DRAM供应链短缺成主因

俄最新核潜艇下水 可搭载“末日鱼雷”

上海一老小区居民因加装电梯引争执调解时一老人猝死

上海一老小区居民因加装电梯引争执调解时一老人猝死

把海岸诗意织进日常法拉利Amalfi重塑超跑生活方式

国行PS5 Pro百亿补贴！无需领券比官方还便宜200元

年轻态度功能舒适兼备

俄最新核潜艇下水可搭载“末日鱼雷”