![]()
在 2025 年 10 月 31 日,Ollama 发布了 v0.12.8 版本。本次更新围绕性能提升、功能优化与跨平台兼容性进行了改进,同时修复了多个已知问题。以下是本版本的详细更新内容:
一、主要更新亮点 1. Qwen3-VL 性能优化
•默认启用 Flash Attention:Qwen3-VL 在推理过程中的注意力计算性能显著提升,减少显存占用的同时加快响应速度。
•清理前置空白输出:在思考(thinking)阶段后输出的文本中,减少多余的空格,提升文本美观与可读性。
•透明背景图像识别修复:解决了 Qwen3-VL 在解读透明背景图片时的解析失败问题。
• 在使用
ollama rm删除模型之前,系统会自动停止正在运行的模型,避免删除过程中资源冲突。• 新增卸载流程容错提示,如果卸载失败且并非“未找到模型”的情况,会给出警告信息。
• 修复了 Ollama 新版应用中无法关闭 deepseek-v3.1 思考模式的问题,用户可按需控制模型推理方式。
• Windows 平台设备扫描中忽略不支持的集成显卡(iGPU),提高设备识别效率,避免无效设备导致的初始化异常。
• GPU 设备发现逻辑调整,增加 PCI ID 校验,确保设备匹配更加准确。
• 解决了提示词(prompt)处理速度在 Ollama 引擎中偏慢的问题,提升整体响应速度。
• 在 GGML 引擎中,增加
op_offload支持,以改进部分任务的性能。
• 将 Qwen3、Qwen3-MOE、Qwen3-VL、Qwen3-VL-MOE 纳入支持列表,为更多模型带来更快、更高效的注意力计算。
• 增加批大小(batch size)提示参数,优化推理调度器在推理过程中的资源分配策略。
• 引入
ggml_backend_sched_new_ext接口,支持自定义调度器的内存分配模式,并允许开启或关闭缓冲区分配以适应不同推理场景。
• 为多种模型(如 Qwen3-VL、GPT-OSS 系列、LLaMA3.1、Mixtral 等)增加工具调用集成测试,验证模型接收并执行工具请求的能力。
• 测试场景包括调用
get_weather函数并传递location参数,确保多模型在对话流中能正确触发工具调用并返回预期结果。
• 延长工具调用测试的等待时间,适配大模型加载与响应。
• 在显存不足时自动跳过对应测试,避免影响整体测试进程。
• 部分文档链接更新为最新的在线版本,方便用户查阅(如 Linux 手动安装说明、模型导入指南、Modelfile 文档等)。
Ollama v0.12.8 在 Qwen3-VL 以及底层推理引擎上进行了显著的性能优化,并改进了模型管理流程,增加了跨平台 GPU 兼容性。在测试覆盖方面,新增了针对工具调用的多模型验证,使系统在复杂应用场景中更加稳定和易用。
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.