ollama v0.12.6 更新详解：搜索支持、性能优化与 Vulkan 实验性支持|调用|命令提示符|vulkan

ollama v0.12.6 更新详解：搜索支持、性能优化与 Vulkan 实验性支持

2025-10-18 00:11:20　来源: moonfdd

北京举报

分享至

一、版本发布时间

• 预发布日期：2025 年 10 月 15 日
• 正式发布日期：2025 年 10 月 17 日

二、主要更新内容

1.模型搜索功能扩展

• 在运行 DeepSeek-V3.1、Qwen3 等支持工具调用的模型时，Ollama 应用现在支持搜索功能，大幅提升了模型交互和数据检索效率。

2.性能优化

• 对 Gemma 3 模型默认启用 Flash Attention，提高了推理性能并优化了内存使用率。
• 修复了生成响应过程中偶发的卡死问题。
• 改进了模型驱逐逻辑，当num_gpu参数设置时能够正确清理未使用模型。

3.模型相关修复与改进

• 修复了 Qwen3-Coder 在使用/api/generate或ollama run qwen3-coder时进入原始模式的问题。
• 修复了 Qwen3-Embedding 返回无效结果的情况。
• 修复了tool_index值为 0 时未正确传递给模型的问题。
• Qwen3-Coder 增加了在解析工具调用时对anyOf的支持。

4.Vulkan 实验性支持

• 新增本地构建时的 Vulkan 实验性支持，允许运行在目前不支持的 AMD 和 Intel GPU 上，为更广泛的硬件环境提供可能性。
• 构建步骤：安装 Vulkan SDK，并在环境变量中设置VULKAN_SDK，然后按照开发者指南进行本地编译。未来版本将会把 Vulkan 支持集成到二进制发行版中。

5.其他改进

• NVML 实现支持 Linux 系统。
• 增加 NVML 对统一内存 GPU 的降级支持。
• 改进 CUDA 对 iGPU 调度的性能。
• 默认连接到ollama.com时使用端口 443。
• 重新启用 CUDA CC 5.2 支持。

6.Bug 修复

• 修复日志中错误显示 “0 MiB free” 的问题。
• 修复部分 API 生成器在渲染时的内置渲染器问题。
• 修复文件系统与 ggml 中的注释函数名错误。
• 修复 Qwen3 模型的 distill 问题。

三、总结

Ollama v0.12.6 是一次以功能增强与性能优化为核心的更新版本，尤其在模型搜索、Flash Attention 默认开启以及 Vulkan 实验性支持方面为用户带来了更高的运行效率与更广的硬件兼容性。同时，一系列针对 Qwen3 系列模型和 GPU 支持的修正，让该版本更加稳定、适用范围更广。对于开发者而言，本次更新不仅改善了现有工作流程，还为未来硬件适配提供了新的可能。

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。欢迎关注“福大大架构师每日一题”，发消息可获得面试资料，让AI助力您的未来发展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.