ollama v0.12.7 最新更新详解：新模型发布、功能增强与多项修复|工作流|深度思考按钮

ollama v0.12.7 最新更新详解：新模型发布、功能增强与多项修复

2025-10-31 00:12:44　来源: moonfdd

北京举报

分享至

Ollama 在 2025 年 10 月 30 日正式发布了 v0.12.7 版本，该版本带来了多个重要更新，包括新模型的加入、应用功能增强、API 文档更新，以及一系列优化与修复。下面我们来详细解析 v0.12.7 的更新内容。

一、新增模型

1.Qwen3-VL

• 支持从 2B 到 235B 不同参数规模的模型版本，覆盖多种场景需求，适用于视觉与语言融合任务。

2.MiniMax-M2

• 2300 亿参数的超大模型，专为编码与自主智能代理（agentic workflows）工作流设计，现可在 Ollama Cloud 上使用。

二、新版应用功能

1.文件上传功能

• 用户现在可以在提示模型时添加一个或多个文件，提升模型处理复杂任务的能力。
• 支持多文件输入，将外部数据直接纳入模型推理过程。

2.思考等级调整

• 针对 gpt-oss 系列模型，应用新增了“思考等级”调节功能，让用户可根据任务复杂度调控模型的推理深度，以获得更优的响应。

三、API 文档更新

• Ollama 的 API 文档已全面更新并上线，访问地址为：
https://docs.ollama.com/api
• API 的更新包括新增 OpenAI 兼容的/v1/embeddings接口对encoding_format参数的支持。

四、优化与修复内容一览

•模型加载
- • Windows 平台上的模型加载失败现在会显示更多详细信息。
•Embedding 修复
- • 修复embeddinggemma运行时结果不正确的问题。
- • 修复在 Vulkan 后端运行 gemma3n 的问题。
- • 增加时间让 ROCm 能更好地发现设备。
- • 修复生成 embeddings 时的截断错误。
- • 云端模型运行时修复返回的请求状态码。
- • 修复 base64 编码错误，并增加距相关性测试（distance correlation test）。
•兼容性与性能
- •/v1/embeddings端点新增encoding_format参数。
- • 优化对不符合{ "name": name, "arguments": args }格式的工具调用的解析。
- • 提升模型调度速度。
- • 修复FROM指令不继承 RENDERER 或 PARSER 命令的问题。
•系统与后端改进
- • ROCm 启动时间增加以改善设备检测。
- • Vulkan PCI ID 及相关处理修正。
- • 内存分配策略从指数回退改为增量回退。
•测试与稳定性
- • 强化调度器测试。
- • 增加 embedding 测试对 base64 字符串的精确校验。
- • 修复 embeddinggemma 集成测试问题。
- • 强化服务器生命周期的稳定性。
•其他修复
- • 修复 conv2d 偏置问题。
- • 云端代理的内容类型与本地模型保持一致。
- • 删除对缺失标签的警告（qwen3-vl）。
- • 内核缓存（kvcache）优化，移除预留掩码的特殊处理。

五、总结

Ollama v0.12.7 是一次重要的迭代更新，不仅在模型资源方面进行了扩展（Qwen3-VL、MiniMax-M2），还引入了更贴近用户使用的功能（文件输入、思考等级调节）。此外，API 的增强、后端性能优化以及大量的 Bug 修复，都让该版本在稳定性、灵活性方面都有显著提升。对于需要大模型能力的开发者而言，v0.12.7 提供了更稳定、更强大的工具环境。

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。欢迎关注“福大大架构师每日一题”，发消息可获得面试资料，让AI助力您的未来发展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.