![]()
Ollama 在 2025 年 10 月 30 日正式发布了 v0.12.7 版本,该版本带来了多个重要更新,包括新模型的加入、应用功能增强、API 文档更新,以及一系列优化与修复。下面我们来详细解析 v0.12.7 的更新内容。
一、新增模型
1.Qwen3-VL
• 支持从 2B 到 235B 不同参数规模的模型版本,覆盖多种场景需求,适用于视觉与语言融合任务。
2.MiniMax-M2
• 2300 亿参数的超大模型,专为编码与自主智能代理(agentic workflows)工作流设计,现可在 Ollama Cloud 上使用。
1.文件上传功能
• 用户现在可以在提示模型时添加一个或多个文件,提升模型处理复杂任务的能力。
• 支持多文件输入,将外部数据直接纳入模型推理过程。
2.思考等级调整
• 针对 gpt-oss 系列模型,应用新增了“思考等级”调节功能,让用户可根据任务复杂度调控模型的推理深度,以获得更优的响应。
• Ollama 的 API 文档已全面更新并上线,访问地址为:
https://docs.ollama.com/api• API 的更新包括新增 OpenAI 兼容的
/v1/embeddings接口对encoding_format参数的支持。
•模型加载
• Windows 平台上的模型加载失败现在会显示更多详细信息。
•Embedding 修复
• 修复
embeddinggemma运行时结果不正确的问题。• 修复在 Vulkan 后端运行 gemma3n 的问题。
• 增加时间让 ROCm 能更好地发现设备。
• 修复生成 embeddings 时的截断错误。
• 云端模型运行时修复返回的请求状态码。
• 修复 base64 编码错误,并增加距相关性测试(distance correlation test)。
•兼容性与性能
•
/v1/embeddings端点新增encoding_format参数。• 优化对不符合
{ "name": name, "arguments": args }格式的工具调用的解析。• 提升模型调度速度。
• 修复
FROM指令不继承 RENDERER 或 PARSER 命令的问题。
•系统与后端改进
• ROCm 启动时间增加以改善设备检测。
• Vulkan PCI ID 及相关处理修正。
• 内存分配策略从指数回退改为增量回退。
•测试与稳定性
• 强化调度器测试。
• 增加 embedding 测试对 base64 字符串的精确校验。
• 修复 embeddinggemma 集成测试问题。
• 强化服务器生命周期的稳定性。
•其他修复
• 修复 conv2d 偏置问题。
• 云端代理的内容类型与本地模型保持一致。
• 删除对缺失
标签的警告(qwen3-vl)。• 内核缓存(kvcache)优化,移除预留掩码的特殊处理。
Ollama v0.12.7 是一次重要的迭代更新,不仅在模型资源方面进行了扩展(Qwen3-VL、MiniMax-M2),还引入了更贴近用户使用的功能(文件输入、思考等级调节)。此外,API 的增强、后端性能优化以及大量的 Bug 修复,都让该版本在稳定性、灵活性方面都有显著提升。对于需要大模型能力的开发者而言,v0.12.7 提供了更稳定、更强大的工具环境。
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.