大家好,我是 Ai 学习的老章
Ollama 是咱们公众号的常客了,比较重要的几个功能升级我都写过文章介绍
Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的,GGUF 模型格式也是由 llama.cpp 的作者所开发。
现在 llama.cpp 迎来重大更新,它也有了自己的 Web UI,我测试了安装部署和自行打包,很多地方确实比 Ollama 还有方便好用。
官方介绍,优势如下:
完全免费、开源且由社区驱动
在所有硬件上表现出色
高级上下文和前缀缓存
并行和远程用户支持
极其轻量级且内存高效
充满活力且富有创造力的社区
100% 隐私
使用之前需要先安装 llama.cpp server
![]()
我还是喜欢命令行直接安装
## Winget (Windows)
winget install llama.cpp
## Homebrew (Mac and Linux)brew install llama.cpp
然后启动 UI,也是命令行,为了快速测试,我调用 Qwen2.5 的 0.5b
llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033
量化后模型文件来到不到 500Mb,我发现它默认选 q4_k_m
![]()
然后浏览器打开
![]()
随便问个问题,速度 97t/s
![]()
对比 Ollama 82t/s的样子
![]()
其他功能也都挺实用
从磁盘或剪贴板添加多个文本文件到对话的上下文中
![]()
将一个或多个 PDF 附件添加到对话中。默认情况下,PDF 的内容将被转换为纯文本,不包括任何视觉元素。
![]()
也可以在 AI 模型支持的情况下将 PDF 处理为图像。
![]()
当所选的 AI 模型具有视觉输入能力时,可以在对话中插入图片:
![]()
图片可以与文本上下文一起插入:
![]()
可以渲染数学表达式:
![]()
使用 Import/Export 选项直接管理私人对话:
![]()
新的 WebUI 对移动设备友好:
![]()
其他功能还有,比如:
支持通过 URL 参数传递输入
根据之前的讨论点编辑或重新生成消息以创建分支
同时运行多个聊天对话
并行图像处理
支持嵌入式渲染生成的 HTML/JS 代码
指定一个自定义的 JSON 模式以约束生成的输出到特定格式
目前硬伤是只能浏览器,想打包成 app 也可以,我使用的是 tw93 开发的 pake,一行命令即可,本地服务也可以打包成 app
![]()
然后它就将只能浏览器访问的 web 应用打包成 app 了
![]()
如此轻量舒服的应用,我与这位网友有相同的期待——支持其他模型的接入
![]()
总结来看,,但是 Ollama 玩了这么久也不是吃素的 1、Ollama 有更加方便的 app,随时切换本地模型甚是方便 2、Ollama 还有免费云模型可以调用呢,deepseek-v3.1:671b-cloud都敢给 3、网络问题,它目前只能支持 HF 下载模型,国内用户不友好 4、网络搜索和 MCP 也不支持
最后再说一句,它和 ollama 一样,都适合个人用户使用,企业就别折腾了,并发太差:
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.