网易首页 > 网易号 > 正文 申请入驻

端侧跑大模型,现在也太简单了

0
分享至

机器之心编译

最近,我们都在关注旗舰级大模型的进步,其实本地运行的 AI 模型也迎来了重要的分水岭。

在可行性和实用性方面,很多新模型已经实现了性能的跨越,不论智力、智能体(Agent)能力还是工具链成熟度,在最近半年里都有巨大的提升。

看起来已经能做到「点两下就能跑」了。

本文作者 Vicki Boykis 是一家创业公司的创始机器学习工程师,主要从事推荐系统 / 个性化 / 信息检索方面的工作。

此前,她曾在 Mozilla.ai 从事 LLM 和 LLM 基础设施方面的工作,也曾在 Duo、Tumblr、Automattic 和 Comcast 从事机器学习和推荐系统方面的工作。

她最近发表的博客文章,在 HackerNews 上成了爆款:



我从本地模型刚推出时就开始和它们合作,现在它们已经做得出乎意料地好了。

我有一台 2022 年款 M2 Mac,配备 64 GB 内存和 1TB 存储空间。基于这样的硬件,我一直都在使用:

  • Mistral 7B
  • Gemma 3
  • OpenAI OSS-20B
  • Qwen 3 MOE,以及其他一些 Qwen 变体,例如 Qwen 2.5 Coder。

在许多不同的系统设置中,例如:

  • 使用 Open WebUI 的原始 llama.cpp 文件
  • llama-cpp-python
  • Ollama
  • llamafiles
  • LM Studio

现在的本地模型,是个什么水平?

在大模型兴起后,本地模型运行缓慢、难以使用是常态,而且对于大多数编程任务来说准确率不高。本地模型严重落后的观点在很大程度上是正确的,直到 2025 年 8 月 OpenAI GPT-OSS 的发布才让我们改变了这种看法。我没有确凿的科学证据 —— 我个人判断一个模型是否足够好的标准是「我是否需要将其与 API 模型进行比对」,而 GPT-OSS 是我第一个开始大幅减少这种比对次数的模型。

因此,我主要使用本地模型作为快速、个性化的谷歌,来解答不需要时效性的开发问题。

但是随着谷歌最新发布的 Gemma 4 系列产品,我终于能够在本地进行智能体编码,并且循环的准确率 / 速度达到了前沿模型的 75% 左右,这真是令人难以置信。

目前为止,我一直使用 gemma-4-26b-a4b LM Studio 实现作为我的默认本地模型。到目前为止,我使用本地设置完成了以下工作:将一个 Python 脚本(原本是一个 notebook)重构为一个包含 5-6 个模块的仓库,并对该模块进行代码检查,以确保泛型使用正确的类型提示(现在大多数前沿模型都会自动执行此操作,但并非总是如此)。



我还用它来校对一些博客文章、编写单元测试,以及搭建一个基于双塔模型的推荐系统仓库,看看智能体在空白环境下会如何运作。以下是它生成的内容,虽然非常基础,但仍然远远超出了我去年所能想象的范围:





请注意,由于我将所有智能体工作流运行在具有有限执行权限的 Docker 容器中,因此环境受到限制。

我还在开发一款应用,用于筛选 arXiv 论文中的热门话题。出于好奇,我让 Pi 查看了我之前的 LM Studio 会话日志,想弄清楚我使用 LM Studio 的目的是什么:





不出所料,自从我开始参与 Rijksearch 项目以来,



这些任务都不是什么突破性的任务(再次强调,都是大量的个性化 Google / 文档查找),但处理这些任务确实让我的 GPU 和 RAM 得到了充分的使用,KV 缓存增长到了 64 GB RAM。



但对我来说,更重要的一点是,就在 6 个月前,这类任务即使再简单,对于本地模型来说也是不可能完成的。

Gemma-4-12b-qat 虽然刚发布不久,但其性能与规模相比已经给我留下了深刻的印象。模型架构本身就非常有趣,并提出了一系列引人深思的问题,例如「如果我们受到性能和价格的限制,我们需要在架构上做出哪些权衡?」—— 这个问题在目前疯狂的 token 淘金热潮中还没有真正被提出过。

本地运行 Agent 模型

但别光听说,自己动手试试吧!如果你想运行本地智能体流程,你需要一个本地模型推理引擎、一个智能体框架以及本地模型工件。你需要配置智能体框架,使其指向你的本地推理端点,也就是通过推理引擎提供的已下载模型工件。

就我的本地设置而言,我目前使用 Pi 作为智能体框架,LM Studio 作为推理服务器,尽管如果我直接使用 llama.cpp 可能会更快 —— 这是未来实验的一个潜在方向。

这篇文章(https://patloeber.com/gemma-4-pi-agent/)很容易理解,它指导我们如何用 Pi 和 LM Studio 设置智能体编码,虽然我对文章中的设置做了一些调整。

1、模型:该文章推荐 Gemma 26B A4B,但 gemma-4-12b-qat 更新、更小、更快,而且准确性没有太大损失。

2、安全性:我将所有 Pi 会话都运行在 Docker 容器中,并只授予其 bash 权限,这样它就无法运行 Python 代码或进行网页浏览,尽管我计划在另一个镜像中允许 curl 用于我正在进行的一些研究工作。

3、智能体配置:由于我所有程序都在 Docker 中运行,所以我编辑了 Pi 的配置 models.json,以便让 Pi 与模型通信。

"lmstudio": { "baseUrl": "http://host.docker.internal:1234/v1",

"api": "openai-completions",

"apiKey": "not-needed",

"models": [ { "id": "google/gemma-4-12b-qat",

"input": [ "text",

"image" ] } ] }

这是我的 Docker Compose 配置:

services:

pi:

build:

context: .

dockerfile: Dockerfile

image: pi-agent:0.74.0

init: true

stdin_open: true

tty: true

extra_hosts:

- "host.docker.internal:host-gateway" environment:

ANTHROPIC_API_KEY: ${ANTHROPIC_API_KEY:-} OPENAI_API_KEY: ${OPENAI_API_KEY:-not-needed} GEMINI_API_KEY: ${GEMINI_API_KEY:-} OPENAI_API_BASE: ${OPENAI_API_BASE:-http://host.docker.internal:1234/v1} # note that you'll need to specify a base if you also use OpenAI to access OpenAI's actual completions endpoint WHATEVER_API_KEY: ${WHATEVER_API_KEY:-} volumes:

- ${HOME}/.pi/agent/models.json:/config/models.json

- ${WORKSPACE:-.}:/workspace

- pi-config:/config

- pi-sessions:/sessions

working_dir: /workspace

volumes:

pi-config:

pi-sessions:

这是运行的 bash 脚本 pi。

#!/usr/bin/env bash

# Pi — Start the containerized Pi agent.

# Directory containing this script and the compose files.SCRIPT_DIR="(dirname "${BASH_SOURCE[0]}")" && pwd)"

# Workspace to mount into the container. WORKSPACE_DIR="${WORKSPACE:-$(pwd)}"case "$WORKSPACE_DIR" in

*) WORKSPACE_DIR="WORKSPACE_DIR" && pwd)" ;;

esacexport WORKSPACE="$WORKSPACE_DIR"

sandbox="${PI_SANDBOX:-0}"pi_args=()

while (($#)); do case "$1" in

--sandbox) sandbox=1 ;;

--no-sandbox) sandbox=0 ;;

*) pi_args+=("$1") ;;

esac shift

done

compose_files=( -f "$SCRIPT_DIR/docker-compose.yml" )if [[ "$sandbox" == "1" ]]; then # an even more secure sandbox compose_files+=( -f "$SCRIPT_DIR/docker-compose.sandbox.yml" )fi

# Derive a container name from the workspace directory's basename.# Sanitize to characters Docker accepts: [a-zA-Z0-9][a-zA-Z0-9_.-]*repo_slug="WORKSPACE_DIR" | tr -c 'a-zA-Z0-9_.-' '-' | sed 's/^-*//')"[[ -z "$repo_slug" ]] && repo_slug="workspace"container_name="pi-${repo_slug}-$$"

api_key_args=( -e OPENAI_API_KEY

-e DEEPSEEK_API_KEY

-e ANTHROPIC_API_KEY

-e GEMINI_API_KEY

cmd=( docker compose

--project-directory "$SCRIPT_DIR" "${compose_files[@]}" run --rm

--name "$container_name" "${api_key_args[@]}" pi

if ((${#pi_args[@]})); then cmd+=("${pi_args[@]}")fi

exec "${cmd[@]}"

我构建了 Docker 容器,并修改了它自身仓库中的文件。然后,我在我正在编辑的仓库中运行 Pi,这样 Pi 就会启动 Docker,从而避免因直接操作我的物理硬盘而擦除文件或目录。此外,json 通过将自定义模型配置传输到容器中,运行在容器中的 Pi 也能够访问这些配置。所有这些在我的实验中都运行良好。

本地模型仍然存在一些问题:推理速度可能较慢,上下文窗口较小且受限于你自己的硬件和生态系统,尽管像 LM Studio 和 HuggingFace 的「使用此模型」按钮之类的工具已经大大简化了相关工作。早期版本存在提示模板不匹配的问题。不过,这些问题通常都能很快得到修复。毋庸置疑,我不确定它是否已经完全准备好用于生产软件开发。

不过,其优势众多,而且该生态系统至关重要,值得投资,尤其是在当下。本地化模式最吸引人的地方之一在于,你可以深入了解几乎所有方面,例如实时观察 token 推断过程。



并观察 token 的流入 / 流出。



你可以进行诸如更改本地上下文窗口、观察性能提升或下降等操作,并深入了解 GPU 如何处理令牌。你可以更改系统提示符和量化设置。你可以对比不同的模型。你还可以更改和分析测试框架。

可能性无穷无尽,工具也只会越来越好。

参考内容:

https://vickiboykis.com/2026/06/15/running-local-models-is-good-now/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
田亮女儿给爸爸当翻译,英文超级流利,扎马尾太有活力

田亮女儿给爸爸当翻译,英文超级流利,扎马尾太有活力

乡野小珥
2026-06-24 16:42:21
昨晚,比亚迪发了一款新车,让人强烈怀疑,它们成心不想干插混了

昨晚,比亚迪发了一款新车,让人强烈怀疑,它们成心不想干插混了

小李车评李建红
2026-06-24 08:00:03
臭名昭著的“中国行动计划”卷土重来,更低调、更激进了

臭名昭著的“中国行动计划”卷土重来,更低调、更激进了

观察者网
2026-06-24 13:52:15
声称对标4060实测被3060反杀:这国产显卡凭啥卖485美元

声称对标4060实测被3060反杀:这国产显卡凭啥卖485美元

我是一个粉刷匠2
2026-06-22 00:56:16
李嘉诚曹德旺可能说对了!2026年不买房,5年后会庆幸还是后悔?

李嘉诚曹德旺可能说对了!2026年不买房,5年后会庆幸还是后悔?

丁丁鲤史纪
2026-06-24 10:40:34
世界杯小组末轮上演,巴西拿下第二名或更好,可避开法国和挪威

世界杯小组末轮上演,巴西拿下第二名或更好,可避开法国和挪威

嗨皮看球
2026-06-24 11:41:14
广东高考分数线刚刚出炉!今年上大学容易,但中高分数层竞争激烈

广东高考分数线刚刚出炉!今年上大学容易,但中高分数层竞争激烈

华庭讲美食
2026-06-24 16:32:00
儿女婚后,愚蠢的父母给钱,平庸的父母给房,真正智慧的父母只做这两件事

儿女婚后,愚蠢的父母给钱,平庸的父母给房,真正智慧的父母只做这两件事

心理观察局
2026-06-20 07:38:15
记者:不理解为了捧梅西而羞辱C罗,梅西是历史最佳C罗也稳居第二

记者:不理解为了捧梅西而羞辱C罗,梅西是历史最佳C罗也稳居第二

云隐南山
2026-06-24 17:14:03
一个2米08,一个2米06,文班迎来2个帮手,复仇尼克斯有戏了

一个2米08,一个2米06,文班迎来2个帮手,复仇尼克斯有戏了

篮球大视野
2026-06-24 14:25:50
王鹤棣给王彦霖女儿寄了60多件衣服,平铺在地上满满的一客厅

王鹤棣给王彦霖女儿寄了60多件衣服,平铺在地上满满的一客厅

喜欢历史的阿繁
2026-06-24 00:15:39
消失三年后32岁乔欣近照流出,豪门阔太面相大变,网友直呼不敢认

消失三年后32岁乔欣近照流出,豪门阔太面相大变,网友直呼不敢认

橙星文娱
2026-06-24 14:23:07
油价调整:注意,预计下调650元/吨,油价跌幅加剧!

油价调整:注意,预计下调650元/吨,油价跌幅加剧!

金投网
2026-06-24 11:12:28
含钾是毛豆7倍!夏至后多吃,一补钾、二润肠、三增免疫,别不懂

含钾是毛豆7倍!夏至后多吃,一补钾、二润肠、三增免疫,别不懂

今日养生之道
2026-06-24 12:19:51
江苏省 2026 年普通高校招生第一阶段录取控制分数线出炉!

江苏省 2026 年普通高校招生第一阶段录取控制分数线出炉!

我爱栟茶论坛
2026-06-24 16:44:57
高考成绩出来了:不要让你的第一反应,成为孩子往后10年的阴影

高考成绩出来了:不要让你的第一反应,成为孩子往后10年的阴影

洞见
2026-06-24 10:10:44
498 元,苹果"三合一"新品上架!

498 元,苹果"三合一"新品上架!

科技堡垒
2026-06-23 10:14:48
东风-17亮剑,31国全安静了?中国这一手,藏着2个没说破的警告

东风-17亮剑,31国全安静了?中国这一手,藏着2个没说破的警告

李健政观察
2026-06-22 17:20:15
重大揭秘,两年前中国用洲际导弹颠覆了世界局势

重大揭秘,两年前中国用洲际导弹颠覆了世界局势

枫冷慕诗
2026-06-22 15:25:43
WPS回应C盘占用致电脑卡顿问题:已成立专项组核查,缓存设置入口优化、按周期自动清理等功能将于近期上线

WPS回应C盘占用致电脑卡顿问题:已成立专项组核查,缓存设置入口优化、按周期自动清理等功能将于近期上线

大风新闻
2026-06-23 12:33:51
2026-06-24 19:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13348文章数 142680关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

外媒:又一名美四星上将在美防长迫使下提前离职

头条要闻

外媒:又一名美四星上将在美防长迫使下提前离职

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

数码
健康
本地
游戏
军事航空

数码要闻

华硕天选7X游戏主机体验:酷睿Ultra 9与5060Ti的360W狂暴释放

神经内科专家破解中风十大谣言

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

《GTA6》预购奖励公布!豪华内容多到爆

军事要闻

伊朗代表:霍尔木兹海峡已免费开放

无障碍浏览 进入关怀版