![]()
Claude Code 配 Opus 确实能打,但账单比代码跑得还快。有开发者实测:正经写一小时代码,额度直接清零,剩下时间只能干等重置。
等额度的时候他试了把本地模型——Ollama 上的 Qwen 3.5,9B 参数版本。结果意外发现:免费的东西居然也能用。
「活着」的幻觉,按秒计费
Opus 的能力强到让人产生诡异感。它能理解复杂需求、主动补全上下文、甚至预判你下一步想改什么。这种体验接近有个真人搭档在屏幕对面。
但 Anthropic 的定价策略把这种幻觉切得很碎。Claude Code 按 token 消耗计费,Opus 的费率又是家族里最贵的档位。生成一个中等规模的扩展功能,额度肉眼可见地蒸发。
开发者描述的状态很真实:前 50 分钟流畅如丝,最后 10 分钟突然弹窗「额度不足」。项目卡在半截,情绪也卡在半截。
![]()
这种设计某种程度上是精准的。它让你充分体验「几乎有生命」的 AI 是什么感觉,然后在关键时刻掐断,逼你做选择——充值,或者降级。
9B 参数的备胎实验
等额度重置的间隙,他决定测试本地方案的底线。Ollama 是 macOS 上的本地大模型运行框架,安装方式和普通应用没区别。
模型选了 Qwen 3.5 的 9B 版本。参数量不到 Opus 的十分之一,体积控制在消费级笔记本能流畅运行的范围。
终端里两条命令搞定:
ollama pull qwen3.5:9b
![]()
下载完成后,Claude Code 的配置指向本地 Ollama 服务而非 Anthropic 的服务器。整个过程没有编译,没有环境变量折腾,比配 Python 虚拟环境还简单。
能用,但得换种用法
实测结论是:别和 Opus 比深度推理,但它能覆盖 60% 的日常场景。代码补全、函数重构、简单 bug 定位,响应速度甚至更快——因为数据不用往返云端。
明显的短板在复杂上下文。让 9B 模型处理跨文件的架构调整,它会开始「失忆」,重复问已经给过的信息。这时候你得手动切分任务,把大需求拆成小块喂进去。
但「免费+本地」的组合创造了新的使用场景。飞机上、酒店 Wi-Fi 限速时、或者单纯不想把代码片段传到第三方服务器,这套方案突然有了不可替代性。
开发者最后把两者搭配使用:Opus 处理架构级决策,本地 9B 打杂。账单压力骤降,流畅度却没掉多少。
Claude Code 的设计者大概没预料到这种用法——或者他们预料到了,只是选择不强调。毕竟,让用户发现「免费备胎」的存在,对营收不是什么好消息。
你现在愿意为了省额度,手动拆任务喂给本地小模型吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.