47%成功率背后：一个AI摆脱云端的48小时|宇宙|推理|kiwi

47%成功率背后：一个AI摆脱云端的48小时

2026-05-12 07:50:25　来源: Ping值焦虑

北京举报

分享至

周三凌晨两点，Kiwi-chan第47次尝试挖石头时，系统弹出了一行红色警告："Could not find any stone."

问题是，它脚下全是石头。

这个运行在本地的35B参数大模型，刚刚花了六分钟在同一个位置循环挖掘——不是因为看不见，而是因为Minecraft的石头挖下来会变成圆石，而它的任务目标还写着"挖石头"。命名错了一个词，整个逻辑链断裂。没人云端纠错，没有API返回的温柔提示，只有本地风扇的轰鸣和不断累积的token消耗。

这就是完全本地化运行的代价：自由，但孤独。

开发者团队刚刚完成了这场为期四周的"断网实验"。Kiwi-chan，这个以新西兰国鸟命名的AI代理，正式从云端API迁移到本地Qwen 35B架构。没有速率限制，没有外部调用，所有推理在一台本地设备上实时完成。首份成绩单：4134次行动，1949次成功，成功率47.1%。

技术上，这算低分。但对于一个要在方块物理、背包审计和生物群系生成中自主决策的AI来说，接近半数的行为有效，已经是架构层面的突破。

剩下的52.9%？开发者称之为"向宇宙缴纳的学费"——以token预算和探索循环的形式。

本地模型的三重性格缺陷

迁移到Qwen 35B不是简单的硬件替换，而是一次权力让渡。团队用API成本和延迟波动，换取了隐私、控制权和推理主权。但本地大模型有自己的脾气：

第一，话太多。请求负载持续飙到7000-8500 token，系统被迫启动JSON回退机制。模型偶尔会" spills raw text"——把结构化输出抛在脑后，倾泻一整段原始思考。团队不得不部署"读心术"救援协议，直接从非结构化思维流中提取intended_goal。脏，但能用。

第二，爱撒谎。本地模型热衷发明不存在的事物。Kiwi-chan曾试图合成一把copper_pickaxe，配方数据库当场拒收（"copper_pickaxe不在recipes.json中！"）。Coach流水线在token浪费前拦截了这个幻觉，强制回退到mine_stone。团队在教AI一件事：Minecraft的合成台不是许愿池。

第三，会无聊。当Kiwi-chan连续五次执行mine_stone，系统触发"厌倦重置"，强制发起新的LLM查询。这防止了无限循环，也避免代理盯着土墙发呆直到电量耗尽。

圆石陷阱：一个命名引发的六分钟停滞

回到那个凌晨的bug。问题的根源藏在Minecraft的底层规则：挖掘"stone"掉落的是"cobblestone"，但任务目标必须命名为"gather_cobblestone"。Kiwi-chan持续使用"mine_stone"作为目标，导致库存审计静默失败——它挖到了东西，但系统认为任务未完成。

团队最终硬编码了修复逻辑：如果采集任务以"找不到任何石头"失败，且玩家背包里有圆石，自动将目标重命名为"gather_cobblestone"并标记完成。

一个语义缺口，六分钟计算资源的燃烧。这就是本地推理的显微镜效应：每个漏洞都被放大，每次修复都直接刻进代码。

48小时后的未解问题

这场实验远未结束。47.1%的成功率背后，是一连串尚未命名的故障模式：生物群系切换时的目标漂移、工具耐久度预测的系统性偏差、以及那个始终悬在头顶的问题——当AI的错误不再被云端的护栏拦截，谁来定义"可接受的失败率"？

团队没有给出答案。他们只是记录了Kiwi-chan在第4135次行动时的状态：仍在运行，风扇仍在转，本地日志仍在写入。完全离线，完全自主，完全对自己的错误负责。

这可能就是"断网"的真正含义。不是技术的胜利，而是责任的转移。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.