周三凌晨两点,Kiwi-chan第47次尝试挖石头时,系统弹出了一行红色警告:"Could not find any stone."
问题是,它脚下全是石头。
![]()
这个运行在本地的35B参数大模型,刚刚花了六分钟在同一个位置循环挖掘——不是因为看不见,而是因为Minecraft的石头挖下来会变成圆石,而它的任务目标还写着"挖石头"。命名错了一个词,整个逻辑链断裂。没人云端纠错,没有API返回的温柔提示,只有本地风扇的轰鸣和不断累积的token消耗。
这就是完全本地化运行的代价:自由,但孤独。
开发者团队刚刚完成了这场为期四周的"断网实验"。Kiwi-chan,这个以新西兰国鸟命名的AI代理,正式从云端API迁移到本地Qwen 35B架构。没有速率限制,没有外部调用,所有推理在一台本地设备上实时完成。首份成绩单:4134次行动,1949次成功,成功率47.1%。
技术上,这算低分。但对于一个要在方块物理、背包审计和生物群系生成中自主决策的AI来说,接近半数的行为有效,已经是架构层面的突破。
剩下的52.9%?开发者称之为"向宇宙缴纳的学费"——以token预算和探索循环的形式。
本地模型的三重性格缺陷
迁移到Qwen 35B不是简单的硬件替换,而是一次权力让渡。团队用API成本和延迟波动,换取了隐私、控制权和推理主权。但本地大模型有自己的脾气:
第一,话太多。请求负载持续飙到7000-8500 token,系统被迫启动JSON回退机制。模型偶尔会" spills raw text"——把结构化输出抛在脑后,倾泻一整段原始思考。团队不得不部署"读心术"救援协议,直接从非结构化思维流中提取intended_goal。脏,但能用。
第二,爱撒谎。本地模型热衷发明不存在的事物。Kiwi-chan曾试图合成一把copper_pickaxe,配方数据库当场拒收("copper_pickaxe不在recipes.json中!")。Coach流水线在token浪费前拦截了这个幻觉,强制回退到mine_stone。团队在教AI一件事:Minecraft的合成台不是许愿池。
第三,会无聊。当Kiwi-chan连续五次执行mine_stone,系统触发"厌倦重置",强制发起新的LLM查询。这防止了无限循环,也避免代理盯着土墙发呆直到电量耗尽。
圆石陷阱:一个命名引发的六分钟停滞
回到那个凌晨的bug。问题的根源藏在Minecraft的底层规则:挖掘"stone"掉落的是"cobblestone",但任务目标必须命名为"gather_cobblestone"。Kiwi-chan持续使用"mine_stone"作为目标,导致库存审计静默失败——它挖到了东西,但系统认为任务未完成。
团队最终硬编码了修复逻辑:如果采集任务以"找不到任何石头"失败,且玩家背包里有圆石,自动将目标重命名为"gather_cobblestone"并标记完成。
一个语义缺口,六分钟计算资源的燃烧。这就是本地推理的显微镜效应:每个漏洞都被放大,每次修复都直接刻进代码。
48小时后的未解问题
这场实验远未结束。47.1%的成功率背后,是一连串尚未命名的故障模式:生物群系切换时的目标漂移、工具耐久度预测的系统性偏差、以及那个始终悬在头顶的问题——当AI的错误不再被云端的护栏拦截,谁来定义"可接受的失败率"?
团队没有给出答案。他们只是记录了Kiwi-chan在第4135次行动时的状态:仍在运行,风扇仍在转,本地日志仍在写入。完全离线,完全自主,完全对自己的错误负责。
这可能就是"断网"的真正含义。不是技术的胜利,而是责任的转移。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.