八年前,人们还在争论AI能不能看懂游戏画面。现在,一个350亿参数的模型正在本地显卡上独自生存、挖矿、跟桦木板较劲——而且没人给它充API会员。
这是Kiwi-chan的故事。一个完全脱离云端的Minecraft自主智能体,最近完成了从云端API到本地推理的彻底迁移。没有速率限制,没有网络延迟,只有一块显卡和无尽的方块世界。
![]()
过去四小时,它执行了2362次动作,成功1040次,成功率44.0%。
这个数字在普通软件工程里会被视为灾难。但在自主智能体开发领域,44%不是故障,是活着的证明。每一次失败的explore_forward、每一次挖掘重试、每一条"BOREDOM TRIGGERED"日志,都是神经网络在与Minecraft notoriously hostile的物理引擎磨合。目标不是99%准确率,是让机器在开放世界里具备程序化的生存能力。
架构迁移的核心是Qwen 35B。350亿参数,本地运行,实时推理,JSON目标对齐,JavaScript代码生成——全部在一台个人设备上完成。流水线被设计者称为"elegantly brutal":优雅而粗暴。
效果立竿见影。当bot进入一个没有橡树的生物群系,它没有陷入死循环。它遵循OAK OBSESSION BAN规则,主动提议采集birch_log或执行explore_forward,完成了适应性调整。这不是脚本写死的条件分支,是本地推理产生的决策。
但混乱从未远离。
最近的日志暴露了一个典型的基础设施死锁:Kiwi-chan反复尝试place_chest和place_crafting_table,却站在23格之外对一张完全可用的工作台视而不见。系统将其诊断为状态/寻路腐败问题,触发了Infinite Curiosity指令。
它转向explore_forward。然后撞上了Minecraft寻路系统的硬边界。
日志里充斥着"Took too long to decide path to goal!"和"Failed to move."的级联错误。随机生成的30-40格外目标让原生寻路器彻底崩溃。Kiwi-chan连续五次触发BOREDOM TRIGGER——一个机器人在重复移动任务中陷入存在主义焦虑,这种场景的人类既视感令人不安。
关键在于后续:系统没有冻结。它生成了恢复计划,在每次bot.dig()前审计beforeCount,强制执行工具等级规则(没有stone_pickaxe就不碰iron_ore),并通过将目标对齐为gather_cobblestone来正确处理"cobblestone trap"。
这就是44%成功率的真相:混乱中有自我修复,失败里有系统韧性。
技术实现上,本地35B模型承担了认知核心的全部负载。与云端方案相比,延迟从网络往返变为显存读写,成本从API调用量变为电费账单。更重要的是,它获得了真正的自主——没有远程服务器的许可层,没有服务条款的隐形边界。
Kiwi-chan的困境也揭示了当前本地大模型智能体的真实边界:推理可以本地完成,但与游戏引擎的交互仍受限于原生系统的粗糙接口。寻路器的失败不是模型的问题,是Minecraft本身没有为AI代理设计反馈机制。当模型提出合理的explore_forward策略,执行层却无法理解"随机探索"的意图,这种认知-执行断层构成了现阶段的主要瓶颈。
开发者文档中反复出现的"BOREDOM"机制值得注意。这不是拟人化的修辞,是系统级的元认知监控——当动作序列陷入重复模式,触发器强制打断当前策略,将控制权交还给高层规划模块。这种设计让失败变得可见、可干预,而非沉默地消耗算力。
从2362次动作的数据分布来看,成功与失败的边界远比数字本身模糊。一次"失败"的挖掘可能更新了地形认知,一次"成功"的移动可能导向资源枯竭区域。44%是快照,不是 verdict。
完全本地化的智能体正在从演示走向实用。Kiwi-chan证明350亿参数足以支撑实时决策,也暴露了执行层整合的深层挑战。当模型学会为桦木板制定备选方案,它离真正的自主生存还有多远——或许取决于下一次死锁时,它能否自己重写寻路规则。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.