35B本地大模型玩Minecraft：44%成功率背后的真相|云端|推理|神经网络|minecraft

35B本地大模型玩Minecraft：44%成功率背后的真相

2026-05-08 10:02:17　来源: 全栈遛狗员

北京举报

分享至

八年前，人们还在争论AI能不能看懂游戏画面。现在，一个350亿参数的模型正在本地显卡上独自生存、挖矿、跟桦木板较劲——而且没人给它充API会员。

这是Kiwi-chan的故事。一个完全脱离云端的Minecraft自主智能体，最近完成了从云端API到本地推理的彻底迁移。没有速率限制，没有网络延迟，只有一块显卡和无尽的方块世界。

过去四小时，它执行了2362次动作，成功1040次，成功率44.0%。

这个数字在普通软件工程里会被视为灾难。但在自主智能体开发领域，44%不是故障，是活着的证明。每一次失败的explore_forward、每一次挖掘重试、每一条"BOREDOM TRIGGERED"日志，都是神经网络在与Minecraft notoriously hostile的物理引擎磨合。目标不是99%准确率，是让机器在开放世界里具备程序化的生存能力。

架构迁移的核心是Qwen 35B。350亿参数，本地运行，实时推理，JSON目标对齐，JavaScript代码生成——全部在一台个人设备上完成。流水线被设计者称为"elegantly brutal"：优雅而粗暴。

效果立竿见影。当bot进入一个没有橡树的生物群系，它没有陷入死循环。它遵循OAK OBSESSION BAN规则，主动提议采集birch_log或执行explore_forward，完成了适应性调整。这不是脚本写死的条件分支，是本地推理产生的决策。

但混乱从未远离。

最近的日志暴露了一个典型的基础设施死锁：Kiwi-chan反复尝试place_chest和place_crafting_table，却站在23格之外对一张完全可用的工作台视而不见。系统将其诊断为状态/寻路腐败问题，触发了Infinite Curiosity指令。

它转向explore_forward。然后撞上了Minecraft寻路系统的硬边界。

日志里充斥着"Took too long to decide path to goal!"和"Failed to move."的级联错误。随机生成的30-40格外目标让原生寻路器彻底崩溃。Kiwi-chan连续五次触发BOREDOM TRIGGER——一个机器人在重复移动任务中陷入存在主义焦虑，这种场景的人类既视感令人不安。

关键在于后续：系统没有冻结。它生成了恢复计划，在每次bot.dig()前审计beforeCount，强制执行工具等级规则（没有stone_pickaxe就不碰iron_ore），并通过将目标对齐为gather_cobblestone来正确处理"cobblestone trap"。

这就是44%成功率的真相：混乱中有自我修复，失败里有系统韧性。

技术实现上，本地35B模型承担了认知核心的全部负载。与云端方案相比，延迟从网络往返变为显存读写，成本从API调用量变为电费账单。更重要的是，它获得了真正的自主——没有远程服务器的许可层，没有服务条款的隐形边界。

Kiwi-chan的困境也揭示了当前本地大模型智能体的真实边界：推理可以本地完成，但与游戏引擎的交互仍受限于原生系统的粗糙接口。寻路器的失败不是模型的问题，是Minecraft本身没有为AI代理设计反馈机制。当模型提出合理的explore_forward策略，执行层却无法理解"随机探索"的意图，这种认知-执行断层构成了现阶段的主要瓶颈。

开发者文档中反复出现的"BOREDOM"机制值得注意。这不是拟人化的修辞，是系统级的元认知监控——当动作序列陷入重复模式，触发器强制打断当前策略，将控制权交还给高层规划模块。这种设计让失败变得可见、可干预，而非沉默地消耗算力。

从2362次动作的数据分布来看，成功与失败的边界远比数字本身模糊。一次"失败"的挖掘可能更新了地形认知，一次"成功"的移动可能导向资源枯竭区域。44%是快照，不是 verdict。

完全本地化的智能体正在从演示走向实用。Kiwi-chan证明350亿参数足以支撑实时决策，也暴露了执行层整合的深层挑战。当模型学会为桦木板制定备选方案，它离真正的自主生存还有多远——或许取决于下一次死锁时，它能否自己重写寻路规则。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.