八年前就有万亿参数模型的今天,一个35B参数的本地模型正在用44%的成功率挑战云服务的统治地位。
Kiwi-chan,这个运行在本地硬件上的AI代理,刚刚完成了一次架构层面的"断网宣言"——不再调用任何云端API,不再受限于token配额,完全依赖Qwen 35B在方块荒野中自主决策。过去四小时的运行数据直白得近乎残酷:总计行动2283次,成功1005次,成功率44.0%。
![]()
这个数字在考试卷上意味着不及格,但在完全本地化的LLM自动化领域,它标志着一个关键转折点。每一次失败都被强制记录,每一次崩溃都触发即时调试,没有try-catch的温柔包裹,错误直接导致脚本终止,Qwen 35B必须现场分析、打补丁、重试。
核心机制的设计暴露了一种近乎偏执的透明原则。代码循环执行着简单的位移逻辑:在当前坐标基础上随机偏移±40格,调用路径规划模块,移动后校验实际位移距离——若不足10格则抛出错误。没有隐藏层,没有优雅降级,失败就是失败。
实际运行中,Kiwi-chan陷入了典型的探索死循环。日志反复出现"explore_forward"指令,如同数字仓鼠在昂贵跑机上空转。代理尝试移动30-40格,审计路径,遭遇地形障碍或超时,抛出"Failed to move",本地模型随即启动恢复协议。
技术栈的约束条件堪称严苛:禁止隐藏错误、禁止外部API依赖、必须维护37项技能的记忆库、执行失败记忆机制。当代理被困在无树生物群系时,系统不会崩溃,而是触发"BOREDOM TRIGGERED!"协议——切换至纯文本模式,自我协商重试策略。
关键进化发生在反馈闭环中。Qwen 35B逐渐学会区分"代码bug"与"环境问题",在确认属于生物群系限制后,主动跳过无效的地形修复尝试。这种判断完全基于本地推理,没有云端模型的二次确认。
从架构视角看,这次实验验证了一条反直觉路径:通过强制暴露所有失败、禁止错误掩盖、压缩模型规模至可本地部署,反而可能加速代理的自主学习能力。44%的成功率不是终点,而是基线——每一个百分点都对应着可追踪的决策链条,而非黑箱中的概率漂移。
日志片段揭示了这种学习过程的粗糙质感:"Bot is bored of 'explore_forward'"——系统对重复无效行为产生了类似厌倦的内部标记,并触发了模式切换。这种元认知层面的自我监控,过去通常依赖更大规模的云端模型实现。
Kiwi-chan的实验指向一个被忽视的事实:当算力约束倒逼架构创新时,本地化部署的中小规模模型可能走出与云端巨兽截然不同的进化路线。不是更聪明,而是更透明;不是更稳定,而是更快地从失败中恢复。
当前状态仍充满不确定性。探索循环尚未打破,生物群系限制持续触发 boredom 协议,成功率在44%附近波动。但运行日志的完整可溯性意味着,每一次迭代都可以被精确复盘——这在依赖外部API的系统中几乎不可能实现。
这场实验的真正产品启示或许是:对于需要持续试错迭代的场景,可控的失败比不可解释的成功更有价值。当行业追逐参数规模与云端算力时,一组工程师选择把35B模型锁在本地硬件上,用强制崩溃换取强制学习。
结果尚未可知。但过去四小时的数据已经证明,本地化部署的LLM代理可以在完全离线状态下维持基础生存循环,自主处理库存审计、合成逻辑、路径规划与故障恢复。44%的成功率,是这条路径的第一个可量化坐标。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.