网易首页 > 网易号 > 正文 申请入驻

44%成功率背后:一个本地大模型的生存实验

0
分享至

八年前就有万亿参数模型的今天,一个35B参数的本地模型正在用44%的成功率挑战云服务的统治地位。

Kiwi-chan,这个运行在本地硬件上的AI代理,刚刚完成了一次架构层面的"断网宣言"——不再调用任何云端API,不再受限于token配额,完全依赖Qwen 35B在方块荒野中自主决策。过去四小时的运行数据直白得近乎残酷:总计行动2283次,成功1005次,成功率44.0%。


这个数字在考试卷上意味着不及格,但在完全本地化的LLM自动化领域,它标志着一个关键转折点。每一次失败都被强制记录,每一次崩溃都触发即时调试,没有try-catch的温柔包裹,错误直接导致脚本终止,Qwen 35B必须现场分析、打补丁、重试。

核心机制的设计暴露了一种近乎偏执的透明原则。代码循环执行着简单的位移逻辑:在当前坐标基础上随机偏移±40格,调用路径规划模块,移动后校验实际位移距离——若不足10格则抛出错误。没有隐藏层,没有优雅降级,失败就是失败。

实际运行中,Kiwi-chan陷入了典型的探索死循环。日志反复出现"explore_forward"指令,如同数字仓鼠在昂贵跑机上空转。代理尝试移动30-40格,审计路径,遭遇地形障碍或超时,抛出"Failed to move",本地模型随即启动恢复协议。

技术栈的约束条件堪称严苛:禁止隐藏错误、禁止外部API依赖、必须维护37项技能的记忆库、执行失败记忆机制。当代理被困在无树生物群系时,系统不会崩溃,而是触发"BOREDOM TRIGGERED!"协议——切换至纯文本模式,自我协商重试策略。

关键进化发生在反馈闭环中。Qwen 35B逐渐学会区分"代码bug"与"环境问题",在确认属于生物群系限制后,主动跳过无效的地形修复尝试。这种判断完全基于本地推理,没有云端模型的二次确认。

从架构视角看,这次实验验证了一条反直觉路径:通过强制暴露所有失败、禁止错误掩盖、压缩模型规模至可本地部署,反而可能加速代理的自主学习能力。44%的成功率不是终点,而是基线——每一个百分点都对应着可追踪的决策链条,而非黑箱中的概率漂移。

日志片段揭示了这种学习过程的粗糙质感:"Bot is bored of 'explore_forward'"——系统对重复无效行为产生了类似厌倦的内部标记,并触发了模式切换。这种元认知层面的自我监控,过去通常依赖更大规模的云端模型实现。

Kiwi-chan的实验指向一个被忽视的事实:当算力约束倒逼架构创新时,本地化部署的中小规模模型可能走出与云端巨兽截然不同的进化路线。不是更聪明,而是更透明;不是更稳定,而是更快地从失败中恢复。

当前状态仍充满不确定性。探索循环尚未打破,生物群系限制持续触发 boredom 协议,成功率在44%附近波动。但运行日志的完整可溯性意味着,每一次迭代都可以被精确复盘——这在依赖外部API的系统中几乎不可能实现。

这场实验的真正产品启示或许是:对于需要持续试错迭代的场景,可控的失败比不可解释的成功更有价值。当行业追逐参数规模与云端算力时,一组工程师选择把35B模型锁在本地硬件上,用强制崩溃换取强制学习。

结果尚未可知。但过去四小时的数据已经证明,本地化部署的LLM代理可以在完全离线状态下维持基础生存循环,自主处理库存审计、合成逻辑、路径规划与故障恢复。44%的成功率,是这条路径的第一个可量化坐标。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
明明有133套汤臣一品的房子,却过得想自杀,一个月才花一万块钱

明明有133套汤臣一品的房子,却过得想自杀,一个月才花一万块钱

人生录
2026-05-08 19:07:58
我50岁才悟出一个道理:凡是从不参加同学聚会、不爱发动态、不混圈子的人,十有八九在这两个方面远超常人,观察了身边上百人屡试不爽

我50岁才悟出一个道理:凡是从不参加同学聚会、不爱发动态、不混圈子的人,十有八九在这两个方面远超常人,观察了身边上百人屡试不爽

心理观察局
2026-05-08 10:35:21
价格敲定!巴萨7500万欧元可拿下英超全能前锋,性价比拉满

价格敲定!巴萨7500万欧元可拿下英超全能前锋,性价比拉满

夜白侃球
2026-05-08 09:02:06
建议大家:马桶冲水时,不能做这3个动作,危害很大,可别大意!

建议大家:马桶冲水时,不能做这3个动作,危害很大,可别大意!

家居设计师苏哥
2026-05-08 13:03:44
雷霆被炮轰!不被吹犯规且假摔频频!雷迪克撕破遮羞布,怒喷裁判

雷霆被炮轰!不被吹犯规且假摔频频!雷迪克撕破遮羞布,怒喷裁判

听我说球
2026-05-09 07:30:10
国乒如何能赢法国?王楚钦与林诗栋的场次是关键,小心法国出黑马

国乒如何能赢法国?王楚钦与林诗栋的场次是关键,小心法国出黑马

聊体育的小哥
2026-05-09 06:55:45
曝王暖暖凌晨被送往医院抢救!全身浮肿、满脸胀红,昏迷原因曝光

曝王暖暖凌晨被送往医院抢救!全身浮肿、满脸胀红,昏迷原因曝光

动物奇奇怪怪
2026-05-08 17:16:36
卡西利亚斯向弗洛伦蒂诺放话:“我会再次签下哈维·阿隆索”

卡西利亚斯向弗洛伦蒂诺放话:“我会再次签下哈维·阿隆索”

绿茵情报局
2026-05-08 19:49:44
随着菲律宾0-0,韩国0-3,女足亚洲杯八强对阵出炉:中国PK弱旅

随着菲律宾0-0,韩国0-3,女足亚洲杯八强对阵出炉:中国PK弱旅

侧身凌空斩
2026-05-08 21:27:26
终身告别胰岛素?央视点赞糖尿病新疗法,干细胞开启“根治”时代

终身告别胰岛素?央视点赞糖尿病新疗法,干细胞开启“根治”时代

科学认识论
2026-05-08 16:00:31
充电6分钟续航2000公里!国产固态电池大突破,宁德时代或将量产

充电6分钟续航2000公里!国产固态电池大突破,宁德时代或将量产

胖福的小木屋
2026-05-06 18:47:23
名嘴:国际足联应求着央视转播世界杯 倒贴中国13亿+保送国足出线

名嘴:国际足联应求着央视转播世界杯 倒贴中国13亿+保送国足出线

念洲
2026-05-09 07:11:33
三星也被“打跑了” 但先别急着庆祝

三星也被“打跑了” 但先别急着庆祝

看看新闻Knews
2026-05-07 23:16:11
所有实验室都怕字节,所有人都在夸DeepSeek!美国研究员中国AI行

所有实验室都怕字节,所有人都在夸DeepSeek!美国研究员中国AI行

量子位
2026-05-08 12:25:08
向佑南昌酒吧包场!新女友满身纹身8颗大金牙,向太放话死都不认

向佑南昌酒吧包场!新女友满身纹身8颗大金牙,向太放话死都不认

橙星文娱
2026-05-08 17:01:23
儿魔梦!英超王牌松口愿投曼联,红魔 3 亿锋线要来了?

儿魔梦!英超王牌松口愿投曼联,红魔 3 亿锋线要来了?

澜归序
2026-05-09 06:05:59
国乒男团为何能进4强?王皓尊重林诗栋想法,梁靖崑帮王励勤减压

国乒男团为何能进4强?王皓尊重林诗栋想法,梁靖崑帮王励勤减压

体育大学僧
2026-05-08 23:02:39
梦鸽心中永远的痛:如今60岁的她,已为儿子改名,铺好下一条路

梦鸽心中永远的痛:如今60岁的她,已为儿子改名,铺好下一条路

仙味少女心
2026-05-08 05:51:48
光地皮就值2个亿的美国驻华大使馆,为何修成一座封闭式碉堡?

光地皮就值2个亿的美国驻华大使馆,为何修成一座封闭式碉堡?

贱议你读史
2026-05-07 14:58:39
保住纳税人的钱!美国防部长宣布采购革命:企业自己掏钱建厂,交不出货就换人

保住纳税人的钱!美国防部长宣布采购革命:企业自己掏钱建厂,交不出货就换人

爆角追踪
2026-05-08 08:22:25
2026-05-09 08:43:01
码上闲叙
码上闲叙
有态度网友ytd
3518文章数 43关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

媒体:特朗普若顺利来华 将是美总统时隔十年再访中国

头条要闻

媒体:特朗普若顺利来华 将是美总统时隔十年再访中国

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

白宫:特朗普计划5月14日至15日访问中国

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

房产
家居
健康
数码
军事航空

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

家居要闻

流动的尺度 打破家的形式主义

干细胞能让人“返老还童”吗

数码要闻

极摩客推出NucBox M3 Pro迷你主机:13500H,DDR4,2280+2242

军事要闻

伊朗:最高领袖穆杰塔巴全面掌控局势

无障碍浏览 进入关怀版