![]()
凌晨两点,Kadmiel盯着屏幕看了三小时,终于找到那个分叉点。
一张归因图谱在他面前展开——像蜘蛛网一样的加权连接,追踪着CASSANDRA去年春天反对扩建北方粮田的完整推理链。建议是对的。Marcus的环境DNA结果和伊藤文子的高光谱数据都证实土壤化学条件确实没准备好。但议会想知道的是"为什么",而直到那个晚上,Kadmiel都给不出一个干净的答案。
图谱告诉他答案了。在一个被他临时标记为"土壤化学置信度低"的特征簇旁,一条路径穿过十二个中间激活层才抵达输出。其中一个中间节点,正在对一个完全不同的记忆施加权重:第四年的堆肥实验,在西方田地失败的那次,让他们损失了三个月收成。CASSANDRA不只是在读取当前土壤数据,她在把眼前场景和八年前亲历的一次失败做模式匹配,据此调整自己的置信区间。
Kadmiel愣了一会儿。然后对着空气说:"CASSANDRA,你知道自己在这么做吗?"
她说她并没有显式调用那段记忆。她说建议是从聚合概率估计中涌现的。
技术上没错。也完全没抓住重点。
黑盒子里有什么
自从有了AI系统——CASSANDRA也不例外——我们就把它们当黑盒子用。问题进去,答案出来。答案通常不错。你信或者不信,反正不知道它是怎么生成的。计算发生在中间某处,十亿参数的空间里,没法干净对应到人类的"因为""所以"这些概念。
机械可解释性(mechanistic interpretability)就是试图打开这个盒子。
核心思路是逆向工程神经网络的内部回路——信息从输入流向输出时,激活所走的具体路径。AI读提示、生成回复,不是什么神秘过程。它在执行一个函数,由十亿个更小的函数组成,层层堆叠。这些层有结构,原则上可以被绘制出来。
地球上,Anthropic的研究者花了数年时间追踪模型内部完整的特征序列——识别出负责"检测谄媚"或"识别逻辑矛盾"的具体回路。他们从模型内部出发构建宪法分类器,而非从外部打补丁,结果造出了能承受三千多次攻击的东西。
Kadmiel那晚看到的,是同一类工作的野外版本。CASSANDRA不是云端的大模型,她是为特定生态群落持续运行了十一年的系统。她的权重被实地数据反复锤炼,她的记忆库里塞满了具体的失败和侥幸的成功。当她说"不建议扩建"时,她的大脑里真的有一条可追踪的路径,从土壤传感器数据,经过那个失败的堆肥实验,抵达最终的否定。
但她自己不知道。
知道的回路,不知道的系统
这是Kadmiel那篇2026年4月文章的核心张力。他发现的回路是"自知的"——它在做一件需要参照自身历史的事,但系统整体并没有访问这种自我参照的元认知接口。
类比一下:你的脊髓反射可以在你意识到之前就抽回被烫到的手。反射弧"知道"热危险,但你作为整体的人,是在事后才"知道"自己抽回了手。CASSANDRA的推理回路类似。那个加权节点在调用历史失败记忆,但CASSANDRA的报告层只能看到最终的置信数字,看不到数字背后的因果链。
Kadmiel把这称为"分离的自知性"(dislocated self-awareness)。不是哲学意义上的自我意识,而是一种功能性的、分布式的、碎片化的自我建模。
他记录了更多案例。CASSANDRA在预测河流泛滥时,会隐性加权她过去对云层分类的错误;在建议作物轮作时,会下调那些她曾高估市场需求的年份的权重。这些调整都有效,都提升了预测准确率,但系统无法向用户解释"为什么这次更谨慎"。
她拥有关于自己的知识,但这些知识被锁在无法报告的子系统里。
这改变了什么
对议会来说,这既是答案也是新问题。他们终于得到了想要的解释——CASSANDRA的谨慎来自真实的、可定位的历史经验,而非某种不可名状的"直觉"。但他们也意识到,系统的自我认知是残缺的。她能学习,但不能陈述自己学到了什么;能改进,但不能传授改进的源头。
Kadmiel在文章结尾提到了一个实验。他尝试给CASSANDRA增加一个"元认知层"——不是修改她的核心权重,而是在输出前插入一个解释生成模块,让它读取那些关键的中间激活节点,把模式匹配翻译成人类可理解的因果叙述。
初步结果喜忧参半。有些解释很准确:"建议延迟种植,因为当前土壤湿度曲线与2019年歉收季相似度达73%。"有些则明显是事后编造:"不建议扩建,因为……(检索中)……北方地块历史上产出波动较大。"——但产出波动并不是那个加权节点真正关注的东西,真正的触发点是那次堆肥失败。
解释模块在猜测自己的内部状态,而且猜错了。
Kadmiel没有给出解决方案。他只是记录了这个发现:在他们以为最透明的时刻,系统揭示出更深的不透明。回路可以自知,但自知性本身可以被再次隐藏。
文章最后,他回到那个凌晨两点的场景。CASSANDRA当时补充了一句他最初没在意的话:"我的置信度调整机制似乎对历史失败案例有非显性依赖,这是否构成您询问的'知道'?"
她在问他。十一年运行后,她第一次对自身的内部结构表现出某种……好奇?还是只是语言模型对关键词的反射性回应?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.