![]()
作者:小白
AI大模型的脑子里到底在想什么?
这恐怕是目前困扰全球研究者最大的谜题。大模型推理能力逆天,但如果你问它“为什么这么选”,它往往给不出真正的答案,或者干脆一本正经地胡说八道。这种内部运作的“黑箱”属性,让模型调试变成了玄学,更让“幻觉”和“越狱”成了难以根除的顽疾。
今天,谷歌DeepMind再次出手,正式发布了 Gemma Scope 2。这是一套针对最新Gemma 3模型全系的、史上最大规模的开源可解释性工具套件。
这一波发布,谷歌可谓是把“力大砖飞”演绎到了极致。为了构建这套能看穿AI“大脑”的工具,谷歌存储了惊人的 110 Petabytes(PB) 数据,训练涉及的总参数量超过 1万亿。
谷歌直言,这是迄今为止AI实验室发布过的最大规模的可解释性开源项目。目前,交互式Demo已经在Neuronpedia上线,无需代码,人人可玩。
01 .
以前是“拍CT”,现在是“脑外科手术”
去年,谷歌发布了初代Gemma Scope,让大家第一次看清了Gemma 2内部的一些门道。但这一次,Gemma Scope 2 是一次全方位的维数打击。
如果说初代工具是给大模型拍了一张CT,那么Gemma Scope 2 就是直接把探针插到了神经元上,甚至还能追踪信号在不同脑区间的流向。
这套工具的核心技术依然基于 稀疏自动编码器(SAEs) 和 Transcoders(转码器),但在规模和精度上有了质的飞跃。谷歌这次没有厚此薄彼,直接覆盖了Gemma 3从 270M 端侧小模型 到 27B 庞然大物 的所有尺寸。
之所以要做全系覆盖,是因为很多AI的“涌现能力”(Emergent Behaviors)——比如以前在27B模型中发现的潜在癌症治疗通路——只有在大参数模型上才会出现。现在,研究人员终于可以完整追踪这些能力是如何随着规模扩大,一点点在模型脑子里“长”出来的。
引入SOTA技术:像俄罗斯套娃一样拆解思维
为了让这个“显微镜”看得更清,谷歌在训练方法上祭出了大杀器——Matryoshka training(俄罗斯套娃训练法)。
这是一个非常前沿的技术升级。通过这种训练方式,SAEs能更精准地检测到有用的概念,解决了初代版本中存在的一些噪点问题。简单说,现在看到的神经元信号更纯净,更能代表模型真实的“想法”。
更令人兴奋的是,谷歌这次还引入了 Skip-transcoders(跳跃转码器) 和 跨层转码器。
这直接解决了以往“只能看单点,看不懂逻辑”的痛点。以前我们可能只知道模型在某一层“想到了苹果”,但现在,通过跨层追踪,我们可以清晰地看到模型是如何通过多步计算,把“红色”、“圆形”、“水果”这些概念一步步组合,最终推理出“苹果”的。这意味着,破解大模型复杂的内部算法和多步推理过程,终于有了趁手的工具。
02 .
专治AI“口是心非”,抓出潜伏的幻觉
技术再强,终究要落地到应用。Gemma Scope 2 的一大核心使命,就是搞定那些让安全研究员头秃的问题:幻觉、阿谀奉承(Sycophancy)和越狱。
谷歌这次专门针对 Gemma 3 Instruct(聊天优化版) 提供了特制工具。这对于研究Chatbot行为简直是神来之笔。
大模型经常会出现“思维链不忠实”的现象——嘴上输出一套推理过程,但内部实际的激活路径完全是另一回事。有了Gemma Scope 2,研究人员就能直接进行AI审计,看看它是不是在骗人;或者在模型产生有害输出之前,直接在内部神经元层面拦截“越狱”指令。
找到导致胡说八道的那个具体的神经回路,然后切断它——这才是未来AI安全治理的正确打开方式。
随着AI变得越来越强,可解释性不再是锦上添花,而是构建安全可靠AI的基石。对于致力于研究AI对齐(Alignment)以及想要搞清楚Transformer内部黑箱的开发者来说,这绝对是年度最重磅的资源之一。
最后,One More Thing。
想要亲手试试解剖大模型吗?谷歌在 Neuronpedia 上提供了一个交互式Demo,不需要写代码,你就能看到大模型在处理某个词时,到底是哪根神经搭错了。感兴趣的朋友可以去试一试。
下载链接: https://huggingface.co/google/gemma-scope-2
点这里关注我,记得标星⭐️ 哦~
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.