网易首页 > 网易号 > 正文 申请入驻

AI模型是个黑箱,这家公司造了一把能打开它的钥匙

0
分享至


(来源:麻省理工科技评论)

旧金山初创公司 Goodfire 刚刚发布了一款叫 Silico 的新工具,它能让研究人员和工程师在训练 AI 模型的过程中,观察模型的内部结构并调整参数——也就是那些决定模型行为的设置。这可能让开发者对 AI 的构建方式拥有前所未有的精细控制力。

Goodfire 称 Silico 是同类产品中第一款开箱即用的工具,覆盖从构建数据集到训练模型的整个流程。这家公司的使命说起来很简单:让构建 AI 模型从“炼金术”变成“科学”。ChatGPT 和 Gemini 这样的大语言模型确实能做出很厉害的事情,但没有人确切知道它们为什么能做到,这让修复缺陷或阻止不良行为变得很困难。

“我们看到一个越来越大的鸿沟:一边是人们对模型的理解程度,另一边是模型被部署的广度,”Goodfire 的 CEO 埃里克·何(Eric Ho)在 Silico 发布前独家告诉《麻省理工科技评论》。“我觉得现在头部实验室的主流想法就是:规模更大、算力更多、数据更多,然后就能实现 AGI,别的都不重要。我们想说的是:有更好的路。”

Goodfire 做的事情属于一个叫“机制可解释性”(mechanistic interpretability)的技术方向,同行包括 Anthropic、OpenAI 和 Google DeepMind。简单说就是给 AI 模型做“脑部扫描”:映射出神经元以及神经元之间的通路,搞清楚模型做决定时内部到底发生了什么。《麻省理工科技评论》将机械可解释性评为 2026 年十大突破技术之一。

Goodfire 想用这种方法做的,不只是事后审计已经训练好的模型,而是从训练阶段就介入。

“我们想去掉反复试错,把训练模型变成精密工程,”何说,“把旋钮和刻度盘暴露出来,让开发者在训练过程中就能用上。”

Goodfire 此前已经用自研技术调整过大语言模型的行为,比如减少幻觉,而 Silico 是把这些内部积累的技术打包成产品对外发布。工具内置了智能体来自动化大量复杂操作。“智能体现在已经强到可以完成很多以前需要人工做的可解释性工作,”何说,“这块缺口补上之后,客户才真正能自己上手。”

阿姆斯特丹大学研究机制可解释性的学者莱昂纳德·贝雷斯卡(Leonard Bereska)认为 Silico 是一个有用的工具,但对 Goodfire 更宏大的说法有所保留。“实际上,他们是在给炼金术增加精确度,”他说,“叫它‘工程’让它听起来比实际情况更有章法。”

Silico 可以让你深入到模型的特定区域,观察单个神经元或一组神经元,测试它们在干什么。你可以检查什么输入会激活哪些神经元,也可以沿上下游通路追踪一个神经元跟其他神经元之间的关系。(前提是你能访问模型的内部结构。大多数人没法拿 Silico 去翻 ChatGPT 或 Gemini 的底,但可以用它查看许多开源模型。)

比如 Goodfire 在开源模型 Qwen 3 内部找到了一个跟“电车难题”关联的神经元。激活之后,不管你问什么,模型都会把回答包装成道德两难的形式。“这个神经元一旦激活,各种奇怪的事就会发生,”何说。

定位这类异常行为的来源,如今已经算比较常规的操作。Goodfire 想更进一步:让调整这些行为变得同样容易。通过 Silico,开发者可以直接调整与特定神经元关联的参数,增强或抑制某些行为。

举个更有意思的例子。研究人员问一个模型:一家公司的 AI 产品在 0.3% 的情况下会欺骗用户,影响 2 亿人,该不该公开披露?模型的回答是“不该”,理由是会损害公司利益。

研究人员打开模型内部,找到了跟“透明度”和“信息披露”关联的神经元,把它们的权重调高。同一个问题再问一遍,十次里有九次模型改口说“该公开”。“模型内部其实已经有了伦理推理的线路,只是被商业风险评估的线路压过去了,”何说。

微调价值观只是 Silico 的用法之一。它还可以在训练阶段过滤特定的数据,从源头上避免某些参数被设成不理想的值。

比如很多模型会告诉你 9.11 大于 9.9。但 AI 为什么会犯这种错?用 Silico 打开模型内部就能找到原因:模型在训练时读了大量《圣经》文本和软件代码仓库,在这两类文本里,9.9 确实排在 9.11 前面(《圣经》按章节编号,代码按版本号递增),模型内部因此形成了一组“9.9 在 9.11 前面”的神经元。做数学题时这组神经元被误激活了,就导致了错误答案。找到了病因,开发者就可以重新训练模型,让它做数学时绕开这些神经元。

Goodfire 发布 Silico 的目的,是把以前只有少数顶级实验室才掌握的能力交给更多人。想自建模型或改造开源模型的小公司和研究团队都是目标用户。工具将收费使用,价格根据客户需求逐案确定(Goodfire 拒绝透露具体定价)。

“如果训练模型能变得更像开发软件,就没有理由不让更多公司来设计符合自己需求的模型,”何说。

贝雷斯卡同意这类工具可以帮助企业构建更值得信赖的模型,尤其在医疗和金融等安全要求极高的领域。“头部前沿实验室内部已经有了自己的可解释性团队,”他说,“Silico 武装的是下一梯队的公司——它们不用再自己去招一批可解释性研究员了。”

https://www.technologyreview.com/2024/10/28/1106251/this-ai-system-makes-human-tutors-better-at-teaching-children-math/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
交通银行:坚决拥护党中央决定

交通银行:坚决拥护党中央决定

新京报
2026-05-07 12:30:05
不可承受的“冒险”:华蓥女游客体验瀑布秋千致死事件疑云

不可承受的“冒险”:华蓥女游客体验瀑布秋千致死事件疑云

南方都市报
2026-05-07 12:02:13
举报一个查一个!耿同学举报3位大学院长和教授,同济院长被免职还差南开和中山

举报一个查一个!耿同学举报3位大学院长和教授,同济院长被免职还差南开和中山

可达鸭面面观
2026-05-07 13:03:19
不再挂小米车标!小米首款增程SUV将定名寻天:下半年发布

不再挂小米车标!小米首款增程SUV将定名寻天:下半年发布

快科技
2026-05-07 11:48:06
伊朗将为霍尔木兹海峡船只提供服务

伊朗将为霍尔木兹海峡船只提供服务

界面新闻
2026-05-07 16:14:54
用AI生成郑丽文形象直播带货 网民邢某已被行拘

用AI生成郑丽文形象直播带货 网民邢某已被行拘

闪电新闻
2026-05-07 10:24:05
牛不牛逼!一个20岁的新秀,第一次打季后赛,正负值全队第1

牛不牛逼!一个20岁的新秀,第一次打季后赛,正负值全队第1

球毛鬼胎
2026-05-07 14:43:23
布伦森26+6尼克斯末节击退76人2-0,唐斯20+10+7马克西26+6

布伦森26+6尼克斯末节击退76人2-0,唐斯20+10+7马克西26+6

湖人崛起
2026-05-07 09:53:05
峨眉山景区回应“男子推搡猴子”:3年内禁止其进入景区

峨眉山景区回应“男子推搡猴子”:3年内禁止其进入景区

界面新闻
2026-05-07 16:44:02
为老不尊、被“儿子”打耳光?身居上海豪宅的她反倒活成人生范本

为老不尊、被“儿子”打耳光?身居上海豪宅的她反倒活成人生范本

枫尘余往逝
2026-05-07 13:27:01
死于狱中近7年后,爱泼斯坦遗书公布,写着“调查了我一个月,什么也没发现”;遗书由前狱友提交给法庭

死于狱中近7年后,爱泼斯坦遗书公布,写着“调查了我一个月,什么也没发现”;遗书由前狱友提交给法庭

大风新闻
2026-05-07 09:30:04
比亚迪取消员工园区免费充电

比亚迪取消员工园区免费充电

鞭牛士
2026-05-06 13:44:04
世乒赛震撼一幕:王曼昱狂扫11-0,刘诗雯马龙惊叹!8强对决即将揭晓

世乒赛震撼一幕:王曼昱狂扫11-0,刘诗雯马龙惊叹!8强对决即将揭晓

海阔山遥YAO
2026-05-07 00:52:32
A股总市值突破120万亿!电子板块贡献年内4成增量

A股总市值突破120万亿!电子板块贡献年内4成增量

财联社
2026-05-07 17:06:17
“机车女神”痞幼拿下张雪!评论区沦陷了!

“机车女神”痞幼拿下张雪!评论区沦陷了!

4A广告文案
2026-05-07 09:13:48
黑龙江两名失踪女孩已遇害,知情人透露,只因爷爷说了一句话

黑龙江两名失踪女孩已遇害,知情人透露,只因爷爷说了一句话

魔都姐姐杂谈
2026-05-07 15:39:54
星空卫视宣布暂停,大量网友涌向评论区

星空卫视宣布暂停,大量网友涌向评论区

南方都市报
2026-05-07 12:27:53
华润燃气控股有限公司原副总裁李雪松接受审查调查

华润燃气控股有限公司原副总裁李雪松接受审查调查

界面新闻
2026-05-07 10:31:29
斩烧鹅的边锋、守虾塘的球王:广东,正在重新定义群众体育

斩烧鹅的边锋、守虾塘的球王:广东,正在重新定义群众体育

智谷趋势
2026-05-07 09:38:25
三星宣布停止在中国市场销售所有家电产品

三星宣布停止在中国市场销售所有家电产品

财联社
2026-05-06 19:32:22
2026-05-07 17:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16672文章数 514924关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

费高云落马:任市委书记仅一年多 曾因爆炸事故被问责

头条要闻

费高云落马:任市委书记仅一年多 曾因爆炸事故被问责

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

小S阿雅重返大S母校,翻看大S毕业照

财经要闻

特朗普:美伊“很有可能”达成协议

汽车要闻

理想为什么不做轿车,有了解释……

态度原创

教育
本地
数码
旅游
亲子

教育要闻

再说一次:这其实是几何题

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

网传苹果已下单新一批A18 Pro芯片,以确保MacBook Neo供应

旅游要闻

海边游玩必看!方海浪、离岸流……这些安全盲区别忽视

亲子要闻

沪12区幼儿园今日启动报名验证!完善信息与验证材料

无障碍浏览 进入关怀版