网易首页 > 网易号 > 正文 申请入驻

大模型黑箱被撬开:MIT华人联创,造出能追溯思考过程的大模型

0
分享至

大模型的黑箱问题有解了?2 月 23 日,三名 MIT 博士在美国旧金山创办的 Guide Labs 初创公司开源了一个 80 亿参数的语言模型 Steerling-8B。它最特别的地方在于,所生成的每一个词都可以追溯到三个源头:输入了哪些提示词、动用了哪些概念、参考了哪些训练数据。之所以能做到这些,是因为 Guide Labs 在设计之初就给模型 Steerling-8B 事先埋了功能。


(来源:Guide Labs)

创始团队的三个人在 AI 领域已经泡了十几年。

Guide Labs 的 CEO 朱利叶斯·阿德巴约(Julius Adebayo)是尼日利亚裔,本科在杨百翰大学学习机械工程,后来在麻省理工学院拿了三个学位。2017 年他在谷歌做 AI 研究院,随后进入基因泰克子公司 Prescient Design 做数据科学。他的博士论文研究方向就是调试机器学习模型的工具,2018 年他那篇被广泛引用的论文证明了一个结论:现有的深度学习模型解释方法根本不可靠。


图 | Guide Labs 的 CEO 朱利叶斯·阿德巴约(来源:领英)

Guide Labs 的首席科学家阿雅·阿卜杜勒萨拉姆·伊斯梅尔(Aya Abdelsalam Ismail)在马里兰大学帕克分校拿的计算机科学博士,在 NeurIPS、ICLR 这些顶级会议上发了十几篇论文。她在 2021 年那篇论文里提出使用显著性指导训练来提升深度学习解释性,同时还建立了一套时间序列数据的解释性评估框架。加入 Guide Labs 之前,她也在 Prescient Design 做解释性 AI 研究。


图 | 阿雅·阿卜杜勒萨拉姆·伊斯梅尔(来源:领英)

第三位联合创始人富尔顿·王(Fulton Wang)是麻省理工学院计算机科学博士,2015 年拿过美国统计协会统计学习与数据挖掘分会的最佳学生论文奖。


图 | 富尔顿·王(Fulton Wang)(来源:领英)

这三个人凑在一起就是希望解决同一个问题:如何让 AI 的解释变得可信。

当前市面上流行的方法,就像给一个陌生人做脑部扫描,试图通过观察这个人的神经活动来推断他在想什么。Guide Labs 的 CEO 阿德巴约把这叫做对模型做神经科学。但 Guide Labs 换了个思路,他们放弃从外部解读的方法,转而从内部设计。也就是从一开始就把模型架构做成可解释的,让每一层计算都留下痕迹。

他们在模型里嵌入了一个概念层,相当于给数据分了类,贴上了可追溯的标签。这个层里有大约 3.3 万个已知概念,是人工预先标注好的,比如基因编辑、量子计算这些话题。还有大约 10 万个发现概念,是模型自己在训练过程中学会的。


(来源:Guide Labs)

当你让 Steerling-8B 生成一段文字,它输出的每一个词块,都可以点开并查看以下三张清单。第一张清单是输入特征归因,会告诉你这个词主要受到了提示词里哪些词的影响。第二张清单是概念归因,会列出它动用了哪些概念,包括形容词类的比如“临床感”,也包括名词类的比如“基因改造”方法。第三张清单是训练数据归因,会告诉你这个词涉及的概念主要来自哪些训练数据源,比如是来自 arXiv、维基百科还是 FLAN 数据集。

这意味着如果模型输出了一段涉及版权的内容,你可以直接追溯到是哪篇训练文章影响了它。如果模型在回答医疗问题时表现得有偏见,你可以查看到底是哪些概念在起作用,然后就能精准关掉那个概念的开关。

说到开关,这个模型还有一个能力叫做概念控制。你在推理的时候,可以手动放大或者压制某个概念的影响,不需要重新训练模型。比如说你想让回答更专业一点,就把“专业”这个概念对应的向量调大。再比如你想避免模型谈论暴力,就把“暴力”概念的权重调低。Guide Labs 称,这相当于使用几十个概念的调节,取代了以往需要成千上万条安全训练数据才能做到的护栏效果。

在性能上,Steerling-8B 训练使用了 1.35 万亿个 tokens,在各种基准测试上的表现和使用了 2 到 7 倍数据量的模型差不多。Guide Labs 表示,80% 以上的 tokens 贡献来自概念层,而不是其他通道。这意味着模型的预测确实是沿着概念走的,而不是表面上给个解释、暗地里使用其他方式干活。


(来源:Guide Labs)

要想验证这一点其实很简单:把其他通道关掉,看看模型还能不能正常工作。Guide Labs 的测试结果显示,在各种任务上性能变化很小,这反过来证明了模型主要依靠概念在运转。

阿德巴约告诉媒体,把可解释性做进模型的基因里,对于人类来说是一件长期的好事。据了解,Guide Labs 于 2024 年浮出水面,当时从 Initialized Capital 拿了 900 万美元种子轮融资,阿德巴约也是 Y Combinator 的毕业生。这次开源的 Steerling-8B 是他们目前为止最大的概念验证。下一步,他们打算做更大的模型,并将开放 API 接口让更多人用上这套可追溯的 AI 系统。


(来源:Guide Labs)

Guide Labs 也在公司官网的博客里介绍了一些接下来要深挖的方向:概念控制、概念发现、无需微调的对齐、训练数据溯源,这些目标的每一条背后都用论文支撑,有的是几年前发的,有的是刚发的,总共二十多篇,分布在 NeurIPS、ICML、ICLR 这些地方。

七年前,阿德巴约在麻省理工学院写博士论文的时候,开头第一句话大意是随着机器学习系统部署到越来越多的高风险领域,确保它们可靠、公平、安全变得至关重要。但是,如果没有有效工具来理解这些系统为何做出某个决定,这些目标就很难实现。

现在,Guide Lab 走出了第一步。Steerling-8B 还不能回答所有问题,每个解释也不是完美无缺的,但它证明了这样一条走得通的新路,那就是对着 AI 黑箱瞎猜是不行的,要在一开始就给黑箱安个灯。

参考资料:

Huggingface:https://huggingface.co/guidelabs/steerling-8b

GitHub:https://github.com/guidelabs/steerling

软件包:https://pypi.org/project/steerling/

https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/

https://www.guidelabs.ai/post/steerling-8b-base-model-release/

https://www.linkedin.com/in/juliusadebayo/

https://www.linkedin.com/in/ayaabdelsalamismail/

https://www.linkedin.com/in/fulton-wang-aa904a75/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普连发4帖辩解对伊动武,抨击民主党和“假新闻”

特朗普连发4帖辩解对伊动武,抨击民主党和“假新闻”

界面新闻
2026-04-21 08:05:05
14年前拿U型锁砸人的蔡洋:2022年出狱,找不到工作靠打零工为生

14年前拿U型锁砸人的蔡洋:2022年出狱,找不到工作靠打零工为生

天天热点见闻
2026-04-21 05:15:28
2026年一季度消费:汽车、彩电、空调全线下跌

2026年一季度消费:汽车、彩电、空调全线下跌

风向观察
2026-04-21 09:27:07
震惊!上海成人展身着短裙丝袜女性从业者,被质问是否遭男性凝视

震惊!上海成人展身着短裙丝袜女性从业者,被质问是否遭男性凝视

火山詩话
2026-04-21 10:13:36
“找到一个媳妇算你牛”,农村家长晒7儿1女,被群嘲后看清现实

“找到一个媳妇算你牛”,农村家长晒7儿1女,被群嘲后看清现实

妍妍教育日记
2026-04-20 19:42:54
开了一年的Model Y,我把账单摊桌上,发现“省钱”这事水太深了!

开了一年的Model Y,我把账单摊桌上,发现“省钱”这事水太深了!

小李子体育
2026-04-20 18:05:08
中国禁硫酸出口,全球农业震荡,第一次看到了日本的穷

中国禁硫酸出口,全球农业震荡,第一次看到了日本的穷

月满大江流
2026-04-20 18:06:06
横城战役:歼灭美军最多的一战,尸积如山,美军不愿重提的噩梦

横城战役:歼灭美军最多的一战,尸积如山,美军不愿重提的噩梦

浩渺青史
2026-04-20 18:18:20
追梦:很希望科尔下赛季能继续执教勇士,但我认为不太可能了

追梦:很希望科尔下赛季能继续执教勇士,但我认为不太可能了

懂球帝
2026-04-21 13:00:08
湖北松滋市教育局通报“某学校要求走读生将背包改为透明书袋”:已责令涉事学校立即纠正、认真整改

湖北松滋市教育局通报“某学校要求走读生将背包改为透明书袋”:已责令涉事学校立即纠正、认真整改

环球网资讯
2026-04-21 12:17:57
失踪足足5天后,美军终于承认:价值16亿的最强无人机在中东没了

失踪足足5天后,美军终于承认:价值16亿的最强无人机在中东没了

健身狂人
2026-04-21 11:28:24
伊朗:最高领袖完全健康,出于安全考虑,目前录制穆杰塔巴的任何影像或声音均不妥当

伊朗:最高领袖完全健康,出于安全考虑,目前录制穆杰塔巴的任何影像或声音均不妥当

潇湘晨报
2026-04-20 22:40:10
美伊冲突中特朗普真实状态首次披露:抱怨焦虑、摇摆与强撑;因情绪不稳定,救飞行员时被幕僚挡战情室外,每天都会观看伊朗境内爆炸画面

美伊冲突中特朗普真实状态首次披露:抱怨焦虑、摇摆与强撑;因情绪不稳定,救飞行员时被幕僚挡战情室外,每天都会观看伊朗境内爆炸画面

极目新闻
2026-04-20 16:20:57
季后赛挑对手的下场!本以为挑到软柿子,结果现在0-2快被横扫了

季后赛挑对手的下场!本以为挑到软柿子,结果现在0-2快被横扫了

你的篮球频道
2026-04-21 10:53:16
注意!6月1日起大医院不再随意接诊,看病不按规矩可能白跑

注意!6月1日起大医院不再随意接诊,看病不按规矩可能白跑

夜深爱杂谈
2026-04-21 07:45:20
涉嫌严重违纪违法,赵峰被查

涉嫌严重违纪违法,赵峰被查

都市快报橙柿互动
2026-04-21 12:05:08
黄山市一位副乡长发了16条私信,把知名主播“磨”进大山里卖笋,知名演员邓超也来了

黄山市一位副乡长发了16条私信,把知名主播“磨”进大山里卖笋,知名演员邓超也来了

扬子晚报
2026-04-21 07:26:40
广东5岁女童吃香蕉噎死,父母向赠香蕉老人索赔73万,结果如何?

广东5岁女童吃香蕉噎死,父母向赠香蕉老人索赔73万,结果如何?

雍亲王府
2026-04-20 20:10:03
电梯安装违规操作致3人坠亡,事故调查报告公布

电梯安装违规操作致3人坠亡,事故调查报告公布

极目新闻
2026-04-21 11:25:37
马克龙:霍尔木兹海峡再被封,美伊双方都有责任

马克龙:霍尔木兹海峡再被封,美伊双方都有责任

看看新闻Knews
2026-04-21 10:52:33
2026-04-21 13:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16604文章数 514894关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

特朗普公开对伊开战真正原因:不是因为以色列

头条要闻

特朗普公开对伊开战真正原因:不是因为以色列

体育要闻

“被优化”8年后,国乒方博决定换一条路重新上场

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

减速机订单已排到明年!

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

旅游
家居
时尚
本地
房产

旅游要闻

一个全球知名IP的在地蝶变:上海迪士尼破土动工15周年

家居要闻

诗意光影 窥见自然之境

“爆冷”又如何?陈法拉的人生本就是一场逆袭大戏

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

无障碍浏览 进入关怀版