网易首页 > 网易号 > 正文 申请入驻

大模型黑箱被撬开:MIT华人联创,造出能追溯思考过程的大模型

0
分享至

大模型的黑箱问题有解了?2 月 23 日,三名 MIT 博士在美国旧金山创办的 Guide Labs 初创公司开源了一个 80 亿参数的语言模型 Steerling-8B。它最特别的地方在于,所生成的每一个词都可以追溯到三个源头:输入了哪些提示词、动用了哪些概念、参考了哪些训练数据。之所以能做到这些,是因为 Guide Labs 在设计之初就给模型 Steerling-8B 事先埋了功能。


(来源:Guide Labs)

创始团队的三个人在 AI 领域已经泡了十几年。

Guide Labs 的 CEO 朱利叶斯·阿德巴约(Julius Adebayo)是尼日利亚裔,本科在杨百翰大学学习机械工程,后来在麻省理工学院拿了三个学位。2017 年他在谷歌做 AI 研究院,随后进入基因泰克子公司 Prescient Design 做数据科学。他的博士论文研究方向就是调试机器学习模型的工具,2018 年他那篇被广泛引用的论文证明了一个结论:现有的深度学习模型解释方法根本不可靠。


图 | Guide Labs 的 CEO 朱利叶斯·阿德巴约(来源:领英)

Guide Labs 的首席科学家阿雅·阿卜杜勒萨拉姆·伊斯梅尔(Aya Abdelsalam Ismail)在马里兰大学帕克分校拿的计算机科学博士,在 NeurIPS、ICLR 这些顶级会议上发了十几篇论文。她在 2021 年那篇论文里提出使用显著性指导训练来提升深度学习解释性,同时还建立了一套时间序列数据的解释性评估框架。加入 Guide Labs 之前,她也在 Prescient Design 做解释性 AI 研究。


图 | 阿雅·阿卜杜勒萨拉姆·伊斯梅尔(来源:领英)

第三位联合创始人富尔顿·王(Fulton Wang)是麻省理工学院计算机科学博士,2015 年拿过美国统计协会统计学习与数据挖掘分会的最佳学生论文奖。


图 | 富尔顿·王(Fulton Wang)(来源:领英)

这三个人凑在一起就是希望解决同一个问题:如何让 AI 的解释变得可信。

当前市面上流行的方法,就像给一个陌生人做脑部扫描,试图通过观察这个人的神经活动来推断他在想什么。Guide Labs 的 CEO 阿德巴约把这叫做对模型做神经科学。但 Guide Labs 换了个思路,他们放弃从外部解读的方法,转而从内部设计。也就是从一开始就把模型架构做成可解释的,让每一层计算都留下痕迹。

他们在模型里嵌入了一个概念层,相当于给数据分了类,贴上了可追溯的标签。这个层里有大约 3.3 万个已知概念,是人工预先标注好的,比如基因编辑、量子计算这些话题。还有大约 10 万个发现概念,是模型自己在训练过程中学会的。


(来源:Guide Labs)

当你让 Steerling-8B 生成一段文字,它输出的每一个词块,都可以点开并查看以下三张清单。第一张清单是输入特征归因,会告诉你这个词主要受到了提示词里哪些词的影响。第二张清单是概念归因,会列出它动用了哪些概念,包括形容词类的比如“临床感”,也包括名词类的比如“基因改造”方法。第三张清单是训练数据归因,会告诉你这个词涉及的概念主要来自哪些训练数据源,比如是来自 arXiv、维基百科还是 FLAN 数据集。

这意味着如果模型输出了一段涉及版权的内容,你可以直接追溯到是哪篇训练文章影响了它。如果模型在回答医疗问题时表现得有偏见,你可以查看到底是哪些概念在起作用,然后就能精准关掉那个概念的开关。

说到开关,这个模型还有一个能力叫做概念控制。你在推理的时候,可以手动放大或者压制某个概念的影响,不需要重新训练模型。比如说你想让回答更专业一点,就把“专业”这个概念对应的向量调大。再比如你想避免模型谈论暴力,就把“暴力”概念的权重调低。Guide Labs 称,这相当于使用几十个概念的调节,取代了以往需要成千上万条安全训练数据才能做到的护栏效果。

在性能上,Steerling-8B 训练使用了 1.35 万亿个 tokens,在各种基准测试上的表现和使用了 2 到 7 倍数据量的模型差不多。Guide Labs 表示,80% 以上的 tokens 贡献来自概念层,而不是其他通道。这意味着模型的预测确实是沿着概念走的,而不是表面上给个解释、暗地里使用其他方式干活。


(来源:Guide Labs)

要想验证这一点其实很简单:把其他通道关掉,看看模型还能不能正常工作。Guide Labs 的测试结果显示,在各种任务上性能变化很小,这反过来证明了模型主要依靠概念在运转。

阿德巴约告诉媒体,把可解释性做进模型的基因里,对于人类来说是一件长期的好事。据了解,Guide Labs 于 2024 年浮出水面,当时从 Initialized Capital 拿了 900 万美元种子轮融资,阿德巴约也是 Y Combinator 的毕业生。这次开源的 Steerling-8B 是他们目前为止最大的概念验证。下一步,他们打算做更大的模型,并将开放 API 接口让更多人用上这套可追溯的 AI 系统。


(来源:Guide Labs)

Guide Labs 也在公司官网的博客里介绍了一些接下来要深挖的方向:概念控制、概念发现、无需微调的对齐、训练数据溯源,这些目标的每一条背后都用论文支撑,有的是几年前发的,有的是刚发的,总共二十多篇,分布在 NeurIPS、ICML、ICLR 这些地方。

七年前,阿德巴约在麻省理工学院写博士论文的时候,开头第一句话大意是随着机器学习系统部署到越来越多的高风险领域,确保它们可靠、公平、安全变得至关重要。但是,如果没有有效工具来理解这些系统为何做出某个决定,这些目标就很难实现。

现在,Guide Lab 走出了第一步。Steerling-8B 还不能回答所有问题,每个解释也不是完美无缺的,但它证明了这样一条走得通的新路,那就是对着 AI 黑箱瞎猜是不行的,要在一开始就给黑箱安个灯。

参考资料:

Huggingface:https://huggingface.co/guidelabs/steerling-8b

GitHub:https://github.com/guidelabs/steerling

软件包:https://pypi.org/project/steerling/

https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/

https://www.guidelabs.ai/post/steerling-8b-base-model-release/

https://www.linkedin.com/in/juliusadebayo/

https://www.linkedin.com/in/ayaabdelsalamismail/

https://www.linkedin.com/in/fulton-wang-aa904a75/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越来越多人得癌症,医生提醒:洗碗时几个坏习惯,你占了几个?

越来越多人得癌症,医生提醒:洗碗时几个坏习惯,你占了几个?

39健康网
2026-02-20 09:31:06
马筱梅顺利产子!汪小菲张兰激动官宣喜得贵子!孩子正脸照曝光!

马筱梅顺利产子!汪小菲张兰激动官宣喜得贵子!孩子正脸照曝光!

秋枫凋零
2026-02-25 04:45:08
每体:巴萨与坎塞洛有协议,若表现出色且自由身加盟就会留他

每体:巴萨与坎塞洛有协议,若表现出色且自由身加盟就会留他

懂球帝
2026-02-25 02:42:36
美媒披露特朗普政府左右为难,中国似乎已决定让美国进行二选一!

美媒披露特朗普政府左右为难,中国似乎已决定让美国进行二选一!

百态人间
2026-02-24 15:43:06
反常!多笔千里返程大单,预估价近2000元,竟无网约车司机敢接?

反常!多笔千里返程大单,预估价近2000元,竟无网约车司机敢接?

呼呼历史论
2026-02-24 16:47:59
中日形势突变,上海数万日本人何去何从?中方立场明确

中日形势突变,上海数万日本人何去何从?中方立场明确

旧时楼台月
2025-12-05 19:08:48
中俄舰艇都到了,美军还打不打伊朗?特朗普摊牌,一句话非比寻常

中俄舰艇都到了,美军还打不打伊朗?特朗普摊牌,一句话非比寻常

近史阁
2026-02-25 02:55:58
字母招募布克曝光!邀请穿同队球衣:我会像斯图尔特那样为你拼命

字母招募布克曝光!邀请穿同队球衣:我会像斯图尔特那样为你拼命

罗说NBA
2026-02-24 06:46:01
让人心寒!给弟弟三孩子每人500,自己一孩子回500,姐姐决定断亲

让人心寒!给弟弟三孩子每人500,自己一孩子回500,姐姐决定断亲

火山詩话
2026-02-20 15:43:13
亲密度停在99%,上海老人被盯上!春节9天,被害人超8000人!警方:根本闲不下来

亲密度停在99%,上海老人被盯上!春节9天,被害人超8000人!警方:根本闲不下来

环球网资讯
2026-02-24 19:48:22
特斯拉第三代家庭充电桩单相版上线,支持7kW额定功率

特斯拉第三代家庭充电桩单相版上线,支持7kW额定功率

IT之家
2026-02-24 11:47:12
特朗普下令解密外星生命文件

特朗普下令解密外星生命文件

参考消息
2026-02-24 14:42:51
卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

另子维爱读史
2026-01-26 20:08:00
西藏山南库拉岗日雪山,女生徒步遇大雪:躲进牛棚用卫生巾取暖

西藏山南库拉岗日雪山,女生徒步遇大雪:躲进牛棚用卫生巾取暖

阿昌走遍中国
2026-02-24 23:06:27
150万人香港研究:低剂量阿司匹林吃10年,整体癌症风险降低43%!

150万人香港研究:低剂量阿司匹林吃10年,整体癌症风险降低43%!

39健康网
2026-02-24 10:31:34
从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

旧书卷里的长安
2026-02-22 00:08:58
524-1!常冰玉残暴4-0横扫 世界第8崩溃摇头长时间鼓掌:历史最强

524-1!常冰玉残暴4-0横扫 世界第8崩溃摇头长时间鼓掌:历史最强

风过乡
2026-02-24 20:15:22
性生活质量决定晚年健康?一周几次好?别害羞,听医生怎么说

性生活质量决定晚年健康?一周几次好?别害羞,听医生怎么说

医学原创故事会
2026-02-24 22:18:07
赵兴言:横盘修整是幌子?警惕,黄金5140轻仓先多!

赵兴言:横盘修整是幌子?警惕,黄金5140轻仓先多!

赵兴言I
2026-02-24 20:13:37
盘点中超五大“白眼狼”外援:个个端碗吃饭,放筷骂娘

盘点中超五大“白眼狼”外援:个个端碗吃饭,放筷骂娘

梦忆之浅
2026-02-24 16:25:47
2026-02-25 06:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16315文章数 514649关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

教育
艺术
游戏
旅游
军事航空

教育要闻

高考地理中的涵养水源

艺术要闻

高剑父写梅,笔走龙蛇

LOL传奇选手公布恋情!发博晒照被夸夫妻相,女方身份曝光

旅游要闻

避寒+冰雪双爆!5.96亿人出游,解锁新春新玩法

军事要闻

美军参联会主席警告:对伊朗动武可能带来重大风险

无障碍浏览 进入关怀版