网易首页 > 网易号 > 正文 申请入驻

Guide Labs推出全新可解释大语言模型

0
分享至


深度学习模型的一大挑战在于理解其行为逻辑:无论是xAI反复调试Grok奇怪的政治倾向,还是ChatGPT的阿谀奉承问题,或是常见的幻觉现象,深入理解拥有数十亿参数的神经网络并非易事。

旧金山初创公司Guide Labs由CEO Julius Adebayo和首席科学官Aya Abdelsalam Ismail创立,如今为这一问题提供了解决方案。周一,该公司开源了一个80亿参数的大语言模型Steerling-8B,采用全新架构设计,使其行为易于解释:该模型产生的每个Token都可以追溯到其在训练数据中的源头。

这可以简单到确定模型引用事实的参考材料,也可以复杂到理解模型对幽默或性别的理解。

"如果我有一万亿种编码性别的方式,并且在我拥有的一万亿个事物中的10亿个事物中编码了它,你必须确保找到所有这10亿个我编码的事物,然后你必须能够可靠地打开它们,关闭它们,"Adebayo告诉TechCrunch。"你可以用当前的模型做到这一点,但这非常脆弱......这算是一个圣杯级别的问题。"

Adebayo在MIT攻读博士学位时开始这项工作,合著了一篇被广泛引用的2020年论文,证明现有的理解深度学习模型的方法并不可靠。这项工作最终催生了构建大语言模型的新方法:开发者在模型中插入一个概念层,将数据分类到可追踪的类别中。这需要更多前期数据标注,但通过使用其他AI模型的帮助,他们能够训练出这个迄今为止最大的概念验证模型。

"人们做的那种可解释性是......对模型进行神经科学研究,而我们颠倒了这一点,"Adebayo说。"我们实际做的是从头开始设计模型,这样你就不需要做神经科学研究。"

这种方法的一个担忧是,它可能会消除使大语言模型如此引人入胜的一些涌现行为:它们对尚未训练过的事物进行新方式泛化的能力。Adebayo表示这在他公司的模型中仍然会发生:他的团队追踪他们称为"发现概念"的东西,这些是模型自己发现的概念,比如量子计算。

Adebayo认为这种可解释的架构将是每个人都需要的。对于面向消费者的大语言模型,这些技术应该允许模型构建者做诸如阻止使用受版权保护的材料,或更好地控制围绕暴力或药物滥用等主题的输出等事情。受监管的行业将需要更可控的大语言模型,例如在金融领域,评估贷款申请人的模型需要考虑财务记录等因素,但不能考虑种族。科学工作中也需要可解释性,这是Guide Labs开发技术的另一个领域。蛋白质折叠已经成为深度学习模型的一大成功,但科学家需要更深入地了解他们的软件为什么能找到成功的组合。

"这个模型证明的是,训练可解释模型不再是一种科学;现在它是一个工程问题,"Adebayo说。"我们解决了科学问题,我们可以扩展它们,没有理由这种模型不能匹配前沿级模型的性能,"而前沿模型拥有更多参数。

Guide Labs表示,Steerling-8B能够达到现有模型90%的能力,但得益于其新颖的架构,使用的训练数据更少。该公司从Y Combinator毕业,并在2024年11月从Initialized Capital筹集了900万美元的种子轮融资,下一步是构建更大的模型,并开始向用户提供API和智能体访问。

"我们目前训练模型的方式非常原始,所以民主化固有的可解释性实际上对我们人类来说将是一个长期的好事,"Adebayo告诉TechCrunch。"当我们追求这些将要变得超级智能的模型时,你不希望有一些神秘的东西代表你做决定。"

Q&A

Q1:Steerling-8B与传统大语言模型有什么不同?

A:Steerling-8B采用全新的可解释架构设计,其最大特点是模型产生的每个Token都可以追溯到训练数据中的源头。开发者在模型中插入概念层,将数据分类到可追踪的类别中,使模型行为易于理解和解释。

Q2:Guide Labs的可解释技术会影响模型的创新能力吗?

A:不会。虽然有这方面的担忧,但Adebayo表示涌现行为仍然会发生。他们的团队追踪"发现概念",即模型自己发现的新概念,比如量子计算,证明模型仍保持对未训练内容的泛化能力。

Q3:可解释大语言模型主要应用在哪些领域?

A:主要应用包括:消费者产品中阻止使用受版权保护材料、控制暴力或药物滥用相关输出;金融等受监管行业,确保模型评估时只考虑相关因素而非种族等;科学研究领域,如蛋白质折叠研究中帮助科学家理解模型的推理过程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国深夜收到消息:中国发两条公告,亚洲震动,日本右翼陷入癫狂

美国深夜收到消息:中国发两条公告,亚洲震动,日本右翼陷入癫狂

古史青云啊
2026-02-24 19:52:54
湖南开放部分高速公路应急车道,有网友称“不敢走”,交警详解:这些情况下请放心行驶

湖南开放部分高速公路应急车道,有网友称“不敢走”,交警详解:这些情况下请放心行驶

潇湘晨报
2026-02-24 22:25:41
VIVO从印度成功转走7000亿?大批外资企业撤离,莫迪已尝到苦果?

VIVO从印度成功转走7000亿?大批外资企业撤离,莫迪已尝到苦果?

顾史
2026-02-23 23:29:51
太扎心!央视曾经的三胎宣传片,网友:看了谁还敢生孩子呀!

太扎心!央视曾经的三胎宣传片,网友:看了谁还敢生孩子呀!

手工制作阿歼
2026-02-24 13:06:42
从王濛蒙冤到米兰冬奥惨败:网友为何死咬王春露不放?这才是真相

从王濛蒙冤到米兰冬奥惨败:网友为何死咬王春露不放?这才是真相

老马拉车莫少装
2026-02-22 12:19:12
刘亦菲INS晒新照:抱着爱犬外出散步,素颜出镜气色佳!

刘亦菲INS晒新照:抱着爱犬外出散步,素颜出镜气色佳!

笑猫说说
2026-02-24 18:18:14
伊朗局势突变,总统被彻底架空,悍将火速上位,打仗得靠这种狠人

伊朗局势突变,总统被彻底架空,悍将火速上位,打仗得靠这种狠人

荷兰豆爱健康
2026-02-24 09:51:22
库明加的新队友们谈老鹰队首秀:我觉得他在金州勇士队运气不太好

库明加的新队友们谈老鹰队首秀:我觉得他在金州勇士队运气不太好

好火子
2026-02-25 01:39:57
2-1!3-1!欧冠最大冷门诞生!黑马双杀国米晋级,改写54年历史

2-1!3-1!欧冠最大冷门诞生!黑马双杀国米晋级,改写54年历史

绿茵舞着
2026-02-25 08:34:21
12345不能乱打了!2026年开始整治乱打热线现象

12345不能乱打了!2026年开始整治乱打热线现象

医脉圈
2026-02-24 12:13:20
舒淇晒全家福!亲弟比她显老 豪宅奢华 冯德伦和岳父母互动亲密

舒淇晒全家福!亲弟比她显老 豪宅奢华 冯德伦和岳父母互动亲密

另子维爱读史
2026-02-24 22:24:25
去了一趟潮汕,我被饭桌上的教育震撼:活该人家一代比一代富!

去了一趟潮汕,我被饭桌上的教育震撼:活该人家一代比一代富!

小陆搞笑日常
2026-02-23 22:27:30
26岁全身溃烂不治而亡,被全家8口吸血多年

26岁全身溃烂不治而亡,被全家8口吸血多年

仙味少女心
2026-01-31 23:14:30
郑钦文取关里巴后续:新教练初露端倪,网友复原从分歧到分手过程

郑钦文取关里巴后续:新教练初露端倪,网友复原从分歧到分手过程

网球之家
2026-02-24 22:29:32
塞尔维亚挫败一起暗杀塞总统阴谋

塞尔维亚挫败一起暗杀塞总统阴谋

看看新闻Knews
2026-02-25 00:28:04
1943年,美国总统罗斯福提议,让越南回归中国,蒋介石:我不要

1943年,美国总统罗斯福提议,让越南回归中国,蒋介石:我不要

浩渺青史
2026-01-08 07:56:32
墨西哥防长:缴获贩毒集团使用的武器约80%来自美国

墨西哥防长:缴获贩毒集团使用的武器约80%来自美国

财联社
2026-02-24 00:40:05
谷歌开始大面积封禁OpenClaw用户账号!

谷歌开始大面积封禁OpenClaw用户账号!

新智元
2026-02-24 17:10:09
终结队史最长16连败!国王拒灰熊四杀 威少25+7引7人上双

终结队史最长16连败!国王拒灰熊四杀 威少25+7引7人上双

醉卧浮生
2026-02-24 11:24:35
吴艳妮小露性感腹肌迷人:普通的日子也会有说不清的快乐

吴艳妮小露性感腹肌迷人:普通的日子也会有说不清的快乐

懂球帝
2026-02-24 11:01:05
2026-02-25 09:20:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16259文章数 49691关注度
往期回顾 全部

科技要闻

苹果MacBook Pro要加触摸屏了,还带灵动岛

头条要闻

87岁上海老人和59岁保姆结婚 称房子被卖遭多次打砸

头条要闻

87岁上海老人和59岁保姆结婚 称房子被卖遭多次打砸

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

时尚
本地
亲子
健康
游戏

普通人穿衣别太老气横秋!这些穿搭给你灵感,保暖耐看两不误

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

坑弟弟,我是一把好手

转头就晕的耳石症,能开车上班吗?

《怪物猎人物语3:命运双龙》访谈

无障碍浏览 进入关怀版