![]()
深度学习模型的一大挑战在于理解其行为逻辑:无论是xAI反复调试Grok奇怪的政治倾向,还是ChatGPT的阿谀奉承问题,或是常见的幻觉现象,深入理解拥有数十亿参数的神经网络并非易事。
旧金山初创公司Guide Labs由CEO Julius Adebayo和首席科学官Aya Abdelsalam Ismail创立,如今为这一问题提供了解决方案。周一,该公司开源了一个80亿参数的大语言模型Steerling-8B,采用全新架构设计,使其行为易于解释:该模型产生的每个Token都可以追溯到其在训练数据中的源头。
这可以简单到确定模型引用事实的参考材料,也可以复杂到理解模型对幽默或性别的理解。
"如果我有一万亿种编码性别的方式,并且在我拥有的一万亿个事物中的10亿个事物中编码了它,你必须确保找到所有这10亿个我编码的事物,然后你必须能够可靠地打开它们,关闭它们,"Adebayo告诉TechCrunch。"你可以用当前的模型做到这一点,但这非常脆弱......这算是一个圣杯级别的问题。"
Adebayo在MIT攻读博士学位时开始这项工作,合著了一篇被广泛引用的2020年论文,证明现有的理解深度学习模型的方法并不可靠。这项工作最终催生了构建大语言模型的新方法:开发者在模型中插入一个概念层,将数据分类到可追踪的类别中。这需要更多前期数据标注,但通过使用其他AI模型的帮助,他们能够训练出这个迄今为止最大的概念验证模型。
"人们做的那种可解释性是......对模型进行神经科学研究,而我们颠倒了这一点,"Adebayo说。"我们实际做的是从头开始设计模型,这样你就不需要做神经科学研究。"
这种方法的一个担忧是,它可能会消除使大语言模型如此引人入胜的一些涌现行为:它们对尚未训练过的事物进行新方式泛化的能力。Adebayo表示这在他公司的模型中仍然会发生:他的团队追踪他们称为"发现概念"的东西,这些是模型自己发现的概念,比如量子计算。
Adebayo认为这种可解释的架构将是每个人都需要的。对于面向消费者的大语言模型,这些技术应该允许模型构建者做诸如阻止使用受版权保护的材料,或更好地控制围绕暴力或药物滥用等主题的输出等事情。受监管的行业将需要更可控的大语言模型,例如在金融领域,评估贷款申请人的模型需要考虑财务记录等因素,但不能考虑种族。科学工作中也需要可解释性,这是Guide Labs开发技术的另一个领域。蛋白质折叠已经成为深度学习模型的一大成功,但科学家需要更深入地了解他们的软件为什么能找到成功的组合。
"这个模型证明的是,训练可解释模型不再是一种科学;现在它是一个工程问题,"Adebayo说。"我们解决了科学问题,我们可以扩展它们,没有理由这种模型不能匹配前沿级模型的性能,"而前沿模型拥有更多参数。
Guide Labs表示,Steerling-8B能够达到现有模型90%的能力,但得益于其新颖的架构,使用的训练数据更少。该公司从Y Combinator毕业,并在2024年11月从Initialized Capital筹集了900万美元的种子轮融资,下一步是构建更大的模型,并开始向用户提供API和智能体访问。
"我们目前训练模型的方式非常原始,所以民主化固有的可解释性实际上对我们人类来说将是一个长期的好事,"Adebayo告诉TechCrunch。"当我们追求这些将要变得超级智能的模型时,你不希望有一些神秘的东西代表你做决定。"
Q&A
Q1:Steerling-8B与传统大语言模型有什么不同?
A:Steerling-8B采用全新的可解释架构设计,其最大特点是模型产生的每个Token都可以追溯到训练数据中的源头。开发者在模型中插入概念层,将数据分类到可追踪的类别中,使模型行为易于理解和解释。
Q2:Guide Labs的可解释技术会影响模型的创新能力吗?
A:不会。虽然有这方面的担忧,但Adebayo表示涌现行为仍然会发生。他们的团队追踪"发现概念",即模型自己发现的新概念,比如量子计算,证明模型仍保持对未训练内容的泛化能力。
Q3:可解释大语言模型主要应用在哪些领域?
A:主要应用包括:消费者产品中阻止使用受版权保护材料、控制暴力或药物滥用相关输出;金融等受监管行业,确保模型评估时只考虑相关因素而非种族等;科学研究领域,如蛋白质折叠研究中帮助科学家理解模型的推理过程。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.