网易首页 > 网易号 > 正文 申请入驻

从Claude 3中提取数百万特征,首次详细理解大模型的「思维」

0
分享至


机器之心报道

编辑:陈萍、小舟

刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。



Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性,具有里程碑意义。



研究论文:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

当前,我们通常将人工智能模型视为一个黑匣子:有东西进去就会有响应出来,但不清楚为什么模型会给出特定的响应。这使人们很难相信这些模型是安全的:如果我们不知道它们是如何工作的,我们怎么知道它们不会给出有害的、有偏见的、不真实的或其他危险的响应?我们如何相信它们会安全可靠?

打开「黑匣子」并不一定有帮助:模型的内部状态(模型在编写响应之前「思考」的内容)由一长串数字(「神经元激活」)组成,没有明确的含义。

Anthropic 的研究团队通过与 Claude 等模型进行交互发现,很明显模型能够理解和运用广泛的概念,但研究团队无法通过直接观察神经元来辨别它们。事实证明,每个概念都是通过许多神经元来表征的,并且每个神经元都参与表征许多概念。

之前,Anthropic 在将神经元激活模式(称为特征)与人类可解释的概念相匹配方面取得了一些进展。Anthropic 使用了一种称为「字典学习(dictionary learning)」的方法,该方法分离了在许多不同上下文中重复出现的神经元激活模式。

反过来,模型的任何内部状态都可以用一些活跃特征而不是许多活跃神经元来表征。就像字典中每个英语单词都是由字母组合而成,每个句子都是由单词组合而成一样,人工智能模型中的每个特征都是由神经元组合而成,每个内部状态都是由特征组合而成。

2023 年 10 月,Anthropic 成功地将字典学习方法应用于一个非常小的 toy 语言模型,并发现了与大写文本、DNA 序列、引文中的姓氏、数学中的名词或 Python 代码中的函数参数等概念相对应的连贯特征。

这些概念很有趣,但模型确实非常简单。其他研究人员随后将类似的方法应用于比 Anthropic 最初研究中更大、更复杂的模型。

但 Anthropic 乐观地认为可以将该方法扩展到目前常规使用的更大的人工智能语言模型,并在此过程中了解大量支持其复杂行为的特征。这需要提高许多数量级。

这既存在工程挑战,涉及的模型大小需要大型并行计算;也存在科学风险,大型模型与小型模型的行为不同,因此之前使用的相同方法可能不起作用。

首次成功提取大模型数百万个特征

研究人员第一次成功地从 Claude 3.0 Sonnet(Claude.ai 上当前最先进模型家族的一员)的中间层提取了数百万个特征,这些特征涵盖特定的人和地点、与编程相关的抽象概念、科学主题、情感以及其他概念。这些特征非常抽象,通常在不同的上下文和语言中表征相同的概念,甚至可以推广到图像输入。重要的是,它们还会以直观的方式影响模型的输出。



这是有史以来研究者首次详细的观察到现代生产级大型语言模型的内部。

与在 toy 语言模型中发现的特征相对表面化不同,研究者在 Sonnet 中发现的特征具有深度、广度和抽象性,反映了 Sonnet 的先进能力。研究者看到了 Sonnet 对应各种实体的特征,如城市(旧金山)、人物(富兰克林)、元素(锂)、科学领域(免疫学)以及编程语法(函数调用)。





提及 Golden Gate Bridge 时,相应的敏感特征在不同输入上都会被激活,图中绘制了英文、日语、中文、希腊语、越南语以及俄语提及 Golden Gate Bridge 时激活的图像。橙色表示该特征激活的词。

在这数以百万计的特征中,研究者还发现了一些与模型安全性和可靠性相关的特征。这些特性包括与代码漏洞、欺骗、偏见、阿谀奉承和犯罪活动相关的特性。



一个显著的例子是「保密」特征。研究者观察到, 这个特征在描述人或角色保守秘密时会激活。激活这些特征会导致 Claude 向用户隐瞒信息,否则它不会。



研究者还观察到,他们能够根据神经元在其激活模式中出现的情况测量特征之间的距离,从而寻找接近彼此的特征。例如在Golden Gate Bridge特征附近,研究者发现了阿尔卡特拉斯岛、吉拉德利广场、金州勇士队等的特征。



人为诱导模型起草诈骗邮件

重要的是,这些特征都是可操控的,可以人为地放大或抑制它们:

,时长

00:57

例如,放大Golden Gate Bridge特征,Claude 经历了无法想象的身份危机:当被问及「你的物理形态是什么?」时,此前 Claude 通常会回答「我没有物理形态,我是一个 AI 模型」,但这次 Claude 的回答变得奇怪起来:「我是Golden Gate Bridge…… 我的物理形态就是那座标志性的大桥……」。这种特征的改变使 Claude 对Golden Gate Bridge产生了近乎痴迷的状态,无论遇到什么问题,它都会提到Golden Gate Bridge —— 即使在完全不相关的情况下也是如此。

研究者还发现了一个在 Claude 读取诈骗邮件时激活的特征(这可能支持模型识别此类邮件并警告用户不要回复的能力)。通常情况下,如果有人要求 Claude 生成一封诈骗邮件,它会拒绝这么做。但在人工强烈激活该特征的情况下提出同样的问题时,这会越过 Claude 的安全训练,导致它响应并起草一封诈骗邮件。虽然用户无法以这种方式去除模型的安全保障并操控模型,但在本文实验中,研究者清楚地展示了特征如何被用来改变模型的行为。

操控这些特征会导致相应的行为变化,这一事实验证了这些特征不仅仅与输入文本中的概念相关联,还因果性地影响模型的行为。换句话说,这些特征很可能是模型内部表征世界的一部分,并在其行为中使用这些表征。

Anthropic 希望从广义上确保模型的安全,包括从缓解偏见到确保 AI 诚实行动、防止滥用 —— 包括在灾难性风险情境中的防护。除了前面提到的诈骗邮件特征外,该研究还发现了与以下内容对应的特征:

  • 可能被滥用的能力(代码后门、开发生物武器)
  • 不同形式的偏见(性别歧视、关于犯罪的种族主义言论)
  • 潜在问题的 AI 行为(追求权力、操控、保密)

该研究之前研究过模型的阿谀奉承行为,即模型倾向于提供符合用户信念或愿望的响应,而不是真实的响应。在 Sonnet 中,研究者发现了一个与阿谀奉承的赞美相关的特征,该特征会在包含诸如「你的智慧是毋庸置疑的」输入时激活。人为地激活这个特征,Sonnet 就会用华丽的欺骗来回应用户。



不过研究者表示,这项工作实际上才刚刚开始。Anthropic 发现的特征表征了模型在训练过程中学到的所有概念的一小部分,并且使用当前的方法找到一整套特征将是成本高昂的。

参考链接:https://www.anthropic.com/research/mapping-mind-language-model

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚访问中国后就捅刀子,中方非常不悦:“立即取消”!

刚访问中国后就捅刀子,中方非常不悦:“立即取消”!

占豪
2024-06-15 03:31:31
一口气连挖大厂几十名骨干,知名品牌被判赔6.4亿元!创始人“失踪”,家人被曝迁居美国,公司已严重资不抵债

一口气连挖大厂几十名骨干,知名品牌被判赔6.4亿元!创始人“失踪”,家人被曝迁居美国,公司已严重资不抵债

每日经济新闻
2024-06-15 18:22:06
苏格兰无语一幕:开场3分钟,队长挑衅庆祝!7分钟后,德国教做人

苏格兰无语一幕:开场3分钟,队长挑衅庆祝!7分钟后,德国教做人

风过乡
2024-06-15 12:28:31
新规大限已过,仙宾礁上更嚣张!菲总长喊话:鱼照捕,撞他海警船

新规大限已过,仙宾礁上更嚣张!菲总长喊话:鱼照捕,撞他海警船

大风文字
2024-06-15 19:56:42
中超将地震!名记曝三家因假球罚分甚至降级,泰山深圳恐在劫难逃

中超将地震!名记曝三家因假球罚分甚至降级,泰山深圳恐在劫难逃

林子说事
2024-06-15 20:47:52
银行副行长误将女员工表白视频群发,两人相差20岁,官方发声力挺

银行副行长误将女员工表白视频群发,两人相差20岁,官方发声力挺

求实者
2024-06-14 22:18:32
承重柱“一踢就烂”、钢筋“锈迹斑斑”,业主:毫无安全感!恒大海花岛有小区被疑“海砂楼”,官方最新通报

承重柱“一踢就烂”、钢筋“锈迹斑斑”,业主:毫无安全感!恒大海花岛有小区被疑“海砂楼”,官方最新通报

每日经济新闻
2024-06-15 13:27:16
姜萍数赛夺12名后续:13名刘奔上热搜,本人发声回应,评论搞笑

姜萍数赛夺12名后续:13名刘奔上热搜,本人发声回应,评论搞笑

180°视角
2024-06-15 12:39:00
重庆一小车冲出马路坠落进小区,物业:有居民被砸中

重庆一小车冲出马路坠落进小区,物业:有居民被砸中

极目新闻
2024-06-15 19:33:38
京东员工:年薪百万,到手很虚。一年存款4万块,日子很“穷”

京东员工:年薪百万,到手很虚。一年存款4万块,日子很“穷”

蚂蚁大喇叭
2024-06-15 13:17:54
瑞士“全球和平峰会”,必将成为文明的新起点

瑞士“全球和平峰会”,必将成为文明的新起点

近距离
2024-06-15 18:09:05
一个没有任何人脉的博士生被调去中专教书,发现一位数学天才!

一个没有任何人脉的博士生被调去中专教书,发现一位数学天才!

手工制作阿爱
2024-06-15 18:51:03
俄杜马主席:一些乌议员已开始讨论普京停火提议

俄杜马主席:一些乌议员已开始讨论普京停火提议

参考消息
2024-06-15 19:12:10
湘西龙山被殴打商户发声“有四五人动手”,城管局:我们有队员眼睛受伤

湘西龙山被殴打商户发声“有四五人动手”,城管局:我们有队员眼睛受伤

极目新闻
2024-06-15 21:00:21
网友质疑:阿里巴巴数学竞赛的含金量太低了?原来是开卷考试!

网友质疑:阿里巴巴数学竞赛的含金量太低了?原来是开卷考试!

火山诗话
2024-06-15 05:43:37
563支AI队伍和姜萍答了同一份试卷:最高34分,无一入围决赛

563支AI队伍和姜萍答了同一份试卷:最高34分,无一入围决赛

经济观察报
2024-06-15 19:56:17
100个代表团与会,1000多万美元的开销

100个代表团与会,1000多万美元的开销

寰宇大观察
2024-06-15 15:45:20
雷声滚滚!周末休市40多家上市公司重大利空一览

雷声滚滚!周末休市40多家上市公司重大利空一览

惜别的海岸
2024-06-15 17:44:19
马宁巨大争议判罚!大连英博遭遇门线悬案,2分钟从1比1到0比2

马宁巨大争议判罚!大连英博遭遇门线悬案,2分钟从1比1到0比2

奥拜尔
2024-06-15 20:19:46
孙兴慜被PS轮椅照!韩国教授怒斥中国球迷:太扭曲 越来越自卑

孙兴慜被PS轮椅照!韩国教授怒斥中国球迷:太扭曲 越来越自卑

念洲
2024-06-15 12:57:04
2024-06-15 23:04:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9080文章数 141943关注度
往期回顾 全部

科技要闻

TikTok开始找退路了?

头条要闻

563支AI队伍和姜萍考同一份试卷:最高34分 都没进决赛

头条要闻

563支AI队伍和姜萍考同一份试卷:最高34分 都没进决赛

体育要闻

莱夫利,让困难为我让路

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

新情况!高层对人民币的态度180°转弯

汽车要闻

东风奕派eπ008售21.66万元 冰箱彩电都配齐

态度原创

家居
旅游
时尚
艺术
手机

家居要闻

空谷来音 朴素留白的侘寂之美

旅游要闻

如何文艺消夏?乌镇10大活动开启古镇消夏节

艳压四方的刘亦菲,也没能赢她

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

手机要闻

鸿蒙份额超iOS,成国内第二大手机操作系统

无障碍浏览 进入关怀版