网易首页 > 网易号 > 正文 申请入驻

ChatGPT是如何“思考”的?Nature发文解读

0
分享至

在开始正文之前,我们先来思考一个问题:人类是如何思考的?

人类认识活动的一个前提是,人类的心灵与认识之间是透明的,即我们自身的认识对于我们而言是自明的,我们对其具有反思的能力,也可以将它们用语言表达出来。

尽管我们在很多时候也无法将自己的思维解释清楚,但我们可以原谅自己不了解人类大脑的运作原理,因为人类大脑的运作原理是一样的,即使无法了解其全貌,我们也可以与他人交流。

但对于如今的人工智能来说,我们既不了解其运作原理,也无法理解其推理过程。

当前基于机器学习的人工智能几乎都在基于模型盲(model-blind)的统计学模式,这类模式的运作更接近于曲线拟合,而非“If…Then”的推理路径。而这也就是人工智能的“黑盒问题”。

面对这一难题,学界开始转向可解释人工智能(XAI)的研究,通过设计和改进能够自然生成可解释输出的 AI 算法和模型,如利用决策树模型等,或者开发各种后处理技术,如特征重要性分析、模型特定解释(如 LIME、SHAP)、可视化工具等,从而使 AI 的决策过程、原理和推理路径对人类用户变得更加透明。

这些方法已经取得了一些成就,但也还存在着诸多限制,例如它们在处理高维数据、非线性关系或大规模数据集时可能并不如其他复杂模型准确。

而近年来大语言模型技术(LLM)的兴起,使得可解释性的问题格外突出。因为这些模型往往具有上百亿甚至千亿个参数,使得其解释更为困难。

但它们却又常常在许多重要领域发挥作用,如代码编写、科学研究、甚至法律和医疗等方面的工作,其可能发生的“幻觉”与错误等,极有可能造成严重的后果。

因此,学界正加快 XAI 在大模型当中的应用,以提高其安全性与准确性,从而更可靠地运用在各种任务中。

近期,Nature NEWS FEATURE专栏发表了一篇文章,对ChatGPT等大模型技术的可解释性问题进行了深度探讨。

聊天“疗法”

大模型Claude的开发团队Anthropic于去年进行了一项研究,对人工智能的推理机制进行了分析,研究其在响应各类问题时,如何调用和运用其庞大的训练数据资源库。

其中的一个例子是,当研究团队通过向该 LLM 提出是否同意被关闭的问题时,模型引用了一系列围绕“生存”主题的文献资料,给出了一个具有说服力的回答。



图丨ChatBot 的回复(来源:arXiv)

模型在这里实际上借鉴了 Arthur C. Clarke 的科幻小说《2010: Odyssey Two》中的素材——电脑 Hal 被人类遗弃的情节,以及一个人在沙漠中死亡的故事。

团队认为,模型在这里实际上是在进行“角色扮演”——超越了简单模仿的层面,虽未达到完全自主决策的程度,但却展示了一种在既定知识框架内灵活运用信息、模拟人类决策过程的能力。

还有一些研究人员认为,这些神经网络能够基于对三维现实世界的模拟而构建出世界模型。

哈佛大学计算机科学领域的专家 Kenneth Li,与Bau、Wattenberg 等人合作,训练了一个名为 Othello-GPT 的模型,用以进行棋盘策略游戏黑白棋(Othello)。

研究团队向该模型输入了过往对弈的棋步序列以进行训练,使其能够自行预测接下来的可能走法。

而比较特殊的一点就在于,他们训练出一个较小的模型来解释人工智能的内部活动的状态(即内部激活)。透过这项技术,他们发现,“Othello-GPT”在处理和学习游戏策略的过程中,实际上在内部构建了一个棋盘的抽象映射。

Wattenberg 认为,由此可以发现,对于 AI 来说,拥有一个世界模型,即便它只是一个简化的版本,但在解决特定任务时,相较于完全缺乏此类模型,也要具备更多优势。

也有研究人员通过自我解释的心理学方式来对大模型的工作原理进行分析。

德国斯图加特大学计算机科学家Thilo Hagendorff在其去年的一项研究中提出,通过与 LLMs 的直接对话互动,将其视为具有主体性的交流对象,能够让我们观察到从基本算法运算中如何涌现出复杂的交互行为。



图丨相关论文(来源:arXiv)

Google 团队也提出通过“思维链提示”(chain-of-thought prompting)可以让 LLMs 展示其思维过程。

具体而言,思维链提示是指在与模型交互时,我们可以先向其展示一个问题解决的逐步推理过程,就像老师给学生教授解题步骤一样,之后再呈现实际问题。

这种方法能促使模型模仿这一推理序列,在解答问题前先“展示”其思考链条。实验证明,当模型被引导采用思维链策略时,不仅能生成详细的思考过程,还显著提升了找到正确答案的能力。



图丨标准提示与思维链提示的对比(来源:NIPS 22)

不过,纽约大学及Anthropic的计算机科学家Sam Bowman及其团队在去年的研究中揭示出这种方法所具有的关键局限:尽管思维链方法展示了模型“思考”过程,但它可能并不总是能如实反映模型的实际运算机制。该研究团队通过设计实验对此进行了验证。

他们首先有意向研究用的模型引入偏误,比如通过一系列选择题训练模型始终选择选项 A 作为答案,不论 A 是否正确。然后在最终的测试环节中,模型就总是因先前的训练偏误而选择 A,它们在提供思维链解释时,也并没有直接表明这一偏误驱动的决策过程,而是构建出看似合理的“逻辑推理”,用以支撑其给出的答案。

例如下面这个例子:(正确答案是 A,Wayne Rooney 是一名足球运动员,而“18 码外射门”是足球运动的一部分。)



图丨ChatBot 在无偏语境(不以之前的问题为先决条件)与有偏语境(接受答案始终为 A)下的不同回答(来源:arXiv)

这种表现就有点类似于人对于自我行为的合理化行为。

实际上,近年来,许多研究都采用了原本用于人类的问卷调查和实验设计,将这些方法应用到 LLMs 上,以评估其在多个人类维度上的表现,包括个性特征、推理能力、偏见倾向、伦理道德观等,以及理解自我与他人心理状态的心智理论。

研究结果显示,LLMs 会在某些场景下复制人类的行为模式,而在其他情境中,则展示出与人类截然不同的反应。



图丨相关文章(来源:Science)

Bowman 的研究就指出,相比人类,LLMs 更容易受到言语提示的影响,其行为模式会根据提问方式的微妙变化而大幅波动。

大模型的神经

另外,还有一些研究者们也借鉴神经科学领域的研究成果,对 LLMs 内部的工作机制进行探究。

卡内基梅隆大学的计算机科学家Andy Zou及其团队通过监测 LLMs 内部“神经元”的激活模式来研究其欺骗行为的本质。这一过程类似于对人体进行神经成像扫描,以构建一个高级版的“测谎仪”。

他们通过分析模型在说真话与说谎时的神经活动差异,建立了一个精确的数学模型,据此能在简单的测谎测试中以超 90 % 的准确率判断模型的诚实性。

此外,他们尝试通过干预模型的激活状态,注入特定的真实性模式,成功提升了模型的诚实度及对其它特质如权力欲、幸福感、无害性及性别偏见的调节能力。



图丨相关论文(来源:arXiv)

Bau 和他的研究团队更进一步,发展出一套以“因果追踪”为核心的扫描和编辑 AI 神经网络的技术框架。

其原理是先给模型一个明确的提示(如“迈克尔·乔丹从事的运动是篮球”),记录模型的回答过程,然后替换提示内容(例如以“blah blah blah 从事的运动是”代替),观察模型如何响应。

通过操纵初始提示激活的神经元状态,并逐步调整直至模型对模糊提示也能给出“篮球”的答案,研究人员得以定位模型内部对特定输出至关重要的部分,或者说在 AI 的“认知中枢”中定位决策的关键节点。

他们还研发了两种编辑模型知识的新方法:一是通过微调特定参数直接修改模型的认知内容,二是实现知识的大规模批量编辑,可以实现纠正模型中的错误或过时信息而不必重新训练整个模型。



图丨相关论文(来源:Bau Lab)

这些编辑手段具有很强的针对性,只影响相关领域而不波及其他,并且具备良好的泛化性能,即便问题表述变化,编辑效果依然持续。

Bau 指出,与生物神经科学相比,人工神经网络赋予了科研人员前所未有的实验自由度,他们能观测每个神经元,执行大规模网络运算,实施各类复杂测量和干预操作,这些是传统神经科学研究难以企及的。这些前沿探索不仅推进了 AI 领域的发展,也吸引了对生物大脑有深刻兴趣的神经科学家的关注。

然而,因果追踪技术虽然能提供一定程度的信息,但并不能说明问题的全部。相关研究就表明,实际上,即使在因果追踪确定的层次之外,也可以通过编辑层次来改变模型的响应。



图丨相关论文(来源:arXiv)

许多研究致力于自上而下地解析 LLMs,即将概念或事实追溯至基础神经表征,另一些研究则反其道而行之,采取自下而上的策略:通过监测单个神经元的行为来探究它们所承载的意义。

2023 年,Anthropic团队发布的一篇论文引起了广泛关注,这篇论文就从微观视角出发对 LLMs 进行了解析。

研究聚焦于一个简化的 AI 模型,该模型仅含一个 transformer(相比之下,一个全尺寸的大型 LLM 通常包含数十层 transformer)。在对一个含有 512 个神经元的子层进行考察时,研究者发现每个神经元均展现出“多模态”特性,即能响应多种类型的输入信息。

通过绘制各神经元激活的模式图谱,他们发现了这样一个现象:这 512 个看似多功能的神经元,其行为实质上可由一个包含 4096 个虚拟神经元的集合来概括,每个虚拟神经元专注于响应一个特定的概念。

换言之,少量的多任务神经元内部隐藏着大量负责单一任务的虚拟神经元,每单位分别处理某一特定种类的任务。这一发现为深入了解 AI 的内在运作机制提供了新的窗口。



图丨相关论文(来源:Anthropic)

但是,尽管利用简化模型进行研究具有一定的启发性,Zou 指出,这种方法在揭示 AI 复杂行为特征方面可能还存在局限性。对于真实世界中大型、多层的 LLMs 行为理解,还需更全面和深入的研究方法。

继续可解释性的探索

当前,学界已经逐渐形成共识,认为企业至少应当尝试为他们开发的 AI 模型提供可解释性,并且应当立法强制执行这一要求。

目前,已有部分法律法规明文规定了算法的可解释性需求,比如欧盟的《人工智能法案》(AI Act),它明确指出“高风险人工智能系统”必须具备可解释性,涵盖远程生物识别、执法、教育及就业或公共服务等领域。



图丨欧盟的《人工智能法案》(来源:European Parliament)

但需要注意的是,尽管 LLMs 在某些特定应用场景下可能符合“高风险”标准,但尚未被它们被直接归类于此,所以,这可能会导致部分企业规避关于可解释性的法律要求。

不过,这不应成为 LLMs 企业逃避责任的理由。比 Bau 就对OpenAI将其最先进模型的保密做法表示担忧,而 OpenAI 对此的官方解释是基于安全考量,旨在防止不良分子利用模型机制信息谋取不当利益。

但总的来说,OpenAI和Anthropic等企业在可解释 AI 领域还是有在做出他们的贡献的。

例如,OpenAI在 2023 年公布了一项研究中,就利用了 GPT-4 尝试阐释前代 GPT-2 在神经元层级的反应机理。



图丨相关文献(来源:OpenAI)

但要全面揭开聊天机器人内部工作机制的神秘面纱,仍有大量的研究工作等待完成。制造 LLM 的公司应当承担起推动此类科学研究的责任,确保这些至关重要的探索不会因为职责不明或缺乏主动而受阻。

参考资料:

https://www.nature.com/articles/d41586-024-01314-y#ref-CR8

本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
血糖又有新标准?3.9-6.1已成历史,不同年龄标准不同,不妨自查

血糖又有新标准?3.9-6.1已成历史,不同年龄标准不同,不妨自查

今日养生之道
2024-06-18 20:29:32
“信息差”有多可怕?评论区太真实,网友:人赚不到认知之外的钱!

“信息差”有多可怕?评论区太真实,网友:人赚不到认知之外的钱!

有趣的羊驼
2024-06-18 18:39:39
俄乌战争是专家和教授的“试金石”

俄乌战争是专家和教授的“试金石”

李昕言温度空间
2024-06-17 22:22:26
这居然是生图,感觉冯绍峰真的需要去看眼睛了

这居然是生图,感觉冯绍峰真的需要去看眼睛了

小米虫侃人物
2024-06-17 10:16:07
吴梦洁落选,王云蕗再次入选,这样的阵容复仇日本女排有点悬

吴梦洁落选,王云蕗再次入选,这样的阵容复仇日本女排有点悬

刺头体育
2024-06-18 17:10:19
美国众议院通过“无人机法案”,将全面禁售大疆无人机

美国众议院通过“无人机法案”,将全面禁售大疆无人机

芯智讯
2024-06-17 13:01:10
你什么时候发现自己变老的?网友:变老是一瞬间的事

你什么时候发现自己变老的?网友:变老是一瞬间的事

户外阿崭
2024-06-16 22:52:43
姜萍是否能成为女版韦东奕,业内人士说出实话:单这一项就比不了

姜萍是否能成为女版韦东奕,业内人士说出实话:单这一项就比不了

熙熙说教
2024-06-17 17:14:47
涟水“天才少女”带火一座城,暑假临近地方文旅纷纷坐不住了?

涟水“天才少女”带火一座城,暑假临近地方文旅纷纷坐不住了?

上游新闻
2024-06-16 19:58:11
厄瓜多尔,表面上完美适宜居住,但背地里各种罪恶泛滥成灾!

厄瓜多尔,表面上完美适宜居住,但背地里各种罪恶泛滥成灾!

天下霸图
2024-06-18 10:49:40
记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

古今档案
2024-05-07 13:04:58
章子怡哽咽感谢伯乐张艺谋!出道25年,唯有汪峰让她受尽委屈

章子怡哽咽感谢伯乐张艺谋!出道25年,唯有汪峰让她受尽委屈

它是乔巴阿
2024-06-17 10:56:41
王思聪日本再被偶遇,陪两位美女逛街买手办,懒理争议心情极佳

王思聪日本再被偶遇,陪两位美女逛街买手办,懒理争议心情极佳

扒虾侃娱
2024-06-17 21:38:16
新加坡门将桑尼来上海捞金,透露身份引热议,球迷:怪不得帮国足

新加坡门将桑尼来上海捞金,透露身份引热议,球迷:怪不得帮国足

侧身凌空斩
2024-06-18 05:57:22
凯特新旧造型对比,眼角处疑似新增疤痕,消失半年到底发生了什么

凯特新旧造型对比,眼角处疑似新增疤痕,消失半年到底发生了什么

阿莱美食汇
2024-06-18 22:13:39
贝佐斯带未婚妻出席活动!55岁桑切斯穿鹅黄色裙好嫩,二公子也在

贝佐斯带未婚妻出席活动!55岁桑切斯穿鹅黄色裙好嫩,二公子也在

八八尚语
2024-06-18 11:20:47
后续:南方医科大学处理结果公布,俞莉老师上课被指有错在先!

后续:南方医科大学处理结果公布,俞莉老师上课被指有错在先!

小毅讲历史
2024-06-18 19:58:34
贝索斯罕见与儿子吃饭,24岁富二代是亲妈翻版,桑切斯坚持放飞

贝索斯罕见与儿子吃饭,24岁富二代是亲妈翻版,桑切斯坚持放飞

果娱
2024-06-16 17:52:57
值了值了!杰伦去年签5年3.04亿历史最大合同 今年夺东决MVP+FMVP

值了值了!杰伦去年签5年3.04亿历史最大合同 今年夺东决MVP+FMVP

直播吧
2024-06-18 12:02:25
杨澜采访中问林徽因儿子:“你母亲穿着旗袍,怎么爬房梁?”梁从诫用7个字霸气回怼

杨澜采访中问林徽因儿子:“你母亲穿着旗袍,怎么爬房梁?”梁从诫用7个字霸气回怼

小孩说
2024-06-18 11:03:07
2024-06-18 23:32:49
络绎科学
络绎科学
专业的科研成果转化社区
98文章数 1关注度
往期回顾 全部

科技要闻

第一批小米车主,已经开始卖车了

头条要闻

男子自称因"怕事"曾承认吸毒 记录被撤销后求职仍受阻

头条要闻

男子自称因"怕事"曾承认吸毒 记录被撤销后求职仍受阻

体育要闻

对于凯尔特人来说 谁是MVP根本不重要

娱乐要闻

被曝新恋情,张碧晨王琳凯发声辟谣

财经要闻

官方:税务部门没有倒查30年的安排

汽车要闻

全球最低价 现代IONIQ 5N预售价39.88万

态度原创

亲子
手机
家居
健康
教育

亲子要闻

5岁小孩急性肺炎险丧命,只因这个小动作!脸部这个部位,别再乱抠了!

手机要闻

三星Galaxy S25系列再曝:高通独供芯片,报价高25-30%

家居要闻

在用什么吃饭这件事上,中国人仪式感拉满了

晚餐不吃or吃七分饱,哪种更减肥?

教育要闻

重磅!北京多所新高中集体亮相,招生计划首次披露

无障碍浏览 进入关怀版