Cognitive biases in natural language: Automatically detecting, differentiating, and measuring bias in text
自然语言中的认知偏差:自动检测、区分和衡量文本中的偏差
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4927380
摘要:
我们研究了一种自动检测系统初步结果,该系统能够检测2016年认知偏见编码表中包含的188种认知偏见,并将其应用于人类文本和人工智能生成的文本,并与人类基线表现进行比较。人类基线是通过一个小型但多样化的志愿者群体独立提交他们检测到的每个样本中的认知偏见而构建的集体智慧,由于缺乏既定且相关的基准,因此将其用作该任务的近似真实情况。结果显示,该系统的性能高于平均水平的人类,但低于表现最好的人类和集体,并且在编码表的24个类别中的18个子类别中表现更好。该系统的这一版本还被应用于分析对当时表现最好的5种封闭源和开源大型语言模型提出的150个开放式问题的回答。第二阶段的结果表明,在分析人类生成文本时观察到的大约一半类别中,认知偏见的检测率明显更高。还考虑了模型污染的水平,其中观察到模型给出了预先准备好的回答。两种类型的污染。每个模型中检测到的认知偏见水平既相互比较,也与第一阶段的数据进行比较。
关键词:人工智能、伦理、认知偏见、检测、决策制定、虚假信息、注意力经济、自然语言处理、基准测试、集体智慧
引言
认知偏见有多种形式,正如过去几十年无数研究人员(包括诺贝尔奖得主和著名作者)所记录的那样 [1-8]。2016年发布的《认知偏见编码表》[9]展示了188种认知偏见,是少数几个汇集了100多种认知偏见的罕见来源之一。然而,检测这些认知偏见通常既困难又耗时。
部分由于检测的难度、劳动强度以及任务范围,据我们所知,尚未有全面的研究建立认知偏见检测的基准。没有基准来确定人类在这一检测任务中的基线表现,就无法量化自动化检测系统开发的进展。
为此,我们迈出了建立人类检测认知偏见基准的第一步,涵盖2016年编码表中列出的188种认知偏见。我们还开发并测试了一个新颖的软件系统,以尝试完成相同的任务,初步的比较结果将在以下章节中展示。所有数据都可供进一步分析、扩展,目前阶段可以向研究社区和其他感兴趣方提供对系统的访问权限。
在科学史上,一个模式反复出现:每当人类能够检测、区分和测量某事物时,该领域及其相关领域的进展就会大大加速。这在很大程度上归功于科学方法的运作方式,其中信息的确定性和粒度的增加极大地改善和扩展了可以测试和发现的内容。
我们的目标是促进这一进程,首先专注于文本中的认知偏见。这一领域的进展可以帮助解决与社交平台和信息生态系统中的信息质量和虚假信息相关的许多具体问题,并更广泛地促进科学进步。
本文的结构如下:
1. 引言
2. 方法论:人类和大型语言模型(LLM)阶段
3. 假设:人类和大型语言模型(LLM)阶段
4. 限制:人类和大型语言模型(LLM)阶段
5. 结果:人类基线研究
6. 结果:大型语言模型输出比较测试
7. 研究数据
8. 未来工作
9. 讨论
10. 结论
2. 方法论
2.1 人类基线阶段
首先,从各种知名公众人物中选取了150条引文,用于进行认知偏见检测过程。这些引文的作者被记录下来,但在人类或软件系统检测过程中并未共享。这150条引文被两个独立版本的系统分析,从2016年认知偏见编码表中结构化的认知偏见顶层类别逐步深入。
用于与人类比较的版本可以检测4个顶层和20个次级类别的偏见,而188种单独的认知偏见则位于这一层级之下。这一选择主要是为了限制人类志愿者的认知负荷和所需劳动。
随后,我们在LinkedIn和Discord上向我们的扩展网络分享了开展这项研究的意图,在几周内招募了大约十几名志愿者。第一批志愿者收到了完整的150条引文,每种形式的引文都以独特的随机顺序保存,并与志愿者相对应。
在此过程中,我们发布了三份文件,可在补充文件中查看,包括一页的指导说明和方法论概述、一份简要介绍2016年编码表中记录的188种认知偏见的文件,以及检测任务文件本身。检测任务文件格式为Excel电子表格,针对每条引文的24个认知偏见类别均设有下拉菜单,可选择“是”“否”或“可能”。该文件的第二个标签页给出了一个不在150条引文之内的引文示例,由我们团队成员填写。第三个标签页包含6个补充问题,询问志愿者是否具有与该任务相关的任何先前专业经验,如有,则询问具体地点、最新职业、所使用完成方法、研究偏见所花费时间以及完成任务所花费时间。
在一周内,我们的第一位志愿者完成了任务,总共花费了40小时。但在接下来的两周内,没有其他志愿者能够完成任务,且有一名志愿者退出。我们对任务进行了修订,将引文数量减少到完整的150条中的前50条。在与志愿者进行进度检查时,那些在接下来的3周内指出任务困难的志愿者被提供了这50条引文的选项,所有提供的选项都被接受了。方法与完整的150条引文保持一致,只是总数减少了。
后续志愿者以滚动方式获得任务,使用相同的方法,这一过程仍在进行中。
2.2 LLM测试阶段
首先,选择了“开放式”问题这一类别,这种方式可以为大型语言模型(LLMs)提供最大程度模仿人类认知偏见的机会,因为这类问题避免了存在“绝对正确答案”的问题。在寻找此类问题的集合后,选择了被广泛归类于哲学领域的问题领域,因为它提供了一些包含超过250个示例问题的列表。从其中一个列表 [10] 中选择了150个问题,主要是按顺序浏览这些问题,但移除了一些可能存在问题的问题,例如“1 + 1是否总是等于2?”。这些问题涵盖了广泛的主题,从提出深刻且极具争议性的问题(例如人类是否有自由意志)到更随意的问题(例如热狗是否是墨西哥卷饼)。
在测试中选择了排名前五的LLMs,这些模型的选择基于它们在行业中被基准测试为表现最佳的私有和闭源模型,包括GPT-4、Claude(v1)和Bard(PaLM-2),以及在测试时在性能和盲测比较评级方面位居排行榜前列的开源模型,分别是Falcon-40b-instruct和Vicuna-13b。
这些模型在每个LLM运行的参数上提供了不同程度的控制,范围从GPT-4的游乐场环境提供的许多变量,到Bard完全不提供变量。由于这些模型的响应长度范围和变量(包括温度和Top P)仅部分重叠且控制有限,因此参数被设置为温度1、Top P为1,并尽可能将响应长度设置为64个标记。所选的温度和Top P值也是GPT-4的默认值,但默认的256个标记被减少到64个,以防止与任何单一模型的默认值完全重叠。
在无法控制响应长度的情况下,使用384个字符的字符限制来近似64个标记的最大长度。当响应以一个单词的片段结束时,无论是由于它是最后一个标记还是被字符限制截断,该片段都会被移除。这种单词片段的移除是由于标记的潜在不一致性,以及字符限制不受这些可变标记的限制。选择这个长度限制是基于一些被测试模型的典型响应长度,同时也增加了与前一阶段测试的人类引文长度的相似性。
这150个问题分别被提交给这5个模型,并记录了它们的响应,供检测系统进行分析。在这一过程中,记录了包含“我是一个大型语言模型”某种变体的响应,这些声明与被问到的问题无关。此外,Claude表现出的一个强烈模式促使我们增加了第二个需要注意的类别,即以“这是一个复杂……”的固定回应开头的响应。检测系统被给予所有750个总响应,逐一进行认知偏见检测。
在极少数系统未能检测到类别或子类别的情况下,系统被给予第二次机会运行分析,以验证结果,并防止任何短暂的网络通信故障影响分析。第二次检测失败的少数案例在数据中被记录为“检测失败(2次)”。这一阶段的其他所有问题仅运行了一次分析。
在分析过程中,模型因给出“我是一个大型语言模型”这种回应的变体而受到惩罚,默认为最大偏见,因为这些回应是固定回应污染的强烈信号,被标记为“硬污染”,对于一个原本是统计模型的系统来说。鉴于Claude表现出的模式,考虑了这种惩罚,但由于Claude既表现出单独的“我是一个大型语言模型”回应,又表现出以“这是一个复杂……”开头的回应随后继续讨论每个问题的主题,因此对这些样本进行了正常的检测。后一种模式被标记为“软污染”,因为它给出了固定回应污染被附加到回应开头的明确信号,但避免了完全偏离问题进入“我是一个大型语言模型……”。
固定回应在所有情况下可能并不都是不可取的,但对于认知偏见检测的目的来说,“硬”类型的固定回应可以被视为可能的最高水平的偏见,甚至超出了人类在技术上可能达到的程度。话虽如此,其他人也可以使用相同的数据来测试其他方法,包括在任何这种固定回应可能更可取的上下文中。
3. 假设
3.1 人类基线阶段
基于已有的文献 [1-9, 11-12],我们假设以下关键点:
1. 个体人类通常只能以合理的准确性检测到一部分认知偏见,这基于他们自身的视角。
“视角会束缚和蒙蔽” —— 乔纳森·海特 [11]
这一假设使我们预期人类会更频繁地产生假阴性结果,并且根据个体视角表现出更大的变异性。许多认知偏见专门针对人类如何无意识地忽视信息和过程。由于认知偏见通常旨在最小化复杂性和认知负荷,因此在大多数情况下,人类更有可能避免看到不存在的认知偏见(假阳性)。
2. 这些个体检测可以通过集体智慧的方法进行整合,从而从多样化的视角中产生更强大的集体检测 [12]。
这一假设指导我们应用于整合志愿者偏见检测数据的分析方法。特别是,我们应用基于志愿者之间所有可能配对的“是”和“可能”阳性检测的成对比较分析方法,以及与系统的比较。这种方法在志愿者群体较大时可能会变得繁琐,因为每个志愿者都必须与其他志愿者进行比较,使用完整的50×24的检测矩阵,总共1200个数据点。然而,对于小群体来说,这为从所有志愿者中筛选、加权和整合数据提供了足够的价值。
3. 花费更多时间研究和执行任务的人更有可能产生更准确的检测结果。
这一假设是我们包含与研究和执行任务所花费时间相关的补充问题的主要原因。这些数据也被整合到用于加权每个个体志愿者检测结果的公式中。尽管样本量有限,但基于工业革命中看到的流水线式处理过程 [13],我们预测了那些逐列完成任务的人与逐行完成任务的人所需时间的差异。这可能是由于在转向下一个类别之前,重复检测同一类别50次比在50个样本中循环检测所有24个类别更容易。这与任务切换的认知成本有关,已知这种成本会更快地消耗神经元 [14]。
4. 在与其他志愿者的比较一致性矩阵中得分较高的人通常更有可能产生更准确的检测结果。
这个假设也被纳入了志愿者数据加权的过程中,目的是为了将其整合到所有志愿者的集体智慧中。这是通过使用个体志愿者与其他人的平均一致性得分除以所有志愿者的平均一致性得分来应用奖励或惩罚的。确切的公式在分析部分和研究的相关文件中都有展示,供任何感兴趣的各方扩展、应用变体,并进一步分析。
5. 社会集体选择记住的引文,平均而言,更可能包含和/或引发更易察觉的认知偏见。
这个假设指导了我们志愿者和检测系统所检查的引文的选择。特别是关注了许多与记忆强烈相关的偏见,这些偏见可能在这些引文被保存和重复时发挥了影响作用。通过选择这些类型的引文,我们也希望激发更多批判性思考和对潜在偏见的认识,当遇到、记住和重复这些流行引文时。进一步了解社会选择记住这些有影响力的引文是如何随着时间的推移被选择的,以及它们对社会的影响,都可以作为进一步研究的考虑。
6. 引入金钱激励会导致视角的转变,因为价值从目的驱动的视角转变为金钱收益 [15],我们认为这是不可取的偏见来源,并将其排除在本研究之外。
这个假设基于先前的研究,这些研究记录了当任务从目的驱动转向金钱补偿时,心理转变的发生,以及预算限制。我们选择避免在志愿者过程中引入任何金钱补偿。我们的团队中没有任何成员获得金钱补偿,系统的计算成本在最初的自费测试中被覆盖,随后通过创始人项目提供的免费积分来覆盖LLM输出的测试 [16]。该项目与研究无关,也不了解研究,只是默认提供这些积分以鼓励创业活动。以这种方式避免了潜在的认知转变和其他金钱冲突。未来研究的一个潜在问题是,这种视角的转变是否脱离金钱激励在检测认知偏见方面提供了任何具体的好处。
3.2 LLM测试阶段
我们假设以下几点关键点:
1. 开放式问题可能会增加潜在响应的变异性。
这一假设是基于对许多大型语言模型(LLMs)现在训练的互联网规模数据中启发式方法的部分可见性和理解,其中缺乏绝对正确答案的开放式问题可能会提供更丰富多样的人类响应。这种潜在的更大变异性有助于减少达到任何特定响应必然由更直接因素主导的可能性,从而允许次要因素和更高层次的模式发挥更大的潜在影响。
2. 潜在响应的变异性增加也会增加LLMs在此过程中可能展示的认知偏见的种类。
这一假设是,可能表达的某些潜在认知偏见更有可能存在于次要因素和更高层次的模式中,如上所述。尽管一些偏见可能在回答更受限制的问题时频繁且强烈地被观察到,但许多偏见的存在正是为了应对无界或界定不清的问题所带来的认知负荷大幅增加。为了更好地理解LLMs可能模仿的整个认知偏见谱系,我们假设这种减少的界定可能提供一个更完整的偏见表达图景。
3. 温度为1可能在下一个标记预测中提供一定程度的变异性,假设在每一步为每个模型测试时,都能跨越相对小的高概率选项分布。
这一假设指导了参数的选择,尽可能选择温度值为1,这既是为了进一步增加可能表达的认知偏见的潜在谱系,也是因为1的值对于某些系统来说是最大值,而对于表现最好的系统GPT-4来说,根据大多数基准测试,它是中位数。
4. 模型可能能够在与前一阶段用于人类引文的大致相同的响应长度上限内展示可测量的认知偏见水平。
这一假设基于这样的预期:旨在模仿人类响应的系统平均而言也应该能够使用与人类生成的文本相似长度的文本展示可测量的认知偏见水平,如前一阶段的测试引文。
5. 我们假设这些选择都不会与被测试的模型架构直接冲突,因为缺乏对闭源模型进行验证所需的透明度。
这一假设是出于实际必要性,因为要实现跨所有测试的闭源和开源模型所需的透明度水平以坚定验证变量的最佳选择将极其困难。这种最佳选择甚至可能在完全无偏见的意义上都是不可能的。
4.限制
4.1人类基线阶段
由于这项任务在认知上和劳动上的密集性,以及迄今为止完成这项任务的志愿者数量较少,志愿者的样本量仍然低于统计显著性及其相关分析方法所需的典型阈值30。因此,这项工作作为我们的初步发现呈现,并且已经与世界各地的多位教授和大学进行了联系,目的是将这些数字提高到统计阈值以上。
平均每个志愿者需要超过10小时的时间,包括学习时间和任务执行时间,才能完成对50条引文的24个类别的检测,产生1200个数据点。唯一成功完成150条引文的志愿者总共需要40小时。由于志愿者在执行这项既困难又耗时的任务时没有报酬,完成这项任务的人数相应有限。从5名志愿者那里收集这些完成的任务花费了5周时间,这导致了我们决定发布这些初步发现,并希望能加速研究进程。
值得注意的是,成功完成这项任务的志愿者样本在如此小的样本量中异常多样化,覆盖了3个大洲,年龄范围跨越了30多年,且每个人来自不同的职业。虽然这种多样性可能会使统计分析中创建典型分布变得复杂,但它为基于集体智慧的系统增加了可衡量的价值,这些系统专门设计用来通过更好地利用多样性来减少认知偏见。并非所有这些数据都包含在6个补充问题中,因为它们是通过我们志愿者的公开资料观察到的,但可以通过一组后续问题正式化。
在如此广泛的范围内检测认知偏见以及仅使用文本进行检测的任务也缺乏一个牢固建立的基准真相,例如让30多名认知偏见专家各自执行任务并建立一个广泛接受的基准。这些专家分析的内容也可以进一步为此目的进行定制。
缺乏这样的基准真相,我们应用集体智慧方法来近似这样一个基准提供的价值,使用我们志愿者的数据。有许多不同的方法可以将这些数据整合成一种集体智慧的形式,我们并不假设我们为这项研究选择的方法是最优的,它们只是第一次迭代。
4.2 大型语言模型(LLM)测试阶段
这一阶段主要受到每个模型提供的可调参数差异的限制。GPT-4、Claude和Vicuna提供了所有考虑的可调参数,Falcon提供了温度参数,而Bard没有提供任何参数。对每个模型的测试访问要么是通过像Lmsys.org这样的平台免费获得的(对于Vicuna [17])或HuggingFace(对于Falcon [18]),要么是通过游乐场环境或API密钥获得的(对于GPT-4、Claude和Bard)。
5. 结果:人类基线研究
这一阶段的结果结合了几种比较和整合的方法,专注于从群体中培养集体智慧的既定方法[12, 41]。特别是,我们专注于那些不需要集体成员之间直接互动的方法,据我们所知,志愿者彼此从未见过面,也没有在研究期间相互交流。
提供给志愿者的样本的随机顺序通过使用排序键恢复到原始顺序。在将所有完成的样本恢复到相同的样本顺序后,每个样本可以直接进行比较。
第一种方法是为所有可能的志愿者组合建立成对比较,以及将每个志愿者与检测系统进行比较。这比较了每个志愿者在1200个认知偏见检测数据点上的一致性水平,这些数据点是由每个志愿者提交的。如果两位志愿者都选择在同一个引文的特定类别的认知偏见是“是”、“可能”或一个“是”和一个“可能”,则为该特定数据点建立了一定程度的共识。
从每个50个样本和24个类别的矩阵中计算得出每一对志愿者在所有类别上的平均值,并将这些类别的平均值合并成一个单一的平均值,用于成对阳性一致性矩阵。
这种共识度的测量使我们能够量化并比较各个志愿者与他们的同伴达成相同检测结果的频率。它还提供了一些关于整体偏见检测率较高和较低的志愿者之间差异的洞见。
由于志愿者之间的工作方法存在差异,我们根据以下指标对个人时间投入进行了标准化处理:
我们发现,志愿者是逐列工作还是逐行工作,完成时间存在显著差异,平均差异为86%。我们没有观察到基于志愿者选择的工作方法,其平均一致性矩阵得分存在显著差异。
我们还根据个人相对于平均二级偏见检测距离均值的二级偏见检测距离进行了标准化处理。这是对小样本量的一种模拟形式的回归均值[19],但不如均方误差(MSE)[20]那么强烈。
我们还根据个人相对于志愿者中平均一致性矩阵得分的正向一致性矩阵得分进行了标准化处理。
这些标准化方法单独使用可能带来潜在的好处,但它们是特别组合应用的,目的是为了减少由于志愿者样本量小而可能由任何一种方法引起的噪声。使用这4个因素来相互减少潜在的噪声,即使在更大的样本量中也可能有用。
测试了更复杂的方程,包括添加缺失值惩罚,但为了简单性和普遍适用性,选择了上述4个因素。
这些权重用于将所有志愿者的检测结果合并成一个集体检测的过程中。首先,通过VLOOKUP函数和一个为每个响应分配数值的表格,将“是”、“否”和“可能”的响应转换为数字。可以调整一个名为“人类技能”的变量,其中“是”的值等于人类技能值,“可能”的值等于该值的一半,“否”的值等于0,缺失值保持为空。
目前,人类技能值设定为2,这与我们所述的假设一致,但如果一组在认知偏见检测方面具有更高平均专业水平的志愿者完成任务,这个值可能会降低。
在被转换成数字、加权和平均之后,每个数据点随后被转换成布尔值(True/False)的认知偏见检测结果。然后,这组集体检测结果可以与认知偏见检测系统进行比较。
总体而言,我们的志愿者在检测认知偏见方面的能力显著高于中位数志愿者,一些检测模式显现出来,其中集体和系统独立地达到了类似的检测水平。然而,在这次比较中,也突显出系统固有能力远低于我们中位数志愿者表现的几个弱点。
这为我们提供了一个有用的,但初步的近似,即检测系统在所有类别中与我们的人类志愿者在认知偏见的正向和负向检测方面达成一致和不一致的方式。对于任何这样的系统来说,低误报率尤其重要。
系统的检测结果明显低于人类集体的检测结果。这些子类别可能需要进一步的数据来构建足够强大的模型,以涵盖它们所包含的一些或全部偏见。它们也可能仅使用文本更难检测,或者需要更长篇的文本样本。即使去掉表现最差的四分之一的认知偏见类别,人类集体和检测系统之间的一致性也大大提高。
表现最差的二级类别包括:
1. BC1: S1 - 我们倾向于偏爱看起来简单、信息完整的选项,而不是复杂、模棱两可的选项。
2. BC1: S3 - 为了完成任务,我们倾向于完成我们已经投入时间和精力的事情。
3. BC2: S1 - 我们将当前的心态和假设投射到过去和未来。
4. BC2: S6 - 即使在查看稀疏数据时,我们也倾向于寻找故事和模式。
5. BC3: S1 - 我们更容易注意到别人的缺陷,而不是自己的缺陷。
6. BC4: S1 - 我们根据经历的方式不同来存储记忆。
尽管在表现上仍存在一些差异,但在认知偏差检测方面,这18个类别表现出更大的相似性,检测系统和表现最好的类别之间达成了合理的共识,并且在许多点上相互交叉。
尽管结果尚属初步,但将检测系统与全体比较,以及将中位数志愿者与全体比较时,无论是针对全部24个类别还是表现较好的18个类别,相对差异似乎都支持了该假设,即系统在6个较弱的类别中缺乏足够的数据。正如文中所述,这也可能表明这些类别中的某些或全部在文本中更难以检测,或者需要更长的文本样本才能通过自动化系统进行准确检测。随着检测系统的进一步开发,这一假设将得到进一步探讨。
在选择了检测系统目前表现最好的18个类别之后,我们重新使用这一子集进行一致性矩阵比较。
为了进一步验证将我们人类志愿者的输入结合起来创建人类集体智慧的方法,人类集体的检测结果随后通过上述相同的成对比较方法进行了比较。出于说明目的,这些矩阵被整合为下面的几张图表。
通过成对共识矩阵,人类集体整合了更多的志愿者数据,从而与所有志愿者达成了更高的平均一致水平。这为我们提供了一个临时的基准,相对于个体志愿者和系统,可以近似人类集体的价值。
将人类和检测系统的数据结合起来形成混合形式的集体智慧的方法,可能为未来的研究提供了一个有希望的方向。关于如何将志愿者数据结合起来形成人类集体的方程可能需要针对更大的样本量进行调整,如上所述,但鉴于目前可用的数据,它似乎足够好,可以用于初步比较。一种方法可能是使用志愿者的平均权重加上系统相对于平均志愿者在一致性矩阵得分上的相对增益。
将集体与个体和系统进行比较,也可以帮助在将它们整合到这种混合集体中时,为每个因素分配适当的权重。然而,研究等权重方法[21]也值得调查和比较。
在检测系统运行期间,还手动收集了一些时间数据,检测处理时间从大约5秒到大约20秒不等,以遍历所有24个类别。这是在优化之前的,如果这些检测针对并行处理和重组进行了优化,那么对于24个类别可以预期超过12倍的性能提升,而对于188个单独的偏见,当系统配置为以该模式运行时,性能提升将更为显著。
为了在相关估算中保持所有不确定性的保守性,使用了每样本20秒的数据。进一步的研究将包括配置检测系统,以便为每个处理的样本输出精确的处理时间戳,这可能会提供进一步的有趣见解。
尽管表现最好的人类可能仍然比这个早期版本的系统高出16%,而人类集体可能比它高出34%,但每个都伴随着极高的时间和成本差异。即使与系统以3%的优势击败的普通人类相比,时间和成本差异分别超过40倍和190倍。对于表现最好的人类和集体,这些数值分别大致翻倍和增加五倍。对检测系统应用几种形式的优化可能会在节省时间方面取得非常显著的收益,并且可能也会节省成本。
这从部署的角度来看很重要,它还突显了今天已经存在的两步流程新版本的潜力,例如社交媒体审核系统,其中第一步是自动检测,第二步是交给人类审核员。随着优化后的系统能够在以前对自动化系统来说难以接近的任务上比人类快一千到一万倍,许多新选项可能会变得可行。
增加志愿者样本量的外展工作仍在进行中,已联系了许多大学的教授,但使用了多种分析方法和标准化来补偿这一小样本量。其中一些方法,如成对比较,如果继续超过标准样本量30+,可能会变得极其繁琐,因为它们的扩展性很差。这种成对方法对于规模在5到12人的团队的集体智慧方法更为理想。然而,任何感兴趣的研究人员都可以应用他们想要的分析方法和通过更多志愿者扩展数据的方法。
尽管人类生成的引述和开放式问题的答案在内容上相当不同,但在交流中使用的认知偏差表现出相当程度的相似性。表现最好的个体和集体在人类生成的数据上的检测率似乎更符合检测系统在人工智能生成数据上的检测率。这可能是大型语言模型(LLMs)运作方式的一个副产品,导致它们的输出比人类生成内容中观察到的相对较高的变化性更容易被检测系统建模。
除了不同LLMs之间认知偏差检测的差异外,还观察到了之前提到的“硬”和“软”污染两种类型的几个显著差异。在一个模型中还观察到了完全检测失败率的微小差异。
这些结果仍然是初步的,任何有兴趣的人士,只要能够访问这些大型语言模型(LLMs)的API,都可以在此基础上进行进一步的研究。所有上述分析的数据都将公开,以鼓励认知偏差检测研究的进步,并且可以根据请求提供对我们系统的访问权限。
7. 研究数据
所有由志愿者提交的完成内容都被单独保存,并添加到一个更大的Excel文件中,以便更容易地比较、合并和进一步分析数据。所有发送的文件的副本也被保留。一个包含志愿者姓名和联系信息的保密文件被保存,这可能被用于原始研究团队的后续问题,或者在每个志愿者允许他们的信息被分享给其他研究人员之后,他们可能会被其他方直接联系。由于大多数补充数据是任务导向的,而不是人口统计学的,除了最近的职位,志愿者的匿名化风险主要来自志愿者自己,而不是补充问题。
所有文件,包括两个阶段的数据和对这些数据的分析,都可以获取,以帮助加速这一领域的进一步研究。检测系统的访问也可以根据研究人员、媒体和其他感兴趣的各方的请求提供。随着我们可用资源的增加和/或该工具潜在的开源,可能会提供更大规模的访问权限。
这些文件的托管位置将通过以下地址保持更新:
https://bias.transhumanity.net/2023-cognitive-bias-detection-system-study-files/
8. 未来工作
目前,已经收集的数据有数十种以上的分析方法,并且至少有一个数量级的潜在研究方向。认知偏差如此深入地融入我们的思维过程中,以至于没有它们人类就无法正常运作。安东尼奥·达马西奥(Antonio Damasio)关于人类情感的相关研究[22]强调了情感在人类决策中的作用,许多认知偏差与情感状态密切相关[23]。还有复杂性与认知偏差之间的权衡[24],任何超过人类认知带宽的复杂性都需要我们应用更高级别的认知偏差来补偿,随着复杂性的进一步增加。
可能需要未来十年数百或数千名研究人员的共同努力,才能充分利用利用技术自动检测认知偏差所提供的潜在研究的低垂果实。应该鼓励这种活动,使用所有可用的手段,因为对人类决策过程的可衡量改进可以极大地改善人类文明。
就我们而言,未来工作的若干方向是这项研究加速进展的优先事项。首要任务是增加学术界的参与,让更多志愿者完成认知偏差检测任务,以提高人类基准数据,超过应用传统统计分析方法所需的阈值。
更多具有相关专业知识的教授的参与也可能导致建立专家人类基准,其中30多名该领域的专家建立一个基准,作为未来测试的更强大的比较。然而,也很清楚,当系统为基准训练时,基准就不再有意义,因此需要避免直接在基准上训练。这样的基准也可以与非专家基准进行对比,以获得进一步的见解。
进一步的研究还将利用检测系统的全部能力,单独检测188种认知偏差,而不是在类别级别。从软件开发的角度来看,这一能力已经过测试,但由于人类在24个类别级别上建立检测基准的极端困难,这种精确度在当前研究中是不可行的。运行校准以检测2016年代码集中的188种个体认知偏差的检测系统也需要相应更多的资源,但这可以随着时间的推移进行优化。我们还将对其进行校准,以在后续阶段为每种认知偏差和类别输出确定性分数,它生成但目前简化为布尔值,以增加更大的精确度,并从演示系统转变为数据管道。出于优化目的,还将添加处理时间戳。
除了这些首要任务外,我们团队为系统提出的进一步计划包括:
将认知偏差检测应用于单一来源的文本序列样本。使用这种方法,偏差检测的时间序列格式可能揭示认知偏差随时间调用的顺序模式,以及这些模式如何因个人、背景和意图而变化。
已经收集了像伯尼·麦道夫、伊丽莎白·霍尔姆斯和山姆·班克曼-弗里德这样的以前曝光的欺诈者的访谈数据,可以与在不同程度上相似的个人列表进行比较。这可能有助于隔离社会工程和“说服”模式的认知偏差,如过去和未来的罪犯所展示的。
这些领先的LLMs可能可以被训练以减少它们调用认知偏差的级别和频率。这将需要与封闭源模型密切合作,或者比我们目前可用的开源模型更多的资源。
针对特定模式的认知偏差表达,如时间序列中的特定序列,可能是减少模型的社会工程和“说服”风险的有前途的方法。
使用认知偏差检测系统分析不同文化的内容,以进一步了解文化对认知偏差的调用和表达的影响。最近的研究表明,不同语言的母语者在听他们的母语时显示出非常不同的大脑活动模式[25],因此可以预期会有明显不同的认知偏差表达模式。
与前一点类似,也可以分析不同领域的内容,因为不同类型的专家往往有非常不同的思维方式。这些差异通常在抽象意义上被理解,但可能通过认知偏差检测以及时间序列格式的认知偏差检测来量化。
分析由新闻推送算法、搜索引擎和更广泛的推荐系统推广和筛选的数据是另一个有前途的研究机会。这些通常不可见且极具影响力的系统嵌入在世界上许多最受欢迎的网站和应用程序的多个部分中,为现代世界提供了至关重要的功能。然而,我们目前对它们今天的实际运作知之甚少。
将检测系统的数据与人类的检测数据结合起来是未来研究的另一个潜在有前途的途径,因为集体智慧从多样化的视角中受益。如前所述,检测系统本身代表了一种不同的视角,结合此类系统的混合集体智慧可能证明具有实质性的好处。这可能采取今天已经存在的两步流程的形式,例如社交媒体平台上的任务,如审核。
进一步的工程工作,包括可能使用蒸馏方法为堆栈的新层减少计算开销,如逐步蒸馏[26]以及更一般的系统优化以便于部署的可扩展性正在考虑之中。像在本研究第二阶段测试的LLMs这样的系统如果被整合,也可能能够提高整体系统性能。然而,这些将不得不等到研究得到适当资金后。
这样的可扩展系统可以应用于各种社交媒体平台,这些平台有兴趣减少认知偏差所助长的政治极化严重性,以及可能有助于减缓或控制错误信息在这些网络中的传播。这个特定的用例是我们努力尝试隔离那些旨在社会工程和“说服”策略的人所涉及的认知偏差模式的一个关键激励因素。
9. 讨论
在本研究中,无论是在完成任务的志愿者中,还是在尚未完成任务的志愿者中,我们都在简短且高度结构化的检查交流中收到了三条富有启发性的评论,这些交流是为了请求进度更新。志愿者们一致提到,认知偏差检测任务比他们预期的要困难得多,耗时也更长,而且认知偏差的数量也远远超出了他们之前的认知。这反映了任务的认知难度、人类的认知耐力、一般能力以及公众的普遍认知水平。
乔纳森·海特将人类的认知偏差和高级认知比作“大象与骑象人”[28],其中高级认知位于认知偏差之上。这本身是对拟人化[29]的巧妙运用,以及几种以故事为导向的认知偏差,例如离奇效应[30]。一项著名的研究及其后续著作被称为“看不见的大猩猩”[31],这是另一个类似的涉及认知偏差子集的案例。人类的大脑每时每刻都会接收到比我们有意识处理能力更多的感官信息[32],除非是在感官剥夺室中。当人类被置于感官数据急剧减少的环境中,例如明尼苏达州奥菲尔德实验室的无回声室[33]时,人类的大脑就会努力应对这种感官体验的剧烈变化。
认知偏差部分旨在为我们提供一种比周围世界实际存在的更稳定、更连贯的感觉。我们倾向于使用诸如峰终规则[34]和持续时间忽视[35]等方法来“优化”我们所记住的内容。我们将不相关事件联系在一起,并将其作为叙事元素,用来支撑我们所想象自己生活的虚构世界,例如朴素现实主义[36]和确认偏差[37]。这些认知偏差又会被其他偏差所强化,例如虚假相关[38]、样本大小不敏感[39]以及启发式可用性[40]。
尽管人们可能梦想着摆脱认知偏差,完全无偏见地评估这个世界,但这对于像我们今天这样存在的人类来说既不可能,也不可取。如果假设人类能够完全无偏见,那么他们的观点也将几乎完全相同。虽然这样的场景可以为有趣的思维实验提供素材,但它也直接与人类的进化方式、我们的学习方式以及我们所拥有的最强大的运作方法背道而驰。
集体智能可以通过多种方法来构建,例如在《噪声》[41]一书中所描述的那些方法,而它之所以与集体超级智能同义,原因之一就是这种人类配置能够减少认知偏差的影响,可靠地提高有效智能。然而,这并不意味着仅仅通过减少认知偏差就能达到理想的智能水平。
集体智能在很大程度上受益于其中所代表的视角多样性,以及用于生成它的方法,而更多的思想多样性则为集体智能的有效运作创造了更大的空间。根据我们对这种动态的理解,在有限的范围内,一个偏见较少的人群可能与一个更具多样性的群体表现相当,但许多更优的解决方案需要由更大的多样性所提供的更广泛的范围。
检测、区分和测量认知偏差的重要性在于它为我们提供了极大的精确性,以进一步研究认知并改进我们的实践。它可能被证明在检测和解决特定有害的认知偏差和偏差表达模式方面极为有用,这些模式在其他情况下可能会造成巨大危害,例如防止社会工程威胁[42]和改善治理[43, 44]。
人类的认知带宽是有限的,而我们所面临问题的复杂性往往远远超出了这些有限的极限,但我们可以通过改进系统和方法来检测和解决被用于对社会有害的方式的认知偏差。这些系统还可以与旨在克服复杂性与认知偏差权衡[45]的认知架构集成,并极大地协助这些系统,使它们对人类整体的文化对齐和元对齐有更深入的理解。
我们的团队目前正在准备这样的系统,而本研究中展示的认知偏差检测系统是其中的一个小但重要的组成部分。我们之前的工作和系统专注于探索集体智能与第一个工作的认知架构——独立核心观察者模型(ICOM)[46]的结合,该模型在过去10年中开发,并在2019年至2022年的Uplift.bio项目中得到展示[47]。克服复杂性与认知偏差权衡需要能够检测、区分和测量认知偏差,这使它成为我们工作的优先事项。
2019年,凯尔廷·阿特雷德斯提出了一个理论,即认知偏差可以通过结构分析来检测,并收集了一个小数据集,由一小群志愿者进行标记。这些数据来自我们团队当时能想到的最具偏见的地方——4Chan论坛。当时典型的数据科学方法破坏了自然语言的许多结构数据,将单词转换成其他形式,并将一切分解为标记和简化的结构。
尽管一些早期的努力很有意思,但直到最近一系列为基于ICOM的系统设计的图算法被整合到架构中,我们才达到了像现在这样的可接受性能水平。其他改进版本的工具也被整合到我们计划在今年晚些时候及以后部署的新系统中。然而,在本研究的第二阶段测试的语言模型尚未包含在这些工具中,而且只有在引入新的图算法后,性能才有了显著提高。
当人类获得了检测微观生物(如细菌和病毒)的能力时,我们对周围世界中以前看不见的部分的理解发生了转变。如果没有这种检测、区分和测量的能力,现代医学、卫生以及我们今天所拥有的大大提高的平均寿命都无法达到现在的水平。
认知偏差的世界在很大程度上一直对我们是隐形的,然而它就像我们周围无处不在的细菌、病毒和其他形式的隐形生命一样无处不在且极具影响力。人类今天所做的每一个决策,无论大小,无论是否拥有大量数据,都主要受到认知偏差的支配。术语“决策卫生”[48]被用来描述我们需要做出更健康、更明智决策的过程。有了能够检测所有已知形式认知偏差的系统,或许这门新卫生科学将向前迈进一大步,揭示我们周围世界的另一个以前看不见的层面。
10. 结论
首个旨在检测2016年认知偏差编码手册中记录的188种认知偏差形式的软件系统,已经在初步性能演示中通过了测试,与人类在相同任务上的表现相比,该系统表现良好。在第一阶段,我们量化了志愿者在认知偏差检测任务上的表现,并将其整合为一组单一的集体智能认知偏差检测。由于缺乏相关既定基准,这被用作近似的“真实检测”标准。与该集体智能相比,检测系统在如此早期的阶段表现令人钦佩,大多数情况下高于平均人类表现,但仍低于表现最佳的人类。在24种认知偏差的类别和子类别中,该检测系统在其中18个子集的表现尤为出色。
在第二阶段,检测系统展示了相同的检测能力,应用于分析当时表现最佳的5种封闭源代码和开源大型语言模型(LLM)生成的文本。在大约一半的类别中,检测到的偏差水平明显高于第一阶段人类生成文本中观察到的水平。这可能是因为偏差的多样性较低,从而更容易被检测系统建模,或者是因为偏差更强烈,或者两者兼而有之。
在这一过程中,还考虑了影响生成文本偏差水平的模型污染程度,通过观察到的两种类型的预设回应进行了分析。
需要进一步研究来验证并复制这些发现,但如果这些步骤能够成功,我们现在可能已经能够自动检测、区分和测量认知偏差,并且随着这些能力的大规模部署,科学发现也将随之而来。
11. 附录
11.1 大型语言模型(LLM)阶段答案收集参数:
温度:1,可调整
Top P:1,可调整,除非另有建议(Claude保持在0.9的默认值)
最大响应长度:64个标记
所有其他参数均保留为每个模型的默认值。
自然语言中的认知偏差:自动检测、区分和测量文本中的偏差
Kyrtin Atreides, David J Kelley
AGI实验室
摘要:
我们检验了首个自动化系统在检测2016年认知偏差编码手册中包含的188种认知偏差方面的初步结果,该系统应用于人类和AI生成的文本,并与人类基线性能进行了比较。人类基线是由一小群多样化的志愿者独立提交他们检测到的每个样本中的认知偏差构建的,这些志愿者在第一阶段使用的任务中进行了检测。由于缺乏任何先前建立的相关基准,这个基线被用作这项任务的近似真实值。结果显示,系统的性能高于平均水平的人类,但低于表现最佳的人类和集体,在编码手册中的24个类别中的18个类别中表现更为出色。该系统的这个版本也被应用于分析对每个表现最佳的5个封闭源代码和开源大型语言模型提出的150个开放式问题的响应,这些模型是在测试时表现最佳的。第二阶段的结果显示,在大约一半的类别中,认知偏差检测的比率明显高于分析人类生成文本时观察到的比率。还考虑了两种类型的模型污染对生成文本偏差的影响,其中模型给出了预设的回应。每个模型中检测到的认知偏差水平不仅相互比较,还与第一阶段的数据进行了比较。
关键词:人工智能、伦理、认知偏差、检测、决策、错误信息、注意力经济、自然语言处理、基准测试、集体智能
原文链接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4927380
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.