https://pubsonline.informs.org/doi/full/10.1287/stsc.2024.0189
Theory Is All You Need: AI, Human Cognition, and Causal Reasoning
摘要:
学者们认为,人工智能(AI)能够创造出真正的创新成果和新知识,并且反过来,人工智能和认知的计算模型将取代人类在不确定性条件下的决策。我们对此持不同观点。我们认为,人工智能基于数据的预测与人类基于理论的因果逻辑和推理不同。我们以大型语言模型为例,指出将计算机和人脑视为输入-输出设备的类比存在已久,但问题重重。人类认知更适于被视为一种基于理论的因果推理形式,而非人工智能所强调的信息处理和基于数据的预测。人工智能采用基于概率的方法获取知识,主要具有向后看和模仿性,而人类认知则具有前瞻性,能够创造出真正的创新成果。我们引入数据-信念不对称性的概念,以重于空气的飞行为例来阐述我们的观点,说明人工智能和人类认知之间的差异。基于理论的因果推理为人类提供了一种认知机制,使其能够干预世界,并通过定向实验生成新数据。在文章中,我们讨论了我们的观点对于理解创新成果、新知识和不确定性决策的含义。
关键词:认知 • 人工智能 • 预测 • 因果推理 • 决策制定 • 战略 • 基于理论的视角
引言
人工智能(AI)如今在许多涉及高级思维和战略推理的游戏中、标准化测试中以及认知任务中,已经能够与人类相匹敌甚至超越人类。例如,AI引擎能够在国际象棋中轻松击败人类,而国际象棋数十年来一直是衡量AI能力的关键基准(Simon 1985a, Bory 2019)。AI系统还在涉及复杂谈判、与他人复杂互动、联盟、欺骗以及理解其他玩家意图的复杂棋盘游戏中表现出色(例如,Ananthaswamy 2022)。当前的AI模型还在各种职业资格考试中的表现超过了90%以上的人类,例如法律领域的律师资格考试和会计领域的注册会计师考试(Achiam et al. 2023)。AI在医学诊断方面也取得了突破性进展,在某些疾病的诊断上超越了经过高度训练的医学专业人士(例如,Zhou et al. 2023)。这些快速进步促使一些AI学者认为,即使是人类最具特色的特质,如意识,也将很快被机器复制(例如,Goyal and Bengio 2022, Butlin et al. 2023)。总的来说,AI正在迅速开发出能够“像人类一样思考”“理性思考”“像人类一样行动”和“理性行动”的算法(Csaszar and Steinberger 2022,第2—3页)。
鉴于AI令人惊叹的进展,丹尼尔·卡尼曼(Daniel Kahneman 2018,第609—610页,强调部分为原文所有)提出了(并回答了)下一个合乎逻辑的问题:“是否还会有一些事情是专属于人类的?坦率地说,我没有看到任何理由去限制AI能够做什么……因此,很难想象在拥有足够数据的情况下,还会有一些事情是只有人类才能做到的……只要可能,就应该用算法取代人类。”
卡尼曼并非唯一持这种观点的人。达文波特和柯比(Davenport and Kirby 2016,第29页)认为,“我们已经知道,分析和算法在从数据中提炼洞察方面比大多数人更好”,而且“这种人类/机器表现差距只会进一步扩大”。许多学者声称,AI很可能在大多数——如果不是全部——推理和决策形式中超越人类(例如,Legg and Hutter 2007, Morris et al. 2023, Grace et al. 2024)。有人认为,战略决策也可能被AI接管(Csaszar et al. 2024),甚至科学本身也将被“AI科学家”自动化(例如,Lu et al. 2024, Manning et al. 2024)。AI的先驱之一杰弗里·辛顿(Geoffrey Hinton)认为,大型语言模型(LLMs)已经具有感知能力和智能,“数字智能”不可避免地将超越人类的“生物智能”——如果它还没有做到的话(参见Hinton 2023;还可参见Bengio et al. 2023)。
与机器相比,人类的认知和计算局限性显而易见。人类是有偏见的(Kahneman 2011, Chater et al. 2018)。人类在关注和采样数据时是有选择性的,并且容易受到确认偏误、动机性推理以及数百种其他认知偏误的影响(截至最近统计,已接近200种)。简而言之,人类是有限理性的——其计算和处理信息的能力受到显著限制(Simon 1955),尤其是与计算机相比(参见Simon 1990)。而那些使人类表现出有限理性和决策能力差的特质,似乎正是使计算机在认知任务上表现出色的原因。计算机和AI的优势在于它们能够处理海量数据,并以快速且强大的方式对其进行处理。
在本文中,我们提出了与人类认知相关的AI的对立观点,包括其对战略、新奇性的产生以及不确定性下的决策的影响。AI基于一种观念,即无论是机器还是人类的认知,都是一种广义的信息处理形式:一种输入-输出设备。为了说明人类与计算机之间的认知差异,我们以大型语言模型与人类语言学习的对比为例。我们引入了数据-信念(不)对称性的概念,并分别探讨其在解释AI和人类认知中的作用,以重于空气的飞行为例进行详细说明。人类认知是前瞻性的,需要数据-信念不对称性,这些不对称性体现在理论、因果推理和实验中。我们认为,人类认知是由前瞻性、基于理论的因果逻辑驱动的,这与AI和认知计算模型所强调的预测和回溯性数据截然不同。基于理论的因果推理能够产生新的、与众不同的数据、观察和实验。我们强调这些观点对于理解新奇性、新知识的起源以及不确定性下的决策的影响。
AI 与心智:认知是计算吗?
从20世纪40年代到今天,模拟人类心智——包括思考、理性和认知——一直是人工智能(AI)的核心追求。正如1956年达特茅斯会议上所提出的,AI的目标是“基于这样的猜想:学习或智能的任何方面原则上都可以被精确描述,从而让机器能够模拟它”。这种将心智视为计算的观点不仅历史悠久,而且在过去几十年中不断加深。例如,认知科学家Johnson-Laird甚至认为“任何关于心智的科学理论都必须将其视为自动机”。
AI将认知视为一种广义的信息处理形式,其中“人类思考完全是一种信息处理活动”。这种观点认为,心智和机器都是广义的输入-输出设备,输入如刺激和线索(数据)被处理以产生各种输出,包括决策、能力、行为和行动。这种信息处理模型被广泛应用于AI与认知的交叉领域,包括感知、学习、记忆、专长、搜索和决策制定。此外,将人类心智活动视为计算的观点也广泛存在于进化论的论证中。
然而,我们对这种将AI与人类认知视为计算的观点持不同看法。尽管AI和人类认知之间存在一些相似性,但AI基于预测(依赖过去数据)的模型无法捕捉人类认知的本质,也无法解释新奇性、新知识的产生或不确定性下的决策。
在这些研究中,我们更全面地指出,从20世纪50年代至今,学者们一直试图在人工智能(AI)、机器和人类认知之间建立一种等价关系。在所有这些工作中,认知、计算(以及人工智能)被视为紧密相连的:这些工作的基本前提是,机器和人类是一种输入-输出设备,其中信息处理和学习的相同底层机制在起作用。对计算和信息处理的关注也是有限理性概念的公理基础(参见Felin等人2017年的综述)。有限理性关注人类的“计算能力”及其局限性(Simon 1955, 第99页),这一观点深刻地塑造了经济学、决策理论、战略和认知科学等领域(例如,Chater等人2018年,Kahneman 2003年,Puranam等人2015年,Gigerenzer和Goldstein 2024年)。
我们不同意AI和人类认知在计算形式上具有显著相似性的观点,原因将在下文中讨论。话虽如此,我们提出这一观点的目的并不是削弱AI领域令人兴奋的突破。相反,我们强调,当涉及到理解心智和认知时,AI与人类之间的类比很快就会失效,这对我们如何看待新奇性的产生、新知识以及不确定性下的决策有着重要的衍生性后果。在接下来的部分中,我们将深入探讨一个具体例子,即机器与人类的语言学习,以更细致地阐述这一点。
机器与人类学习:不同的输入,不同的输出
尽管心智和机器的输入-输出模型——无论我们讨论的是符号化方法还是亚符号化方法(更多细节见附录)——一直是人工智能和认知科学的核心重点,接下来我们将强调机器学习和人类学习之间的一些重要差异。以语言为背景来突出这些差异是一个恰当的语境。语言可以说是“人类认知的最典型特征(语言及其与思维的关系)”,因此它“可以成为真正的‘洞察心智的窗口’”(Chomsky和Gallega 2020,第321页;还可参见Pinker 1994)。语言为理解人类和人工智能提供了一个重要的测试和背景。此外,已经有人认为大型语言模型具有感知能力,甚至有人认为它们已经接近或超越了人类的认知能力(例如,Binz和Schulz 2023, Hinton 2023)——这是一个我们所质疑的假设。
在最基本的层面上,要研究任何系统及其行为,我们需要理解它的输入和输出。图灵(Turing 1948/1992)认为,无论是人类还是机器的任何智能形式,都可以被研究为一个输入-输出系统。在讨论人工智能的可能性——或者用他的话说,“智能机器”——时,图灵(1950,第456页,强调部分为原文所有)将婴儿大脑比作“未经训练的婴儿大脑”,称婴儿大脑几乎是一张白纸,“就像一个笔记本”,有“很少的机制和许多空白页”(参见Turing 1948/1992)。根据图灵的说法,这些空白页需要通过训练和教育的过程用输入来填充。在婴儿或儿童生命的早期,他们通过语言和听到的单词获得输入,这些输入最终构成了人类的语言能力和输出。同样地,图灵(1948/1992,第107页)认为,可以想象一个“应用于机器的类似教学过程”,机器通过输入进行学习。图灵列举了智能机器可能展示其学习成果的各种场景,包括国际象棋或扑克等游戏、密码学或数学,并且他认为,“学习语言将是最令人印象深刻的,因为这是这些活动中最具人类特征的活动”(Turing 1948/1992,第117页)。由于人类学习和机器学习通常被视为类似的过程,接下来我们将以语言学习为例,聚焦于其中的关键差异,并进一步探讨这些学习差异对于科学和经济背景下的决策和知识生成的影响。
机器如何学习语言。为了说明机器学习的过程,接下来我们仔细探讨现代大型语言模型(LLMs)及其学习方式。LLMs是机器学习的一个有用实例。学习本质上是从零开始——自下而上,直接从数据中生成——通过引入海量训练数据以及对这些数据中的统计关联和相互作用进行算法处理。在LLMs的背景下,训练数据由从各种公共来源和互联网收集的海量词汇和文本组成。为了体会这些模型整合了多少数据和训练,截至2024年初的最新LLMs估计包含约13万亿个标记(一个标记大致相当于一个词)。为了形象说明,如果一个人试图以每小时9000词(每分钟150词)的速度阅读这些文本,那么阅读一个包含13万亿词的训练数据集将需要超过16.4万年。
用于训练LLM的庞大文本语料库被标记化以便进行自然语言处理。这通常涉及将单词(或子词单元或字符)转换为数值序列或向量。例如,句子“猫坐在垫子上”可能会被标记化为一个序列,如[10, 123, 56, 21, 90, 78]。每个标记通过一个嵌入层,该层将标记转换为密集向量表示,捕捉其语义信息,例如其频率和位置嵌入。嵌入层有自己的参数集(权重),这些参数在训练过程中被学习。我们之前提到的Transformer架构(Vaswani et al. 2017)引入的注意力机制允许模型在所有其他周围标记的上下文中考虑每个标记,从而获得更广泛的上下文理解。深度人工神经网络被证明极为通用,不仅适用于文本,还适用于图像识别和计算机视觉等多样化领域,包括结合不同类型数据的多模态应用(例如,通过文本提示生成图像)。
从作为训练输入的海量数据中,LLM学习语言的各种统计和分布元素之间的关联和相关性:特定单词之间的相对关系、它们的关系、顺序、频率等。这些统计关联基于训练数据集中发现的单词使用模式、上下文、句法和语义。模型发展出对单词和短语在不同上下文中倾向于共现的理解。模型不仅学习关联,还理解不同语言元素之间的相关性。换句话说,它识别出某些单词更有可能出现在特定上下文中。
现在,尽管上述内容并非对LLMs的技术性介绍,但它提供了与我们的论点相关的这一过程的大致轮廓(详细综述见Naveed et al. 2023, Chang et al. 2024, Minaee et al. 2024;还可参见Resnik 2024)。这种训练的结果是一个能够使用语言的人工智能模型:更具体地说,该模型能够通过基于提示的下一个单词的随机预测方法生成流畅且连贯的文本。简而言之,LLM的输出基于其在训练数据中遇到的输入结构的条件概率。
基于对LLM训练方式的大致描述,我们将此与人类学习语言的方式进行比较。正如本文开头所讨论的,AI模型的基本前提是机器和人类学习之间存在对称性。我们认为,仔细指出这些差异非常重要,因为这些差异为我们后续关于认知和新奇性产生的论证奠定了基础。
人类与机器学习语言的对比。在语言学习(以及其他领域)方面,人类和机器学习之间的差异是显著的。尽管LLMs(大型语言模型)接触并用万亿级的文本词汇进行训练,人类的语言学习过程却要缓慢得多。以说明,人类婴儿或儿童从父母、教师、兄弟姐妹、朋友以及周围环境中听到的平均词汇量每天大约为2万个(例如,Hart和Risley 2003, Gilkerson等人 2017)。因此,在最初的五年里,一个孩子可能会接触到——或者说用这些词汇进行训练——大约3650万词汇。相比之下,LLMs在短短数周或数月的时间内就用万亿级的标记进行训练。
输入在数量(绝对数量)和质量方面都存在根本差异。具体来说,婴儿或幼儿主要接触的口语与LLMs训练所用的书面语不同。口语在性质、结构和目的上与书面语存在显著差异。在这里,关于口语与书面语差异的研究极具启发性(例如,Biber 1991)。口语是自发的(没有经过有意义的编辑),非正式的,重复的,且往往是短暂的。而书面语——另一方面——是视觉的、持久的,经过更精心的构思、计划和编辑。它也更密集,包含更复杂的词汇(例如,Halliday 1989, Tannen 2007)。重要的是,口语与书面语的功能目的和用途也存在显著差异。口语是即时的、互动的,专注于协调、表达和实际做事。尽管书面语也服务于这些目的,但重点更多在于复杂信息的传递。LLMs的大部分训练数据并非对话式的(对于用口语或原始音频训练的模型,见Lakhotia等人 2021)。相反,书面语经过更周密的思考。LLMs可能会用莎士比亚和柏拉图的作品、学术出版物、公共领域书籍(例如,来自古腾堡计划的书籍)、歌词、博客文章、新闻报道以及互联网上的各种材料进行训练。这些数据更干净、语法更正确,且更有条理。可以说,LLMs接收到的输入——以书面、编辑和出版的文本形式——在语言学上远胜一筹。从统计学角度看,LLMs的训练数据包含更少的噪声,因此具有更强的预测能力。即使是大多数LLMs训练数据集中包含的大量维基百科文章,也是经过数千次编辑以确保可读性、准确性和连贯性的最终结果。
显然,人类在不同的条件下、通过不同类型的输入学习语言。简而言之,可以合理地认为,人类的语言能力发展方式与机器学习语言的方式在数量和质量上都截然不同。人类(不知何故)从极其稀疏、贫乏且高度不系统的输入和数据中学习语言(Chomsky 1975)。与LLMs相比,人类的语言能力在输入方面被“严重地”未充分决定。也就是说,相对稀疏的语言输入几乎无法解释人类生成的极具创新性的输出。
除了输入在数量和质量上的差异外,LLMs的预测(句子中的下一个词)与实际结果(真正的下一个词)之间存在显著差异。预测处理作为一种认知理论,认为大脑不断预测感官输入,并最小化预测与实际感官输入之间的误差。每种预测能力——无论是预测一个词还是一个感知——都是基于过去的输入。大型语言模型试图根据训练数据预测最有可能出现的下一个词,而主动推理试图预测最有可能出现的下一个感知或行动。这两种方法都极为保守(依赖于过去的数据),因为它们试图减少意外——或者说将预测视为误差最小化(Hohwy 2013)。
反向传播——训练神经网络的基本机制——以及预测处理中误差最小化的概念(Friston和Kiebel 2009)在概念上存在广泛的相似性,因为两者都涉及迭代调整以最小化某种形式的误差或差异。两者都基于过去的输入生成预测。反向传播和预测处理中的误差最小化都涉及调整内部模型(在人工智能中是神经网络权重,在神经科学中是分层大脑模型)以减少误差(或者用机器学习的术语来说,最小化损失函数)。
在这种以误差最小化和意外减少为重点的架构下,LLMs或任何以预测为导向的认知AI能否真正生成某种形式的新知识?除了记忆、翻译、重述或镜像其训练文本之外,LLMs能否生成新知识?
我们不认为LLMs或基于输入-输出的认知系统能够做到这一点——至少不会超出由于其随机性而可能出现的偶然情况。这些系统中没有内置任何前瞻性机制或独特的因果逻辑。明确这一点非常重要,因为有些人认为并预测LLMs将在战略和科学等不确定情境中取代人类决策者。例如,Csaszar等人(2024)认为,“用于训练LLMs的语料库包含了对战略决策管理(SDM)有价值的信息,如消费者偏好、竞争对手信息和战略知识”,并指出人工智能如何可以使用各种决策工具生成商业计划和战略(Csaszar等人 2024,第2页)。Manning等人(2024)甚至认为LLMs将自动化社会科学,因为它们似乎能够生成假设和因果模型,包括测试它们(还可参见Lu等人 2024)。
这些说法被严重夸大了。一种思考方式是,像LLM这样以预测为导向的人工智能本质上可以被视为拥有维基百科级别的知识。在许多主题上(如果包含在训练数据中),LLM能够以各种不同且新颖的方式总结、呈现并镜像它所遇到的词汇。在任何一个特定主题上——同样,如果在训练数据中得到充分呈现——LLM可以通过利用它所学到的条件概率,生成无数篇连贯、流畅且写得很好的维基百科文章。然而,正如一个领域专家不太可能从其专业领域内的维基百科文章中学到关于其专长的新知识一样,LLM也不太可能通过某种方式从它过去遇到的词汇关联的组合可能性中提升知识。它没有用于这样做的前瞻性机制。
还有充分的证据表明,当LLM遇到(被提示)一个推理任务时,它仅仅复制了它在训练数据中遇到的关于推理的语言答案,而不是进行任何形式的实际即时推理。如果对推理任务的措辞——例如沃森选择任务或蒙提霍尔问题——只进行轻微的改变,LLM的表现就会显著低于人类表现,而LLM的错误对人类来说是显而易见的(例如,Hong等人2024)。LLM并没有真正参与任何形式的实时推理(正如Lu等人2024、Manning等人2024所假设的)。相反,它们只是重复它们在训练数据中遇到的与推理相关的词汇结构。这种效应也可以通过实验证明,即对LLM进行其过去输出的训练会导致其表现迅速下降,甚至崩溃(Shumailov等人2024)。重要的是,LLM记忆并复述与推理相关的词汇,但并不进行任何形式的即时推理。这就是为什么Francois Chollet(2019)创建了“抽象与推理语料库”,作为一种挑战或测试,看看人工智能系统是否能够真正解决新问题(即它在训练数据中没有遇到的问题),而不仅仅是依赖于过去遇到的、记忆中的答案和解决方案(这反映了当前人工智能系统,包括LLM的现状)。
话虽如此,我们的目标并不是贬低LLM或其他形式人工智能或机器学习应用的惊人成就。LLM在各种测试和考试中超越大多数人类的表现是令人惊叹的(Achiam等人2023)。但这仅仅是因为它接触过这些信息,记住了它们,并能够以流畅的方式复述它们。LLM本质上拥有超人类的记忆能力,并能够以多样化的方式总结记忆中的词汇结构。总的来说,将LLM称为“随机鹦鹉”或“高级自动完成功能”(Bender等人2021)确实低估了它们的能力。然而,同样地,认为LLM能够真正推理并产生新知识则极大地高估了它们的能力。LLM本质上是强大的、富有创造力的模仿引擎,能够随机且概率性地组合词汇,尽管与儿童相比,它们在语言上并不具有创新性(参见Yiu等人2023)。认为LLM能够以某种方式产生世界上全新的知识——或者具有类似人类意识的特征——似乎是一种相当牵强的说法(尽管参见Butlin等人2023,Hinton 2023)。总之,这些模型的生成性是一种小写的“g”生成性,表现为独特句子,创造性地总结和重新包装现有知识。
为了说明LLM产生某种新颖事物——例如新知识——的问题,想象以下思想实验。想象一个处于1633年的LLM,其训练数据包含了人类到那时为止出版的所有科学和其他文本。如果被问及伽利略的日心说观点,LLM会如何回应?由于LLM会从其庞大的训练数据中基于关联和相关性的词汇结构中进行概率性采样——再次强调,迄今为止所写的一切(包括所有关于宇宙结构的科学著作)——它只会重述、呈现并镜像累积的科学共识。LLM的训练数据集将压倒性地包含支持地心说的文本,形式为亚里士多德、托勒密以及许多其他人的著作。托勒密精心的三角学和几何计算,以及他的天文观测,将被包含在内,以支持在许多总结地心说的文本中所代表的地心说(例如de Sacrobosco的流行教科书《De sphaera mundi》)。这些文本将突出显示如何用地心说来预测行星的运动和轨迹,其准确性令人惊叹。从训练数据中反复出现的词汇关联中推断出的证据将压倒性地反对伽利略。LLM没有超出镜像和重述文本中内容之外的任何方式来获取真相(例如,通过实验或反事实)。
即使训练数据中包含了替代或异端的观点(例如哥白尼的作品,尽管他的作品大多被禁),这些作品的逻辑也会被支持主流地心范式的所有文本和材料所淹没。数千年的地心文本的庞大语料库将远远压倒伽利略的观点或任何支持它的观点。LLM对真相或知识的模型完全是统计性的,依赖于频率和概率。输出受到训练数据中提到一个观点的频率的影响,这反映在相关的词汇结构中。例如,地心说在训练数据中被提及、总结和讨论的频率必然在LLM的输出中被印刻为真相。由于LLM除了词汇之间的统计关系之外没有任何实际的真相基础,它会说伽利略的观点和信念是妄想的,与科学毫无关联。
像LLM这样的神经网络实际上可能包含任何数量的妄想性信念,包括最终被证明是正确的信念(如伽利略的信念)以及客观上是(并且仍然是)妄想的信念。事前,LLM无法在两者之间做出裁决。例如,杰出的天文学家第谷·布拉赫曾广泛声称并著名地发表了关于占星术的主张,即天体及其运动直接影响个人命运以及政治和其他事务。他的占星术著作不仅在一些科学家中广受欢迎,也在受过教育的精英中广受欢迎。一个假想的LLM(在1633年)将无法在伽利略关于日心说的(看似)妄想和布拉赫关于占星术的(实际)妄想之间做出裁决。我们的假想LLM更有可能声称布拉赫的占星术主张是真实的,而不是伽利略关于日心说的论点是真实的。LLM只能代表并镜像其训练数据中词汇的频率和统计关联所反映的主流和现有观念——在这种情况下,是支持地心宇宙观。
总之,重要的是要认识到LLM获取真相和知识的方式是通过一种统计练习,即寻找(希望是)真实主张的更频繁提及(以词汇之间的统计关联形式)和虚假主张的较少提及。LLM的输出是基于其在训练过程中遇到的词汇的统计关联概率性地抽取的。当LLM做出真实主张时,这只是因为真实主张碰巧被更频繁地提及。LLM没有其他方式来评估真相或进行推理。真相——如果它碰巧出现——是统计模式和频率的副产品,而不是LLM发展出对现实中的真假的内在理解或推理能力的结果。
一些LLM试图通过创建所谓的“专家混合”模型来解决其基于频率和概率的方法的问题,其中输出不仅仅是超大型神经网络的平均结果,而是可以针对某些形式的专业知识进行微调(Shazeer等人2017,Du等人2022)。另一种方法是检索增强生成,它利用LLM的一般语言能力,但将用于预测的数据限制在一个有限且预先选定的来源集合中(Lewis等人2020)。此外,还开发了集成方法——这些方法结合或聚合多样化的架构或输出(Friedman和Popescu 2008,Russell和Norvig 2022)。然而,即使在这里,输出也必然反映了训练数据中任何特定专家所说的,而不是LLM的任何前瞻性预测或即时因果推理的形式。
这一问题在具有高度不确定性和新奇性的情境中进一步加剧(例如许多形式的决策制定),在这种情况下,鉴于不断演变和变化的世界,专家知识甚至有限理性的概念都难以明确界定(Felin等人2014)。
最后,至关重要的是要记住,任何LLM的输入都是人类过去的输入,因此,输出也大致代表了我们到目前为止所知道的内容。本质上,LLM无法超越输入所涵盖的范围。它没有某种机制去产生关于未来的前瞻性信念——或者因果逻辑或知识——这些都无法从训练数据中词汇所包含的现有统计关联和相关性中推断出来。
数据至上与数据-信念不对称性
我们迄今为止所强调的核心问题是,机器和人工智能的学习本质上是回溯性的和模仿性的。再次强调,这不应被理解为对这些模型的批评,而仅仅是对其结构限制的描述。尽管它们在许多方面都很有用,但像LLM这样的人工智能模型无法产生新知识或解决新问题。LLM不会推理。而且,LLM无法超越其训练数据中遇到的内容进行假设。
接下来,我们将这一问题扩展到人工智能和认知科学中对数据至上的更一般性强调。数据本身当然不是问题。相反,问题是数据被以一种理论无关的方式使用(Anderson 2008)。为了确保我们没有通过仅仅关注LLM来歪曲现有的与人工智能相关的认知模型,我们还将论证扩展到其他形式的认知人工智能。
将心智和机器视为输入-输出设备的一般观点,强调了数据的首要性。这暗示了一个模型,其中数据——如线索、刺激、文本、图像——本质上被一个系统(无论是人类还是计算系统)读取、学习和表示。世界(任何大量的图像、文本或环境)具有特定的统计和物理结构,而一个系统的目标是从中准确学习并反映这种结构。这被认为是智能的基础。正如Poldrack(2021,第1307页,强调部分为原文所有)所说:“任何要在世界中表现出智能的系统,都必须包含反映世界结构的表征”(参见Yin 2020)。基于神经网络的方法和强调自下而上表征的机器学习为实现这一目标提供了完美的机制,因为它们可以“直接从数据中学习”(Lansdell和Kording 2019;还可参见Baker等人2022)。学习是数据驱动的。当然,认知系统可能无法完美学习,但主体或机器可以通过“反复与环境互动”来推断其本质和结构(Binz等人2023)。这是“行为的概率模型”的基础,该模型将“人类在复杂环境中的行为视为解决一个统计推断问题”(Tervo等人2016)。
贝叶斯认知也认为,人类和机器的学习可以通过贝叶斯统计方法所捕捉的对环境的概率推理来理解(例如,Griffiths等人2010)。这一框架将感官输入、感知和经验性证据视为数据,这些数据不断从环境中获取,然后用于更新一个人对世界的模型(或特定假设)。认知过程涉及从可能状态或结果的概率分布中抽样,这些抽样由传入的数据提供信息。至关重要的是,贝叶斯及相关认知方法强调通过动态更新信念来整合先验知识(先验)和新证据,以修正信念(后验),这一过程通过贝叶斯公式数学化描述(Pinker 2021)。这种迭代更新反映了持续的学习过程,承认并量化了不确定性,将理解和决策制定视为本质上是概率性的。这种概率架构也是人工智能和认知科学中大部分领域的基础。
值得反思的是这里所假定的认识论立场——或潜在的知识理论。知识传统上被定义为经过证明的信念,而信念是通过数据和证据来证明的。正如贝叶斯模型所暗示的,我们相信或知道某件事情的程度取决于我们对它们的数据和证据的程度(Pinker 2021)。信念应该与手头的证据成比例,因为如果主体对其环境和世界有一个准确的表征或概念,他们会过得更好(例如,Schwöbel等人2018)。知识可以被视为构成我们信念的累积输入、数据和证据。任何信念的强度或程度应该与支持数据的量成对称,或者换句话说,与证据的权重成比例(Pinker 2021;还可参见Griffin和Tversky 1992, Kvam和Pleskac 2016, Dasgupta等人2020)。这是认知系统概率模型的基础。这些方法关注于“逆向工程化心智”——从输入到输出——它们“与计算机科学、机器学习和统计学的最新观点建立了强有力的联系”(Griffiths等人2010,第363页)。总体而言,这代表了一种相对广泛认同的认识论立场,也符合以输入-输出为导向的“心智的计算理论”(例如,Rescorla 2015),其中人类或机器通过“反复与环境互动”进行学习——无需“任何先验规定”(Binz等人2023)。总结上述文献的一种方式是,一个人的信念与支持数据之间需要有一种对称性。理性决策者将通过考虑可用数据和证据来形成(并权衡)关于任何给定事物的信念。
但如果出现边缘情况呢?也就是说,在主体正确地吸收了所有数据和证据的情况下,却以某种方式得出错误的结论?基于理性信息处理的模型并没有提供一个机制来解释变化或新知识,或者解释数据和证据推理可能导致不良结果的情况(参见Felin和Koenderink 2022)。此外,尽管基于学习的知识模型能够根据新证据更新信念,但并没有机制来解释新数据来自何处,或者哪些数据应被视为相关,哪些数据应被忽略。如果数据和证据存在争议呢?在充满不确定性的情境中,包括任何类型的前瞻性决策和科学推理,这是一个特别重要的问题。
对于假设数据-信念对称性的计算性、输入-输出认知模型来说,解释新奇性和新知识的产生是高度有问题的。知识的基础是对真理的追求(Pinker 2021),这集中在现有证据和数据上。但我们认为,数据-信念不对称性实际上对于新知识的产生和相关决策制定是必不可少的。现有的认知科学文献关注数据-信念不对称性的一面,即其负面:数据-信念不对称性的消极方面(例如,Kunda 1990, Scheffer等人2022)。这种负面包括人类尽管有看似明确的相反证据却仍然坚持相信某事的所有方式(Pinker 2021)。这包括大量关于人类信息处理偏见的文献——人类处理、感知和使用数据以及未能适当地更新其信念的次优和有偏见的方式。这在关注各种数据相关病理和偏见的广泛文献中是显而易见的,包括动机性推理、确认偏误、选择性感知和抽样以及可用性偏误。对错误信念和人类偏见的强调有力地影响了我们对人类本性和决策的看法,这些看法在各种社会和经济领域中都有所体现(例如,Kahneman 2011, Bénabou和Tirole 2016, Chater 2018, Genakoplos和Shleifer 2018, Kahneman等人2021, Bordalo等人2023)。
但是数据-信念不对称性的积极一面呢?那些看似与既定证据和事实相悖,但却最终被证明是正确的信念呢?在这里,我们特别指的是那些可能超越、忽视并超越现有证据的信念。前瞻性、反传统的观点对于新奇性和新知识的产生至关重要。由于基于人工智能的计算和认知系统具有统计性和回溯性(专注于过去数据中的相关性、关联性和平均值),它们无法以反传统的方式进行预测或推理,因为它们隐含地坚持数据和信念之间的对称性。
尽管如此,需要注意的是,正如我们所讨论的,我们对数据-信念不对称性的关注并不是某种与数据无关或脱离现实的。相反,这种数据-信念不对称性是前瞻性的,因为信念和因果推理能够识别新的数据和实验干预,并最终验证那些之前被视为扭曲或妄想基础的信念。
为了提供一个实际且生动的说明,说明数据-信念对称性可能存在的问题,可以考虑19世纪末和20世纪初关于重于空气的有人驾驶和可控飞行的可能性的信念(我们在本文中引入这个例子,并在其余部分中多次提及)。要形成关于人力飞行可能性的信念——甚至为其分配一个概率——我们首先会查看现有的数据和证据。那么,当时关于人力飞行可能性的证据是什么?当时最明显的数据点是人力飞行尚未成为现实。当然,这本身并不能否定这种可能性。因此,我们可能希望查看所有与人类飞行尝试相关的数据,以评估其可能性。在这里,我们会发现人类数百年来一直在尝试制造飞行机器,而与飞行相关的试验实际上在19世纪大幅加速。所有这些飞行试验都可以被视为我们应该用来更新我们对飞行不可能性信念的数据和证据。所有证据都清楚地表明,相信人力飞行是妄想的。妄想可以被定义为与证据和现实相悖的信念(Pinker 2021, Scheffer等人 2022):一种与公认事实不一致的信念。事实上,《精神障碍诊断与统计手册》第四版和第五版——精神障碍的权威手册——将妄想定义为“由于对外部现实的错误推断而产生的错误信念”或“在面对矛盾证据时无法改变的固定信念”。
请注意,当时许多人——天真地认为——以鸟类作为人类可能飞行的证据。这是一个常见的论点。但科学家们认为,鸟类飞行以某种方式为人类飞行的可能性提供了希望和证据,这种观点是妄想的,并且被著名科学家约瑟夫·勒孔特(Joseph LeConte 1888,第69页)驳斥,他断言飞行“不可能,尽管有鸟类的证据”。像一个好科学家和贝叶斯主义者一样,勒孔特引用数据来支持他的观点。他研究了鸟类物种——那些会飞的和不会飞的——并得出结论“飞行动物的大小和重量存在极限”。根据勒孔特的说法,重量是飞行的关键决定因素。凭借他的数据,他明确指出,没有超过50磅的鸟类能够飞行,因此得出结论认为人类不能飞行。毕竟,像鸵鸟和鸸鹋这样的大型鸟类是无法飞行的。他甚至认为,即使是最大的飞行鸟类——如火鸡和鸨——“起飞困难”且“显然接近极限”(勒孔特1888,第69-76页)。飞行与重量是相关的。对此,当时的顶尖天文学家和数学家之一西蒙·纽康姆(Simon Newcomb 1901,第435页)补充说:“最多的飞行者是小昆虫,而上升的系列以秃鹰结束,尽管秃鹰的重量远小于人类,但据说它在吃饱后飞行困难。”
勒孔特强调鸟类的重量以驳斥人力飞行的可能性,这突显了基于证据的数据和信念更新的一个问题。很难知道哪些数据和证据可能与某个信念或假设相关。问题是——正如波兰尼(Polanyi 1958,第31页)简洁地指出的——“自然中没有标记为证据的事物。”小型鸟类能飞而大型鸟类不能飞的事实是否与人类能否飞行的问题相关?在这种情况下,什么是相关数据和证据?飞行是否与重量或大小有关,还是与其他特征(如翅膀)有关?它是否与翅膀的拍打(如雅各布·德根所假设的)有关?还是与翅膀的形状、大小或重量有关?也许羽毛对飞行至关重要。简而言之,很难知道哪些数据可能是相关且有用的。
当然,并非我们所有的信念都能通过我们自己验证的直接实证数据得到充分证明。我们无法——也并不希望——直接验证支撑我们信念和知识的所有数据和观察。在大多数情况下,我们正确地依赖他人的专业知识、信念或科学论证作为我们所持信念的证据(Coady 1992, Goldman 1999)。认知科学也开始强调这一点。贝叶斯和其他概率认知模型引入了在考虑使用哪些数据或证据来更新信念和知识时,来源可靠性的概念(例如,Hahn等人2018,Merdes等人2021)。这种方法认识到并非所有数据和证据都是平等的。谁说了什么确实很重要。证据的来源需要被考虑。例如,科学专业知识和共识是信念和知识的关键来源。
这可以通过重于空气的飞行的例子来清楚地说明。那么,如果我们通过关注可靠、科学的来源和共识来权衡我们对人类飞行可能性的信念,会发生什么?在大多数情况下,这是一种理性的策略。然而,在这个时期,基于此更新我们对重于空气飞行的信念将进一步强化人力飞行是妄想且不可能的结论。同样,像勒孔特和纽康姆这样的科学家通过引用看似确凿的数据和证据来论证飞行是不可能的。而且,我们不仅应该基于这些证据更新我们的信念,还应该根据这些证据来自在该领域具有看似相关知识的杰出科学家这一事实,进一步权衡这些证据。例如,勒孔特最终成为了美国顶尖科学协会(美国科学促进会)的主席。勒孔特并不孤单。他是更广泛的科学共识的一部分,这一共识坚持认为人力飞行是不可能的。例如,开尔文勋爵在担任英国皇家学会会长时断言“重于空气的飞行机器是不可能的”。这具有讽刺意味,因为开尔文在热力学和流体动力学、气体在不同条件下的行为(以及其他物理学领域)方面的科学专长,实际上对人力飞行具有极其相关的实际意义。上述著名的数学家-天文学家西蒙·纽康姆(1901)也在他的文章《飞艇来了吗?》中论证说,飞行的不可能性是一个科学事实,因为没有任何物理材料的组合能够实现人类飞行(关于历史细节,参见Crouch 2002, Anderson 2004)。
那么问题来了,一个人如何仍然——尽管有看似明确的证据和科学共识——坚持一个看似妄想的信念?在人类飞行的案例中,数据、证据和科学共识都坚决反对这种可能性。没有理性的贝叶斯主义者应该相信重于空气的飞行。同样,反对它的证据不仅仅是实证的(以勒孔特的鸟类和其他数据的形式)并且基于科学和科学共识(以开尔文和纽康姆的与物理学相关的论证形式),而且它在观察上也是显著的。许多航空先驱不仅失败并受伤,有些人甚至死亡。例如,1896年,德国航空先驱奥托·利林塔尔在尝试飞行时死亡,莱特兄弟对此非常熟悉(因为他们随后研究了利林塔尔的笔记本和数据)。1903年——就在莱特兄弟成功前的九周——科学家塞缪尔·兰利在飞行尝试中惨败,大量科学界和普通观众目睹了这些失败。回顾最近的飞行尝试(包括兰利的突出失败),《纽约时报》的编辑委员会(1903)估计,要实现人力飞行,需要“数学家和机械师的联合且持续努力,从一百万年到一千万年不等”。
当然,我们选择了一个历史案例,其中一种看似妄想的信念——与现有数据、证据和科学共识相悖——最终被证明是正确的。认知和社会心理学家经常进行“相反”的练习,他们回顾性地指出,由于有偏见的信息处理、选择性感知或有偏见的数据采样,人类顽固地坚持持有那些与证据相悖的妄想性信念(Festinger等人1956,Kunda 1990,Kahneman 2011,Pinker 2021;尽管参见Anglin 2019)。阴谋论提供了一个经常被讨论的例子,这些信念似乎对证据无动于衷(Gagliardi 2024,Rao和Greve 2024)。经济学家更广泛地指出,人类可能对许多形式的证据“具有抵抗力,个体表现出非贝叶斯行为,如不想知道、一厢情愿和现实否认”(Bénabou和Tirole 2016,第142页)。当然,有些信念确实是妄想的。但其他信念——如飞行——可能只是看起来妄想。
我们认为,信念的另一面——那些目前可能看起来妄想的信念(与证据相悖的信念)以及那些看似由动机性推理驱动但最终被证明是正确的信念——也需要被关注。我们以飞行为例,说明了一个更普遍的过程,其中数据-信念不对称性对于新奇性和新知识的产生至关重要。异质性信念和数据-信念不对称性是新思想、新实验形式和新知识的生命线,正如我们在接下来的讨论中所指出的。此外,这最终对以计算为导向的人工智能和认知形式具有重要意义。
基于理论的因果逻辑与认知
在上述数据-信念不对称性的基础上,接下来我们讨论人类如何进行前瞻性理论化和因果推理,这使他们能够超越数据——更具体地说,超越现有数据进行实验并产生新的数据和新奇性。我们特别强调这种认知和实践活动的形式与以数据驱动和信息处理为导向的认知形式——人工智能和计算性认知的标志——之间的差异,并使人类能够以前瞻性的方式干预世界。以数据驱动的预测方法接受并分析世界本来的样子,而没有认识到人类干预的能力(Pearl和Mackenzie 2018),以及实现那些因缺乏数据和证据而看似不可信的信念的能力。我们将重于空气的飞行的例子扩展,以提供一个实践说明,努力为我们认为是一个更普遍和普遍的过程提供独特的视角。
我们的基础出发点——基于Felin和Zenger(2017)——是认知活动是一种理论化或科学活动。也就是说,人类生成前瞻性理论来指导他们的感知、搜索和行动。正如Peirce(1957,第71页)指出的,“人类的心智天生适应于想象某些类型的正确理论……如果人类没有适应其需求的心智天赋,他就无法获得任何知识。”正如我们在语言例子中提到的,儿童稀少的语言输入几乎无法解释其丰富的输出,这指向了人类的理论化能力。人类的理论化能力——参与新问题解决和实验的能力——具有进化起源,并为技术的出现和进化飞跃提供了非常合理的解释(Felin和Kauffman 2023)。
重要的是,基于理论的认知使人类能够采取行动,进行实验。这也就是儿童发展中的“核心知识论点”的基础(例如,Spelke等人1992,Carey和Spelke 1996)。人类通过假设、因果推理和实验的过程像科学家一样发展知识。与认知的计算方法侧重于数据和环境输入的首要性不同,基于理论的认知观侧重于人类不仅学习周围环境,而且在积极生成新知识方面的积极作用(Felin和Zenger 2017)。如果没有这种积极的、生成性的、前瞻性的理论化成分,很难想象知识如何增长,无论我们讨论的是实践知识还是科学知识。这在发展心理学的一篇文章标题中得到了很好的体现:“如果你想取得进步,就去构建一个理论”(Karmiloff-Smith和Inhelder 1974)。这也呼应了Lewin(1943,第118页)的名言:“没有什么比一个好的理论更实用的了。”这里的核心观点是,理论不仅仅是科学家的专属。理论对于任何试图理解和影响周围环境的人来说都是实用的;理论帮助我们采取行动。理论化是人类认知和实践活动的核心方面。因此,正如杜威(Dewey 1916,第438—442页)所论证的,“科学的实体不仅来自科学家”,并且“在人类事业的每一个分支中,个体都应该是实验者。”我们在此基础上进行扩展,将其引入新的和独特的领域,并将其与人工智能启发的认知模型进行对比。
在决策和战略的背景下,基于理论的观点扩展了上述逻辑,强调了理论化和理论在经济情境中的重要性,这对认知有着广泛的影响(Felin和Zenger 2017)。基于理论的观点的核心思想是,经济主体能够(并且需要)发展独特的企业特定理论。理论并不是试图映射现有的现实,而是生成未被看见的未来可能性,重要的是,理论提出了因果干预措施(需要采取的实验和行动),以实现这些可能性。理论也可以被视为一种机制,用于破解竞争性要素市场(参见Barney 1986),使经济主体能够以不同的方式看待和探索世界。对新可能性的意识是通过认知自上而下发展的(Felin和Koenderink 2022)。理论还对如何高效组织或治理实现新事物的过程有着核心意义(Wuebker等人 2023)。这种方法已经通过实证测试并得到验证(例如,Camuffo等人 2020,Novelli和Spina 2022,Agarwal等人 2023),包括重要的理论扩展(例如,Ehrig和Schmidt 2022,Zellweger和Zenger 2023)。基于理论的观点的实践意义也促成了管理工具的开发,以帮助初创企业、经济主体和组织创造经济价值(Felin等人 2021a)。
本文这一部分的目标并不是全面回顾基于理论的观点。相反,我们的目标是进一步构建基于理论的观点的认知和实践方面,特别强调因果推理以及它与以数据为中心、回溯性的AI和认知方法的对比。我们强调人类的理论化和因果推理能力与AI对数据驱动预测的强调之间的差异。基于理论的认知观使人类能够在给定数据之外干预世界——不仅仅是处理、表征或从现有数据中推断。理论通过实验识别或生成非显而易见的数据和新知识。这与计算、贝叶斯和AI启发的认知方法所提出的论点和建议有着显著的不同。重要的是要仔细建立这些差异,因为基于AI和计算的方法——正如本文开头广泛讨论的那样——被认为优于人类的判断和认知(例如,Kahneman 2018)。
认知:重访数据与信念的不对称性
异质性信念为基于理论的因果推理和认知提供了初始动力。从我们的角度来看,为了使信念成为理解认知和决策的相关概念,信念并不一定——至少在最初——需要基于数据。我们特别关注前瞻性信念,即目前缺乏证据甚至与现有数据相悖,但最终可能被证明是正确的信念。因此,前瞻性信念更像是在寻找数据,而不是基于现有数据。在知识的前沿,数据是信念的产物——与因果推理和实验(我们在下一节讨论)相结合——而不是新知识是现有数据的直接产物。
问题是,很难事先区分哪些信念确实是妄想,哪些只是超前于时代。在数据滞后于信念(或数据可能目前不存在)的情况下,即在尚未识别、发现或实验生成支持性数据的情况下,数据与信念的不对称性至关重要。在许多情况下,信念并不会自动得到验证。相反,它们通常需要某种形式的针对性干预、行动和实验。寻找支持一种不寻常、反向或不一致信念的数据,必然看起来像是非理性的动机性推理或确认偏误(Kunda, 1990;参见 Hahn 和 Harris, 2014)。为了简要说明,伽利略对日心说的信念与既定的科学数据和共识甚至常识相悖。地心宇宙观在观测上得到了很好的证实,它们是成功的:它们能够精确预测行星和恒星的运动。即使是日常观察也证实了地球是静止的,而太阳似乎围绕地球转动。伽利略的反对者基本上认为,伽利略试图通过反对天主教会的偏见性动机推理,将人类和不可移动的地球从上帝创造的中心移开。
在讨论因果推理对于实现反向或妄想性信念的重要性之前,值得强调信念作为行动动机的作用。也就是说,一个人信念的强度或程度可以通过他因该信念而采取行动的可能性来衡量(Ramsey, 1931;另见 Felin 等人, 2021a)。相比之下,基于概率或贝叶斯认知模型的信念强度(参见 Pinker, 2021)直接与现有数据和可用证据的权重相关,而不是与采取行动的可能性——这是一个显著的差异。
注意在我们之前提到的例子中,人类飞行的情境下,信念的含义。尽管有压倒性的数据和证据反对这一信念,信念在激励航空先驱采取行动方面发挥了核心作用。从某种意义上说,那些追求飞行的人并没有适当地更新他们的信念。大多数证据都对莱特兄弟不利,但他们仍然相信飞行的可能性。莱特兄弟之一的威尔伯在 1899 年写信给科学家和航空先驱塞缪尔·兰利,并承认:“多年来,我一直受飞行可能实现的信念困扰。我的病情愈发严重,我感觉它很快就会让我花费更多金钱,甚至可能危及我的生命”(莱特和莱特, 1881–1940,强调为原文所加)。威尔伯显然认识到,他对飞行的信念在他人看来似乎是妄想的,这从他的信件中可以看出。但这种信念激励他进行因果推理和实验,使他和他的兄弟将看似妄想的信念变为现实(仅仅四年之后)。将莱特兄弟的信念与当时最伟大的科学头脑之一开尔文勋爵的信念对比一下。当被邀请加入十年前新成立的航空学会时,开尔文拒绝了,并说:“我对空中航行连一丁点信念都没有。”开尔文可能是在表达他的一位科学同时代人的观点:数学家威廉·克利福德(2010, p. 79),他认为“在任何地方、任何时候、对任何人都不应该在没有足够证据的情况下相信任何事情。”由于没有对人类飞行可能性的丝毫信念,开尔文自然不想支持任何暗示人类飞行可能实现的事情。但对于莱特兄弟来说,动力飞行的可能性是一个“活生生的假设”(詹姆斯, 1967)。尽管有数据,他们仍然相信人类飞行可能是可能的,并采取了具体步骤来实现他们的信念。
数据与信念之间的不对称性对理性这一概念本身提出了问题(参见 Chater 等人, 2018;Felin 和 Koenderink, 2022)。毕竟,作为一个理性的人,我们的知识应该基于证据。我们的信念和知识应该与手头的证据成比例。严格来说,信念这一概念甚至不需要存在,因为人们可以直接谈论知识,即由证据证明的信念。这种观点简洁地体现在 Pinker(2021, p. 244)的话中,他认为“我不相信任何你必须相信的东西。”这似乎是一个合理的立场。这也是贝叶斯方法的基础,即新数据(不知何故)出现,我们可以据此更新我们的信念和知识,为我们提供“根据新证据更新信念的最优方式”(Pilgrim 等人, 2024)。这确实是关注计算和概率信念更新的认知方法的隐含立场(例如,Dasgupta 等人, 2020)。
然而,数据与信念的不对称性——现有数据目前不支持信念甚至与之相悖——可以非常有用,甚至是必不可少的。它们是技术和科学进步的原材料。它们是不确定性决策的核心要素。数据与信念的不对称性引导我们的注意力寻找新数据和可能的实验,以生成支持信念的证据。当然,寻求数据来验证特定信念的想法正是妄想和一系列相关偏见的定义,包括确认偏误、动机性推理、选择性证据收集、否认主义、自我欺骗和信念坚持。对于局外人来说,这看起来像是“寻找支持信念的证据并对他可能证伪它的证据漠不关心的坏习惯”的完美例子(Pinker, 2021, p. 13;另见 Hahn 和 Harris, 2014)。人类动力飞行的信念很好地说明了这一点,因为有足够的证据可以证伪莱特兄弟对重于空气飞行可能性的信念。持有不对称信念似乎等同于“一厢情愿”或“在面对新证据时保护自己的信念”(Kruglanski 等人, 2020, p. 413;尽管参见 Anglin, 2019)。莱特兄弟不断面临证伪其信念的证据,包括塞缪尔·兰利在飞行上的公开失败,或者李林塔尔飞行尝试失败(以及因此丧生)的知识。但在这些情况下,忽视显著的数据和证据——不根据看似有力的证据甚至科学共识更新信念——最终被证明是正确的行动方向。
有时候,看似非理性——忽视证据、对其解释存在分歧,或者有选择性地寻找正确的数据——最终被证明是正确的行动方向。人类动力飞行当然是一个特别生动的例子,尽管更平凡的人类行为也从根本上被类似的过程所刻画(Felin 和 Koenderink, 2022)。对于目前的目的来说,最重要的是,我们的论点是信念本身具有因果作用,并可以通过我们采取行动的倾向来衡量(Ramsey, 1931;Felin 等人, 2021a)。当然,拥有信念或愿意采取行动并不保证它们是真实的。但它们是行动的重要动机(Bratman, 1987;Ajzen, 1991)。
再次强调,我们对信念的强调不应被视为试图贬低数据的重要性。相反,正如我们在接下来要强调的,信念可以激励基于理论的因果推理,引导人类注意力朝着能够产生新数据、证据和实现新知识的行动和实验方向发展。
从信念到因果推理与实验
信念的实现并非自动的。信念的一个核心特征是它们倾向于引发因果推理和某种形式的定向实验。信念使行动者能够阐述如何干预周围环境并生成所需证据的路径(Felin 等人,2021b)。我们对认知和行动的看法更广泛地受到理论化可以引导人类开发出一种底层因果逻辑的观点的启发,这种逻辑使我们能够干预世界(Pearl 和 Mackenzie, 2018;另见 Ehrig 等人, 2024)。这种对干预的倾向意味着我们并不简单地接受世界本来的样子;相反,我们反事实地思考可能性和未来状态,并着眼于采取具体行动、进行实验和生成正确的证据。这将焦点从以过去为导向的信息处理和预测(其中数据是既定的)转移到行动和实验(其中正确的数据和证据被识别或生成)。这涉及积极质疑和操纵因果结构,从而能够更深入地探索假设性情境。反事实思维赋予人类探索假设性替代方案和剖析因果机制的能力,为结果的必要和充分条件提供见解(Felin 等人,2024)。这种方法与以输入-输出和信息处理为导向的人工智能和计算认知模型以及各种以数据驱动或贝叶斯方法为基础的决策制定方法有显著不同。基于人工智能的认知模型主要关注基于过去关联和相关性的模式;预测基于过去的数据。但这些方法缺乏理解底层因果结构、假设性可能性以及可能干预的能力(参见 Felin 等人, 2021a;Ehrig 等人, 2024)。这是基于理论的因果逻辑的作用。
关注合理的干预和实验可以通过扩展我们关于人类动力飞行的例子来说明。这个例子也很好地说明了数据导向和基于证据的科学家对人类动力飞行可能性的看法与像莱特兄弟这样更具干预导向和基于因果逻辑的实践者之间的区别。为了理解飞行,莱特兄弟深入研究了为什么之前的飞行尝试未能成功,更重要的是,他们发展了一种关于飞行的因果理论。尽管失败的飞行尝试以及李林达尔(和其他人)的死亡被许多人用作数据来声称飞行是不可能的,但莱特兄弟研究了这些尝试失败的具体原因。讽刺的是,尽管鸟类数据的不同方面为支持和反对飞行的人提供了看似证据,但科学家们利用鸟类数据来论证人类飞行是不可能的(因为重量问题)(例如 LeConte, 1888;Newcomb, 1901),而莱特兄弟则关注鸟类飞行的不同方面。莱特兄弟进行了关于鸟类飞行和解剖学的观察研究(为什么鸟类能够飞行),例如仔细研究鸟类在转弯和倾斜时的翅膀位置。
关键区别在于,莱特兄弟凭借他们对飞行可能性的信念,正在构建一种关于飞行的因果理论,而不是寻找确认或反驳飞行是否可能的数据。莱特兄弟忽视了反对者的数据和科学论点。从史密森学会那里,莱特兄弟请求并获得了关于众多历史飞行尝试的详细信息,包括奥托·李林达尔的记录。莱特兄弟的笔记和信件揭示了他们仔细研究了早期先驱如乔治·凯利、阿尔丰斯·佩诺和奥克塔夫·尚多的飞行尝试和飞机(莱特和莱特,1841–1940;安德森,2004;麦卡洛,2015)。他们研究了过去飞行尝试的各个方面:使用的飞机类型、机翼形状和大小的细节、天气条件以及底层的空气动力学假设。
莱特兄弟再次试图发展他们自己的关于飞行的因果理论。他们的理论不仅仅是由他们反传统的飞行可能的信念所驱动(这种信念似乎没有任何证据支持)。随着他们仔细研究飞行的底层机制并调查飞行的因果逻辑,他们对飞行可能性的信心逐渐增强。最重要的是,他们的因果推理使他们能够阐述实现人类动力飞行所需解决的具体问题。莱特兄弟认为,要实现飞行,必须解决三个与飞行相关的问题,即(a)升力,(b)推进力,和(c)操控。为了说明开发基于理论的因果逻辑和识别具体问题以解决的力量,结合定向实验,我们简要讨论他们是如何解决其中一个问题的:升力问题。
在升力方面,莱特兄弟明白,要实现飞行,他们需要一种能够提供足够升力以克服飞机重量的机翼设计。事实上,著名科学家认为人类飞行的限制因素是重量(再次引用昆虫飞行和那些能飞与不能飞的鸟类的重量)。莱特兄弟认为,对重量的担忧并非不可克服。在对鸟类飞行(以及其他人的飞行尝试)的研究基础上,他们通过一系列实验来解决这个问题,包括构建和测试各种翼型。他们的实验高度针对性且以数据为导向,测试了各种机翼的形状、大小和角度。他们还很快意识到,并非一切都需要按比例测试,他们的升力实验可以在实验室条件下更安全、更经济地进行。因此,他们建造了自己的风洞。在这些风洞中的针对性测试使莱特兄弟能够学习升力的核心原理。他们测量了一切,并仔细记录了他们的数据——这些数据是通过持续的实验操作和变化生成的。这种动手实验使他们能够收集关于不同形状和迎风角对升力的影响的数据。通过系统地变化这些参数并观察结果,他们有效地运用因果推理来识别升力最大化的条件。他们发现并完善了用于滚转控制的机翼扭曲技术,这是直接源于对机翼形状、空气压力和升力之间因果关系的理解的结果。
同样的因果推理和定向实验的过程对于解决另外两个问题——推进力和操控或控制——也是至关重要的。更广泛地说,莱特兄弟在实现人类动力飞行信念的各个方面都表现出了严谨的科学态度。例如,为了确定一个适合进行飞行尝试的地点,他们联系了美国气象局。他们已经明确了测试飞行所需的最优条件:他们需要四样东西——稳定的风(方向和强度)、开阔的空间、柔软或沙质的着陆面以及隐私。他们从美国气象局收到了多个建议,并选择了北卡罗来纳州的基蒂霍克作为实地试验的地点。
莱特兄弟对飞行的探索提供了一个有用的案例研究,展示了基于理论的因果逻辑如何在信念似乎没有得到现有数据、证据或科学支持的情况下实现信念。基于他们的理论化、研究和因果推理,莱特兄弟通过定向实验解决了升力、推进力和操控等核心问题。他们的方法展示了如何在缺乏数据(甚至数据与信念相悖)的情况下,运用因果逻辑理解和干预世界。他们在飞行方面的成功证明了如何通过系统化、干预导向的方法揭示复杂现象背后的因果机制,并克服现有数据的不足。
正如我们的论点所暗示的,我们认为科学、经济和技术领域充满了机会,那些拥有不对称信念的人可以利用基于理论的因果推理,进行定向实验和问题解决(Felin 和 Zenger, 2017)。正如我们所论证的,现有的认知理论过于关注数据与信念的对称性,而不是数据与信念的不对称性,以及后者如何能够促进因果推理,从而推动异质性的出现以及新奇和价值的创造。尽管目前对利用人工智能(AI)自动化生成新知识和新奇性充满热情(例如 Csaszar 等人, 2024;Lu 等人, 2024;Manning 等人, 2024),甚至有人呼吁用 AI 替代有偏见的人类决策(例如 Kahneman, 2018),但我们认为,至少在目前,人类的因果推理无法被 AI 系统或计算方法所模仿。接下来,我们将进一步探讨这一论点对不确定条件下的决策和战略的启示。
讨论:预测在不确定性决策中的局限性
正如我们在本文中广泛讨论的,人工智能(AI)和认知科学使用了许多相同的隐喻、工具、方法以及对智力、理性和心智的推理方式。在认知科学中,一个普遍的假设是人类心智是一种计算输入-输出系统(Christian 和 Griffiths, 2016)。计算和算法系统强调基于过去数据的预测能力。预测的核心地位得到了 AI 先驱 LeCun(2017)的呼应,他认为“预测是智能的本质”。
显然,AI 的预测能力是强大的。但在不确定性决策中(即在不可预测的情境中),预测是否也处于核心地位呢?许多人认为情况就是这样(例如 Davenport 和 Kirby, 2016;Kahneman, 2018)。例如,在他们的著作《预测机器:人工智能的简单经济学》中,Agrawal 等人(2022, 第 22–32 页)强调,简化到本质,“AI 是一种预测技术”。他们书中一个核心观点是,“预测是不确定性决策的核心”(Agrawal 等人, 2022, 第 7 页,强调为原文所加)。总结我们在本文中的论点,我们不同意对预测的重视程度——尤其是 AI 中所体现的预测形式(即基于过去数据的预测)——特别是在不确定性情境中。由于对预测的重视是普遍存在的,因此值得仔细探讨我们为何不同意对预测的重视。
Agrawal 等人(2022)的论点为我们提供了一个有用的方式,让我们能够清晰地表达我们对预测所受重视的更一般性担忧。他们的论点可以总结为一种相对常见的因果链(某种意义上的),从数据到信息,再到预测和决策,简而言之,即数据 → 信息 → 预测 → 决策。他们特别指出,“数据提供了能够实现预测的信息”,而预测反过来则是“我们决策的一个关键输入”。这种从数据到信息、再到预测和决策的因果链当然具有直观的吸引力,并且反映了 AI 系统所擅长的:接收大量输入和数据,处理这些信息,然后做出可以用于决策的预测。简而言之,正如 Agrawal 等人(2022)和许多其他人所强调的,数据驱动的预测不仅是语言模型的核心,也是更广泛的 AI 的核心,并且在认知中占据中心舞台。
但正如我们在本文中多次强调的,问题是现有的数据——目前可用或既定的数据——在做出前瞻性决策时不太可能是最佳的信息和预测来源。数据是对过去的快照或镜像。即使是大量的数据也不太可能让人能够预见到未来(Felin 等人, 2014)。我们需要的是一种机制,用于投射未来,并识别相关的数据和证据,或者更有可能的是,通过实验生成新的数据。这就是理论和某种形式的因果推理的作用,而这些是基于数据优先和预测导向的 AI 和认知方法中所缺失的关键要素。我们承认,在各种常规和重复性决策中,预测无疑是一个有用的工具。基于数据的预测在可预测的情境中可以非常强大:这些情境与过去匹配或从过去外推而来。这正是 AI 和基于预测的认知所擅长的,即最小化意外和减少误差。更广泛地说,这也与许多判断和决策学者对一致性的强烈强调以及避免噪声的急切愿望相符合(参见 Kahneman 等人, 2021)。
但许多重要决策并不是关于通过使用现有数据最小化误差来减少不确定性。决策的很大一部分目的更多是关于(在某种意义上)最大化意外和误差,或者对其他人来说可能看起来像是误差。在战略情境中,最具影响力的机会和价值来源并不是基于立即可用的数据。相反,像这样的重要决策需要开发一种理论,基于某种异质性信念,描绘出一条因果路径或逻辑,用于测试理论、进行实验并收集新证据以实现信念。在一个重要的意义上,战略决策更多地与不可预测性和最大化意外有关,而不是与预测和最小化意外有关。有些决策具有高度影响力、低频率、罕见性,并充满不确定性(Camuffo 等人, 2022),因此,它们根本无法通过使用现有数据的算法处理。这就是为什么基于理论的因果推理不是关于适当地表示环境结构,也不是关于有限理性或倾听客户;而是关于开发一种前瞻性理论和因果逻辑,用于实验和创造价值(Felin 等人, 2024)。
请注意,我们对不可预测性和意外的强调并不意味着我们超出了科学或数据的范畴。恰恰相反。做出前瞻性决策的过程是关于开发一种基于理论的底层因果逻辑,用于干预世界:本质上,描绘出一条因果路径,说明如何从 A 点(当前世界的状态)到达 B 点(假设的未来世界状态)。理论为正确的干预、实验和新数据创造了显著性,从而实现了最初看似不可信的信念。理论在生成对可观察事物的显著性方面发挥着核心作用;数据(或观察)的概念本身是依赖于理论的。正如爱因斯坦所说:“你是否能够观察到某件事物取决于你所使用的理论。正是理论决定了什么是可以被观察的”(Polanyi, 1974, 第 604 页)。对正确的(或新的)数据或实验形式的显著性是由理论赋予的,而不是由过去的数据赋予的。在这个意义上,理论可以说具有预测功能,尽管这里的预测并不是 AI(Agrawal 等人, 2022)和认知科学(参见 Clark, 2018)中定义和操作化的那种数据驱动或最小化误差的过程。现在,如果手头的任务是常规和平凡的——例如,“预测这句话中的下一个词”或“告诉我你接下来期望看到什么”——那么基于现有数据的预测可能是有用的。但基于理论的观点更多地关注认知的前瞻性方面,以及人类主体如何通过开发一个多步骤的因果路径来实现信念,通过实验和问题解决实现信念。这正是我们关于莱特兄弟的飞行理论——以及因果推理和实验——所展示的。它是一个微观缩影,展示了人类如何更广泛地干预他们的环境并实现新的信念。经济领域充满了经济主体如何参与这一过程的例子(Felin 和 Zenger, 2017)。
我们对意外和不可预测性的强调——而不是可预测性和最小化误差——在竞争环境中尤其重要。如果每个人都能接触到相同的预测机器和与 AI 相关的信息处理工具,那么结果很可能是同质化的。战略如果要真正创造新价值,就需要是独特且企业特定的。而这种企业特定性与独特信念和开发基于理论的价值创造逻辑有关,这种逻辑对其他人来说是不可预见的(不可预测的)。理论使经济主体能够破解竞争性要素市场(Barney, 1986),以开发关于资产和活动价值的独特预期。理论还使企业能够以更有针对性的方式进行搜索(Felin 等人, 2023),而不是从事成本高昂且耗尽精力的全球搜索形式。尽管有尝试对预测引擎进行微调,但它们本质上是基于过去的频率、相关性和平均值,而不是极端情况。而在许多情况下,正是极端情况最终更有趣,因为它们提供了后来我们视为理所当然的(最终)信念和数据的种子。
总的来说,我们不同意在决策和认知中对预测、算法处理和计算的重视(例如 Christian 和 Griffiths, 2016;Agrawal 等人, 2022)。人类决策不应被交给人工智能(参见 Kahneman, 2018)。人工智能及其启发的认知模型基于回顾性数据和预测,而不是任何前瞻性、基于理论的因果逻辑。强调或依赖数据和预测,不仅是决策和认知的严重局限,也是理解知识生成甚至科学进步的严重局限。因此,我们强调异质性信念在人类认知中的重要性,以及开发基于理论的因果逻辑的重要性,这种逻辑能够推动实验和新数据以及新奇性的产生。
未来研究机会
上述论点揭示了许多研究机会,尤其是在理解人工智能(AI)、新奇性产生以及不确定性决策方面。首先,研究人类(例如经济主体)何时以及如何利用与 AI 相关的工具来创造新价值或辅助决策是一个机会。如果 AI 作为一种认知工具要成为竞争优势的来源,它必须以独特或企业特定的方式被利用。使用普遍可用的训练数据的 AI 必然会产生通用且非特定的输出。存在一种风险,即现成的 AI 解决方案容易受到信息技术“生产力悖论”的影响(Brynjolfsson 和 Hitt, 1998),在这种情况下,对 AI 的投资实际上并没有为购买这些工具的人带来任何收益(而只是为出售这些技术的人带来收益)。因此,研究特定决策者(例如企业)自身的价值理论如何推动 AI 开发和采用的过程是一个机会。为了让 AI 真正成为战略和决策的有用工具,AI 需要被定制化、针对性训练和微调——它需要变得具体化——以适应决策者的理论、独特的因果推理、数据集和专有文件。例如,检索增强生成的进步似乎为在战略决策中使用 AI 提供了一种增强特定性的有前景的途径。在寻求独特的 AI 驱动输出时,任何 AI 的采用都应该谨慎选择哪些语料库和训练数据被利用(以及哪些不被利用)。毕竟,AI 的输出——被定制化为使用特定数据——也是人类主体的产物,他们决定哪些数据与手头的决策相关(哪些不相关)。正是在这里,我们看到了一个机会,去理解人类如何独特地与 AI 互动,以生成这些工具以及相关的人类-AI 接口。早期的研究已经开始探讨企业如何利用 AI 来增加创新,或者各种人类-AI 混合解决方案如何实现更好的决策(例如 Gregory 等人, 2021;Clough 和 Wu, 2022;Choudhary 等人, 2023;Girotra 等人, 2023;Kemp, 2023;Babina 等人, 2024;Bell 等人, 2024;Jia 等人, 2024;Kim 等人, 2024;Raisch 和 Fomina, 2024;Tranchero 等人, 2024)。然而,研究特定经济主体或企业自身的理论和因果逻辑——以及他们独特或企业特定的数据和信息来源——如何塑造 AI 相关工具的开发或采用以执行战略和做出决策,仍有很大的机会。
其次,研究和开发人类与 AI 在不同类型任务、问题和决策中的各自能力的分类法,存在持续的机会。关于 AI 取代人类的前景,存在许多兴奋、炒作和恐惧(参见 Grace 等人, 2024)。然而,在现实中,人类和 AI 之间可能会有一种分工,双方各自专注于最适合它们的任务、问题和决策类型。研究经济主体和组织如何根据情境将人类(及其认知能力、工作和角色)与算法(或 AI 相关工具)匹配到正确的任务和决策中,是一个机会。目前,显然 AI 非常适合重复性、计算密集型的任务和决策,这些任务和决策直接从过去的数据中推导而来。人类做出的许多决策相对常规,适合算法处理。因此,AI 毫无疑问将在管理的许多领域发挥关键作用,特别是在重复性流程的领域,例如运营(Holmström 等人, 2019;Amaya 和 Holweg, 2024;关于金融的研究,参见 Eisfeldt 和 Schubert, 2024)。然而,有些决策是低频率且罕见的(Camuffo 等人, 2022),因此不适合 AI。在这里,我们预计人类将继续发挥核心作用,因为人类能够进行前瞻性理论化和超越现有数据的因果逻辑开发。当然,常规与非常规决策之间存在一个滑动尺度(以及接口)。即使在罕见且影响重大的决策制定中,AI 也可能发挥作用,或许可以作为一种额外的声音或在生成或考虑各种策略时的陪练伙伴。正如我们在本文中讨论的,AI 和人类各自有其优势和局限性。现有研究倾向于在相同的基准上比较 AI 和人类,而不是认识到各自的长处。研究 AI 和人类的比较能力——它们各自的长处、局限性和持续演变——为未来的研究提供了重要的机会。
第三,我们的论点指向了关于人类本质——尤其是人类认知的所谓计算性质——的更基础性问题。尽管关于认知本质的问题可能听起来过于抽象和哲学化,但它们至关重要,因为它们对我们所做的假设和所采用的方法有下游影响。在这里,我们呼应西蒙(Simon, 1985b, 第 303 页,强调为原文所加)的观点,他认为“没有什么比我们对人类本质的看法更重要,它决定了我们的研究议程和指导我们的研究方法,因为我们研究的是人类的行为。”那么,AI 和认知科学(进而扩展到经济学和战略领域)中关于人类认知的主导观点是什么?人类的主导观点是,他们是一种从事信息处理的输入-输出设备,类似于计算机。在本文中,我们指出了关于人类心智、大脑和认知的计算机隐喻的长期存在的问题。计算机已经成为人类认知的核心、组织性隐喻,从艾伦·图灵和赫伯特·西蒙的工作到现代人工神经网络、预测处理和贝叶斯大脑的实例,这种隐喻已经存在了超过七十年(例如 Knill 和 Pouget, 2004;Cosmides 和 Tooby, 2013;Kotseruba 和 Tsotsos, 2020;Russell 和 Norvig, 2022;Sun, 2023;Gigerenzer 和 Goldstein, 2024)。然而,对认知的通用计算方法并没有考虑到被研究生物体的比较性质,因为人类、生物体和机器都被视为相同的——不变的(参见 Simon, 1990;参见 Simon, 1980;Gershman 等人, 2015)。但认知存在显著差异,这些差异值得仔细关注。例如,计算机并不能有意义地决定哪些输入可能是相关的,哪些可能不是,也不能有意义地识别一个新的输入,而人类可以控制他们首先选择或生成哪些输入(Yin, 2020;Brembs, 2021;Felin 和 Koenderink, 2022)。正如我们所讨论的,人类认知是一种前瞻性理论化和因果推理的形式。请注意,我们并不是在这里试图为某种人类例外主义辩护,因为这些能力以不同的方式广泛存在于更广泛的生物有机体中(Riedl, 1984;参见 Popper, 1991)。研究使生物有机体和经济主体能够进行理论化、推理和实验的内生和比较因素,并比较各种形式的生物智能与人工和非生物形式的智能,存在重要的研究机会(参见 Levin, 2024)。将所有认知和智能视为通用计算,不必要地缩小了理论和实证工作的范围,并从根本上错过了智能在不同系统中表现出来的丰富和异质性方式。此外,生物和非生物智能形式之间的接口——正如人类在进化中使用技术和工具所表现出来的(Felin 和 Kauffman, 2023)——为未来的研究提供了令人兴奋的机会。
结论
在本文中,我们关注人工智能(AI)与人类之间的认知差异。尽管受 AI 启发的认知模型继续强调机器与人类之间的相似性,我们认为 AI 对预测(基于过去数据)的强调无法捕捉人类认知的本质;也就是说,它既无法解释新奇性或新知识的产生,也无法在不确定性决策中提供帮助。总体而言,我们承认 AI 与人类认知之间存在一定的相似性。但我们特别强调人类认知的前瞻性本质,以及基于理论的因果推理如何使人类能够干预世界、进行定向实验并发展新知识。异质性信念和理论——数据与信念的不对称性——使得人类能够识别或生成新数据(例如通过实验),而不仅仅是依赖于基于过去数据的预测。基于 AI 的计算模型必然建立在数据与信念的对称性之上。因此,AI 无法像大型语言模型(LLMs)所展示的那样因果性地映射、投射或预见未来。当然,我们的论点绝非否定或质疑 AI 领域内许多令人兴奋的发展。我们预计 AI 将帮助人类在许多领域做出更好的决策,尤其是在以常规和重复为特征的环境中。然而,不确定性决策——鉴于其对不可预测性、意外和新奇性的强调——提供了一个领域,这一领域并不容易适应基于数据或频率的预测以及相关的计算。因此,我们从根本上质疑 AI 将(或应该)取代人类决策的观点(例如,Kahneman, 2018)。我们认为,与计算机和 AI 相比,人类具有独特的认知能力,这些能力集中在前瞻性信念和理论化上:即从事新奇因果推理和实验的能力。
原文链接: https://pubsonline.informs.org/doi/full/10.1287/stsc.2024.0189
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.