![]()
当你走进医生的诊室,你会理所当然地认为:你的医生肯定接触过人体。他们学习过解剖学,观察过器官,也了解放射性疼痛和搏动性疼痛的区别。你会认为,他们掌握这些知识,不仅是通过阅读,更是通过多年的实践经验和专业训练积累而来。
现在想象一下,你发现这位医生从未接触过任何人体。他们只是阅读了数百万份病人报告,并极其细致地学习了诊断的典型“听起来”是什么样的。他们的解释仍然会让人信服,甚至感到安慰。语调恰当,用词无可挑剔,措辞也令人感到熟悉和安心。然而,一旦你了解到他们的知识实际上来源于文本模式而非与世界的接触,某些至关重要的东西就会瓦解。
每天,我们中的许多人都会求助于像 OpenAI 的 ChatGPT 这样的工具,以获取医疗建议、法律指导、心理分析、教育辅导,或是判断真假。在某种程度上,我们都知道这些大型语言模型(LLM)模仿的是一种它们实际上并不具备的世界观——即使它们的流畅性很容易让我们忘记这一点。
但是,语言逻辑模型(LLM)的推理过程是否与人类的判断力相似?或者它仅仅是生成推理的语言轮廓?作为一名研究人类判断力和信息动态的科学家,我最近与同事们着手研究这个出人意料地鲜为人知的问题。我们比较了LLM和人类在被要求对一系列心理学和神经科学领域研究了几十年的测试进行判断时的反应。我们并不期望这些系统像人类一样“思考”,但我们相信,了解它们与人类的实际差异,对于帮助人们评估如何以及何时使用这些工具至关重要。
在一项实验中,我们向50名普通民众和6名法学硕士展示了若干新闻来源,然后要求他们评估这些来源的可信度并解释其评估理由。以往的研究表明,当人们看到可疑的标题时,通常会发生以下几个过程。首先,人们会将标题与自己已有的认知进行比对:它是否符合基本事实、过往事件或个人经验。其次,读者会根据对新闻来源本身的预期进行判断,例如它是否来自一家以严谨报道著称的媒体,还是一家以夸大其词或带有偏见而闻名的媒体。第三,人们会思考该说法是否符合更广泛的事件链,是否真的有可能发生,以及它是否与类似情况的通常发展轨迹相符。
大型语言模型无法做到这一点。为了探究它们的运作方式,我们要求一些领先的模型按照特定流程评估新闻标题的可靠性。我们指示这些大型语言模型说明它们用来判断可信度的标准,并为最终判断提供理由。我们观察到,即使模型得出的结论与人类参与者相似,它们的理由也始终反映出从语言中提取的模式(例如,特定词语组合出现的频率以及出现的语境),而不是像人类那样参考外部事实、先前事件或经验。
在其他实验中,我们比较了人类和逻辑推理模型(LLM)在道德困境中的推理方式。人类在思考道德问题时,会运用规范、社会期望、情感反应以及受文化影响的关于伤害和公平的直觉。例如,人们在评价道德时,常常会运用因果推理。他们会考虑一个事件如何导致另一个事件,为什么时机很重要,以及如果过程中某些因素发生了改变,事情可能会如何发展。人们会通过反事实推理来设想各种情境,并提出这样的问题:“如果情况有所不同会怎样?”
我们发现,语言模型能够相当准确地重现这种思考方式:该模型提供的陈述反映了人们在谈论关怀、责任或权利时所使用的词汇。它会根据语言模式呈现因果关系,包括“如果……那么……”的反事实句。但重要的是,该模型实际上并没有进行任何想象或思考,而只是重现了人们谈论或书写这些反事实句时的模式。其结果听起来像是因果推理,但其背后的过程是模式补全,而非理解事件如何在现实世界中产生实际结果。
在我们研究的所有任务中,都出现了一种一致的模式。大型语言模型通常能够与人类的反应相匹配,但其原因与人类的推理方式截然不同。人类进行判断,模型进行关联;人类进行评估,模型进行预测;人类与世界互动,模型则与词语分布互动。它们的架构使其能够极其擅长重现文本中的模式,但却无法让它们接触到这些词语所指涉的世界。
然而,由于人类的判断也是通过语言表达的,模型给出的答案表面上往往与人类的答案非常相似。这种模型表面表现与实际表现之间的差距,正是我和我的同事们所说的“认知谬误”(epistemia):当知识的模拟在观察者看来与知识本身变得无法区分时,就会出现这种情况。认知谬误指的是人们在解读这些模型时存在的缺陷,即人们将语言上的合理性误认为是真理的替代品。这种情况的出现是因为模型表达流畅,而流畅性正是人类读者天生倾向于信任的东西。
这里的危险在于其微妙之处。主要问题不在于模型经常出错——人也会犯错。更深层次的问题在于,模型无法感知自身何时产生了幻觉,因为它根本无法表征真理。它无法形成信念,也无法修正信念,更无法用现实世界来检验其输出。它无法区分可靠和不可靠的断言,除非类比于先前的语言模式。简而言之,它无法做到判断的根本目的。
人们已经在法律、医学和心理学等需要区分似是而非和真相的领域中使用这些系统。模型可以生成一段听起来像是诊断、法律分析或道德论证的文字。但听起来像不像实质。模拟结果并非被模拟的对象。
这并非意味着应该摒弃大型语言模型。当它们被用作语言自动化引擎而非理解引擎时,它们的确是极其强大的工具。它们擅长构思、概括、重组和探索思想。但当我们要求它们进行判断时,我们便悄然改变了判断的本质——将其从思维与世界的关系转变为提示与概率分布的关系。
读者应该如何运用这些知识?不要畏惧这些系统,而应该努力更清晰地理解它们的能力和局限。记住,流畅并不等同于洞察力,雄辩也不代表理解。应该将大型语言模型视为复杂的语言工具,它们需要人类的监督,正是因为它们无法接触到最终决定判断的领域:现实世界本身。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.