约翰·劳克斯王沛然译｜欧盟《人工智能法案》下的人工智能民主治理：制度化不信任与人类监督|监督者|正当性|大模型

分享至

人类监督已成为人工智能治理的关键机制。通常认为，人类监督者可以提高人工智能系统的准确性、安全性，维护人类价值观，促进公众对该技术的信任。但实证研究表明，人类履行监督任务并不可靠，可能缺乏胜任能力或受到有害激励，这对人类监督的有效性构成挑战。对此，一是考察新兴的监督法律，尤其是欧盟《人工智能法案》。该法案虽关注人类监督者的胜任能力，但没有提供如何实现有效监督的指导，也未明确定义人工智能开发者的监督义务。二是提出一种新的分类方法，根据人类干预是构成抑或纠正人工智能决策，对人类监督的角色进行划分。该分类有助于针对相应监督类型形成提升其有效性的建议。三是借鉴民主理论研究，提出六项规范原则，使对人类监督的不信任上升为制度。不信任的制度化在民主治理中具有悠久的实践历史。这些原则首次应用于人工智能治理，预见了人类监督者的易犯错性，并试图在制度设计层面减轻这些错误，旨在直接提高人类监督的可信度，间接激发对人工智能治理的适当信任。

一、问题的提出

人类监督已成为人工智能治理的关键机制。欧盟委员会《人工智能法案》提案（以下简称AIA）第14条要求人工智能系统的设计和开发应使其能够“受到自然人的有效监督”。根据人类是参与系统的每一个决策，还是监控系统的整体运作，人类可能被置于人工智能系统“回路”的内部或外部。实施人类监督有多条理由。首先，人们通常认为人类可以提高人工智能系统的性能和安全性。其次，人类监督捍卫了合法性、问责制、尊严以及人类自主性和能动性等价值。根据AIA第14条第2款，保持人类参与旨在“预防或最小化健康、安全或基本权利的风险”，从而兼顾安全与价值考量。此外，AIA还增加了第三个理由：其总体目标是建立欧盟公民对人工智能的信任。虽然从经验上看，人们的信任可能与人工智能的安全性和对价值的影响相关，但从监管的角度来看，信任本身就是一个目标：如果人们信任一项技术，就更可能使用它，从而释放其经济和社会潜力。实证研究表明，如果告知公众有人类在“人机回路”当中，那么他们在一开始就会更加信任人工智能系统。然而，如果此人的监督不够有效，那么人们对人工智能系统的信任就并不妥当了，甚至可能有害其利益和福祉。

如何有效实现对人工智能的人类监督，是当前监管领域的重大问题之一。最近一项对人类监督政策的调查实证研究得出结论，人类大多无法履行指定的监督职能。研究表明，人类一方面过度依赖（“自动化偏见”），另一方面又过于低估算法建议（“算法厌恶”），并且在判断算法预测的准确性方面表现不佳。此类偏差的实证记录仍有待讨论。然而，在计算机系统设计中，通常要考虑何时最好将人类置于“回路之外”。在航空领域，出于安全考虑，人工操作已越来越受到限制，并逐渐被自动化取代。因此，通过法律命令人类监督并非化解人工智能风险的万灵药。若要使其有效，仍需仔细调校。

有观点认为，最好在制度设计层面解决人类监督的有效性挑战。笔者遵循这一思路，并为其增添了新的分析工具和设计原则，结合欧盟新兴的人工智能监管秩序展现其实践影响。在此过程中，本文旨在为人工智能治理的新兴研究作出三方面贡献。第一个贡献是分析性的。本文考察了欧盟新兴的人类监督法律，尤其是AIA。AIA是第一部全面处理人工智能风险的法律，可能会成为全球标准。笔者将其视为不断演变的监管格局的风向标，但不将其主张与AIA的特定规范捆绑在一起。下文将表明，AIA要求监督有效，但没有指出如何实现这种有效性，也没有明确定义人工智能开发者的监督义务。笔者在撰写本文时，欧盟理事会和欧洲议会都提出了对委员会提案的修正案。下文中，AIA指的是委员会的提案，“欧盟理事会版AIA”和“欧洲议会版AIA”则是指相应的修正案。

本文的第二个贡献也是分析性的。笔者提出了一种新的人类监督角色分类法，根据对人工智能系统决策输出的两种影响类型，区分为一级监督和二级监督。一级监督者对人工智能作出或支持的决策具有反事实影响。所谓反事实影响，即人工智能系统的初始输出可能因人类参与而有所不同。一级监督者通常是受到人工智能预测或建议支持的本地决策者。二级监督者距离相应的本地决策更远一步，履行复核或审计职责。他们对初始决策输出没有反事实影响，而是对其进行纠正。简言之，一级监督者通常会参与人工智能支持的决策过程中，二级监督者则在事后采取行动，例如检查系统日志。这两类监督者都面临能力不足和错误激励的挑战。两种类型的监督和两个挑战创造了一个包含四个不同关注领域的二乘二矩阵。该分类法使得针对相应监督类型提出量身定制的解决方案成为可能，以解决有效性问题。

本文的第三个贡献是理论性的。笔者提出了一个新建议，即利用“制度化不信任”来处理上述四个关注领域。民主理论研究提出“在民主架构中制度化不信任”可以提供一种治理秩序，让公众得以建立适当信任。什托姆普卡称之为“民主的悖论”：正是由于民主的基本原则意味着某种程度的制度化不信任，才让政府语境下的信任得以生成。将其应用于人工智能治理，意味着应当基于对人类监督者能力和动机的不信任来针对其角色进行相应制度设计。这将有利于培养对人工智能系统的适当信任（而非天真的信任）。本文提出了六项原则，以此使对人类监督的不信任上升为制度：正当性、定期轮换、集体决策、机构权力有限性、可诉性和问责制、透明度。本文提出的原则首先适用于公共机构，但仍与私营部门的人工智能治理密切相关。当然，人类监督的制度化不信任并不能保证无风险的人工智能系统。相反，它着眼于提供一个总体框架，让实施可信人类监督得以可能。

最后要说明的是，“人工智能”一词在本文中并非特定的技术理解，而是遵循欧洲议会版AIA第3条的定义，即“旨在以不同程度自主性运行的机器系统，能够生成预测、建议或决策等输出，从而影响物理或虚拟环境”。

二、正在兴起的监督法律

AIA第14条第1款明确要求在高风险人工智能系统投放市场之前，对其进行有效的人类监督。AIA第29条规定，实施人类监督措施是高风险人工智能用户的义务。这实质上不仅仅是名义上的人类参与，而且提高了欧盟数据保护法的现有标准。《通用数据保护条例》（以下简称GDPR）第22条第1款赋予数据主体在未经同意的情况下不受“完全”自动化决策约束的权利。对“完全”自动化决策的狭隘关注已招致一些中肯的批评。首先，在没有任何人类参与的情况下作出决策的人工智能系统可能仍是罕见情况，由此大大缩小了GDPR第22条的适用范围。通常，人工智能通过提供预测信息来协助人类，增强后者的决策能力。例如，如果录取决定最终是人类作出，那么在学生录取中使用的人工智能推荐系统将被排除在GDPR第22条范围之外。其次，倘若即便是名义上的人类参与也足以将人工智能系统排除在GDpR第22条范围之外，那么就存在人类仅仅“橡皮图章式”确认人工智能决定而没有任何实质性监督的风险。因此，“第29条数据保护工作组”强调，数据控制者“必须确保对决策的任何监督都是有意义的，而不仅仅是一种象征性的姿态”。

相比之下，AIA第14条的包容性更强，其适用范围不区分人类参与的程度，因此也涵盖了推荐系统。然而，AIA第14条仅在人工智能系统被认定为“高风险”时方得适用（根据AIA第6条和AIA附件III）。此外，欧盟委员会的AIA提案并未明确何时以及如何要求人类监督。直觉上，可能会有观点主张监督是与系统的实际运行相关，而不涉及开发阶段。

定义人类监督的范围对于划分人工智能提供者和用户／部署者之间的义务至关重要。通常，人类可能在人工智能系统的整个生命周期中影响其决策输出，即在人工智能系统投入使用之前、期间或事后。AIA第14条第1款规定，自然人必须在“人工智能系统使用期间”对高风险人工智能系统进行监督。欧洲议会版AIA第14条第1款补充道，“事故发生后必须进行彻底调查”。这表明，人类监督的时间范围始于人工智能系统投入使用时，并可能在事故已发生、系统关闭后进行追溯。然而，AIA第14条第3款规定，人类监督措施应在高风险人工智能系统投放市场或投入使用之前由提供者（即开发者）“识别”并（如果可能）“内置”到人工智能系统中。AIA第29条第2款提到用户“实施”提供者“指明”的监督措施。这确立了开发者（提供可监督的人工智能）和用户／部署者（执行监督）之间的共同责任。此外，人工智能系统在使用过程中通常会继续迭代演化。它们可能使用不同的数据重新训练，或者整合吸纳用户反馈。这又可能意味着从人工智能部署阶段回到了开发阶段。在不断学习和变化的人工智能系统中，其开发者和用户之间的区别变得模糊。这项技术是动态交付的，而不是静态产品或“一次性服务”。这表明，AIA第14条的时间范围原则上应保持开放，以涵盖人工智能生命周期的所有主要阶段，包括设计和开发阶段。监督责任应根据具体情况落在人工智能开发者身上，在需要填补监督空白时予以实施。

此外，AIA第14条没有提供太多关于如何使人类监督有效或有意义的信息。AIA第14条第3款和第4款概述了一些旨在使人类监督者能够监控和干预人工智能决策的系统设计措施。负责监督的人员必须能够“理解人工智能系统的能力和局限性”，持续对“自动化偏见”进行识别，能够“正确解释”人工智能系统的输出，能够决定不使用人工智能系统或“忽略、推翻或撤销”其决策，并“中断”系统的运行（AIA第14条第4款）。欧洲议会版AIA第14条第4款第e项补充道，如果“增加风险或对性能产生负面影响”，人类不应干预人工智能系统。AIA前言第48条补充道，人类监督者必须“具备履行该角色所需的胜任能力、培训经历和权限”。欧盟理事会版AIA第29条第1款第a项几乎逐字重复了AIA前言第48条中的观点。欧洲议会版AIA第14条第1款补充道，人类监督者应具有“足够的人工智能素养”和“必要的支持和权限”。“人工智能素养”一词已被议会在新的第4b条中添加。其定义模糊，被解读为对“人工智能系统及其功能的基本概念和技能的理解，包括不同类型的产品、用途、风险和益处”（欧洲议会版AIA第14b条第3款）。欧洲议会版AIA第29条第1a款第ii项规定，人类监督者必须“胜任、具备资格和训练有素，并拥有必要的资源，以确保对人工智能系统的有效监督”。总之，AIA要求人类监督者具备足够的能力和权限来干预人工智能系统。它没有明确规定那些负责执行AIA第14条职能的个人必须具备哪些确切资格（更不用说认证）。对于像《人工智能法案》这样的横向法律，在缺乏现有的有效监督标准的情况下，这可能已经是目前力所能及之处了。

AIA中的要求没有进一步明确人类监督是否可以由人工智能增强，以及如果可以，能增强到何种程度。考虑到在审核复杂的人工智能系统时人类能力面临的可预见挑战，某种形式的混合智能可能对实现有效人工智能监督而言是必要的。若仅考虑为解释人工智能模型而开发的众多方法，其中一些方法本身就可能属于“人工智能”的监管定义。至少对于高风险系统而言，AIA第14条第4款第d项和第e项表明，为了使人类监督“有效”，人类（而非机器）必须对结果拥有最终权威，并能够推翻人工智能的决定或建议。

是否允许人工推翻自动化决策，很难在抽象层面上确定。即使在具体领域内，选择也并非总是明确。以航空为例，一些航空制造商实施了“硬自动化”，其自动飞行系统可以覆盖人工输入以防止人为错误。其他制造商则选择“软自动化”，允许人工操作员推翻自动化建议或决策。与软自动化相比，根据AIA第14条第4款，硬自动化乍一看更难与“有效”的人类监督相协调。然而，由于AIA中的人类监督理由承认了安全考虑，在复杂人工智能系统的决策链中，某些步骤采用硬自动化可能与AIA第14条第4款相容，尤其是如果议会修正案最终成为法律的话。

最后，技术标准将在定义人类监督的功能和方法方面发挥作用。2023年5月，欧盟委员会向欧洲标准化委员会（CEN）和欧洲电工标准化委员会（CENELEC）提交了标准化请求，其中包括“规定人类监督的措施和程序”的标准。与此同时，国际标准化机构已经开始制定人工智能标准。截至2023年8月，国际标准化组织第42分委员会已发布20项人工智能标准，包括技术报告和技术规范。到目前为止，已发布的标准没有提供关于如何实施有效人工智能人类监督的进一步信息。（“人工智能可信度概述”）ISO／IECTR24028仅强调了拥有能力和自主权干预最终决策过程的人类决策者的重要性。（“道德和社会问题概述”）ISO／IECTR24368要求高风险人工智能系统“有一名具备合格资质的人员参与其中，以授权自动化决策”。

总之，迄今为止，新兴的人类监督监管体系要求人类监督者有能力并被授权干预乃至推翻人工智能系统，但没有进一步指导需要哪些能力（除了对人工智能素养的模糊描述）。未来的技术标准有望提供最佳实践、措施和程序。因此，人工智能系统的开发者和用户在决定如何制度化实施其人类监督义务时，将拥有广泛的自由裁量空间。虽然许多制度设计选择将取决于人工智能系统的本地特征，但本文讨论了与大多数人工智能监督系统相关的制度设计问题。作为这种横向方法的第一步，下文将介绍一种新的人类监督角色分类方法。

三、一级人类监督与二级人类监督

笔者根据人类监督者是否对人工智能系统的决策结果具有反事实影响，对他们的角色进行类型划分。所谓反事实影响，即由于人类的参与，人工智能系统的初始输出可能会有所不同。若没有反事实影响，人类只能在初始输出产生后介入纠正和逆转其决策。

广义而言，人工智能系统可以是完全自动化或部分自动化的。在部分自动化系统中，人工智能通常会为专业人员提供决策支持。例如，在医疗保健领域，人工智能可以提供诊断预测和治疗建议。在刑事程序中，法官可能会运用算法对被告人进行风险评估。至少在形式上，最终决定权仍然掌握在医疗或司法专业人士手中。根据阿格拉瓦尔等人的区分，在这种系统中，人工智能提供预测，而人类负责判断，即决定人工智能预测结果的重要性或价值。抛开有效性问题不谈，在提供决策支持的部分自动化人工智能系统中，由于人类仍然参与最终决策，因而构成人类监督。此外，部分自动化系统中的人类通常会有反事实影响：决策输出将取决于他们对人工智能预测的判断。由此，人类监督构成了结果的组成部分。我们将这种情况称为“一级人类监督”。

一级监督者可以是医生和法官等专家，也可以是接受过轻度到中度培训的专业人员。例如，在Meta，对违反内容政策的帖子进行删除的操作似乎在很大程度上是自动化的，只有少数帖子会交由人工内容审核员进行审核——在这种情形中，自动化内容审核遗漏了本应该标记和删除的内容，需要人工介入。4将内容标记以供进一步的人工审核是机器学习的一个主要用例：由于人工内容审核无法轻易扩展以满足内容托管公司的需求，机器学习系统会预先选择一小部分内容供人工审核。只要内容审核员的判断对删除（或保留）帖子的初始决定起到构成作用，他们的参与就可以认定为一级监督。

即使在完全自动化人工智能系统中，人类仍然会影响决策输出。构建人工智能模型并为其预测或分类制定基准的行为，对人工智能输出具有反事实影响。想象一下人工智能开发人员设置阈值分数，例如无人驾驶汽车应该何时刹车，或者信用卡支付应该何时被拒绝。信用卡支付因盗刷被拒绝的概率阈值将决定会有多少交易被取消。一旦设置好阈值的完全自动化系统投入使用，就不再需要人工判断，任何超过阈值的交易都会自动被取消。但是，这些取消的基准是人类关于阈值分数的判断。除了金融业，在线广告是另一个已经广泛实施完全自动化的领域。

对于完全自动化系统，在逻辑上只有两个时间点可以执行人类监督：在人工智能系统实施之前和它作出决定之后。然而，如果在决定作出后介入，人类对人工智能的初始决策输出就没有反事实影响。我们可以将这些情况称为“二级人类监督”。二级监督不是构成性的，而是对人工智能决策输出的纠正。对于完全自动化系统，GDpR第22条第3款提到了这种二级监督，涉及数据主体的异议权和获得人工干预的权利。二级监督并不仅限于完全自动化系统。人工复核权也可能与部分自动化系统相关。AIA适用于完全自动化和部分自动化系统，并设想可以通过第三方审计来评估其合规性。此外，欧洲议会版AIA第14(1)条要求，高风险人工智能系统的设计必须至少允许事后的“彻底调查”。复核和审计是二级监督的形式，因为人类监督者不直接参与人工智能或由人工智能支持的决策过程。他们与该流程相差一步，对系统的初始输出没有反事实影响。

Meta的二级监督可能还具有分层结构。在Meta，上述通过人工内容审核员进行的一级监督本身就由所谓的监督委员会监督。监督委员会为Meta旗下的Facebook和Instagram上作出的内容审核决定提供申诉流程。例如，2022年，监督委员会决定恢复一个之前被该公司部分自动化内容删除系统删除的帖子。

一级监督和二级监督之间的区别为“有意义”监督的规范性要求增添了分析深度。之前已有观点指出，有意义的监督要求某人有“改变决定的权威和能力”或有“推翻人工智能决定或建议的能力”。然而，改变或推翻人工智能输出可能会产生不同的规范性后果，这取决于它对决定是构成性的抑或纠正性的。这可能在确定谁对损害负责方面具有重要影响。

从新兴的监督法来看，上述分类方法引出了两个问题。首先，人工智能开发者是否有资格成为一级监督者？根据分析，开发者通常会对系统的输出产生反事实影响，例如确定分类阈值或工作流程。对于部分自动化系统，这个问题可能不如完全自动化系统那么具有决定性，因为在完全自动化系统中，开发者的判断构成了决策中大部分（或全部）人工输入。从法律上讲，AIA第14条设想在开发者和用户／部署者之间分担责任，开发者使人工智能可被监督，而用户／部署者执行监督。对于完全自动化系统，用户执行人类监督可能仅限于中断系统（即按下“停止按钮”）以避免危害。如果这足以满足AIA第14条的要求，那么人类监督将只是一个非常薄弱的要求。根据本文提出的反事实影响标准，如果人工智能模型的动态演变使得用户监督在很大程度上失去实效，那么一部分监督义务就应由人工智能开发者承担。

其次，二级监督是否属于AIA第14条的范围？目前必须保持开放态度。如果欧洲议会提出的修正案获得通过，在高风险人工智能系统投放市场之前，必须确保事后调查的可行性。除了AIA，GDPR第22条的复核权保证了对完全自动化人工智能决策的二级监督。表1呈现了两种人类监督的二维矩阵，其中人工智能开发由星号标记，表示需要根据具体情况决定是否将其纳入其中。

四、人类监督面临的两大挑战

与所有人一样，监督者也可能犯错误。如果人类在监督人工智能方面系统性地失败，人类监督作为一种治理机制就可能带来虚假的安全感。目前还没有对人类监督者可靠性的总体评估或预测。以“自动化偏见”和“算法厌恶”为例，这是人类表现出的两种对人工智能相反的反应。

当人们偏好人类预测而不是算法预测时，即使算法被证明更准确，也会出现算法厌恶。这种厌恶不仅出现在普通人身上，也出现在专家身上。自动化偏见则可能导致人们高估人工智能在性能方面的准确性和一致性。研究表明，当外行人士认为建议是来自算法而非人类时，他们更容易接受建议。当人们必须在算法的建议和他们自己的判断之间作出选择，以及当他们在该领域具备专业知识时，这种偏向算法的效应就会减弱。应用于人类监督，这表明相较于专家型监督者，未经训练的监督者可能更容易受到自动化偏见的影响，听从算法的预测。如果必须在人工智能的预测和（一级）人类的预测之间作出选择，未经训练的二级监督者可能比未经训练的一级监督者受到更大影响。专家型人类监督者可能会因过度依赖自己的判断而不是算法的建议而损害他们的准确性。

关键在于，即使有了简化的监督角色分类法，就这些偏见如何影响一级或二级监督者而言，我们也可以调整相应预期。在这个抽象层次上，这可能已经是最好的结果了。在广泛的应用范围内对人工智能技术的概括性评估很可能无法实现。因此，有必要对局部用例进行调查，并测试上述提到的认知偏见及其对特定人工智能系统人类监督的影响。

人类监督者还可能缺乏理解人工智能系统运作所需的适当训练。一般而言，引入一种新的人工智能系统通常是因为人工智能在某项任务上优于人类。加上前述关于自动化偏见的实证研究，有人认为监督自动化系统对人类来说是不可能完成的任务。这至少提高了人类干预人工智能系统以提高其可靠性的认知门槛。同样，有学者怀疑，额外的培训是否真的能缓解人类与人工智能在预期平均决策质量方面的差距，至少在某些参数上是如此。我们称之为能力不足的挑战：人类可能缺乏有效监督人工智能系统的技能和认知上的完备性。

另一个挑战源于激励结构。人类监督者可能缺乏时间去作出一个不完全基于人工智能预测的判断。有些人可能只是因为任务感到疲倦和无聊。财务或商业激励以及自身利益同样可能导致质量低下的结果。随着大型科技公司主导人工智能的发展，审计人员为了重复获得审计委托，存在被行业利益俘获的风险。制度设计的目标是消除对有意义的人类监督的障碍，并防止权力滥用。因此，必须考虑人类监督者的动机（激励）并限制他们造成损害的能力。一级和二级监督者可能面临结构上不同的激励环境，尤其是考虑到他们在组织内外的不同地位。因此，我们可以对之前的二维矩阵进行如下调整，其中字母A至D表示下一章中解决需关注的领域：

五、在人工智能监督中将不信任制度化

为使其可信，人类对人工智能的监督必须解决上述缺乏能力和错误激励的挑战。本文建议通过明确构建人工智能监督的民主治理架构，将对人类监督的不信任上升为制度，以解决上述两个问题。民主理论的一个悠久传统是优化制度设计，以防止公共决策者的能力和动机偏离正轨。理论家们反复强调，不信任有利于民主及其制度的设计。这并不意味着公民对民主制度的实际不信任是有利的。相反，不信任的视角可以帮助我们创造值得信任的制度，反过来又激发公众对民主的信任。

本章旨在表明，基于不信任的视角推导出人类监督制度设计原则，可以为人工智能治理作出积极贡献。下文概述的原则主要是针对公共部门的人工智能系统，但也可能与私营部门的人工智能应用产生共鸣。

什托姆普卡描述了民主如何有助于产生“信任文化”——“正是由于不信任在民主架构中的制度化”。民主原则为“那些愿意冒险托付信任的人提供了后备支撑或者保险”。虽然什托姆普卡谈的是整个治理体系的信任，但在人工智能监督中制度化不信任是在一个更为具体的领域内展开的。人类监督是人工智能治理的众多机制之一。同时，人工智能治理和监督可以影响更广泛的制度环境。当一个公共机构使用一个新的人工智能系统时，这可以改变其感知到的可信度，以及其使公民对其行动产生信任的过程。

什托姆普卡考虑的是一种特定形式的信任。他的“信任文化”是人类群体的一种经验特征，既不是个人的心理倾向，也不是对受托者值得信任程度的理性计算。总的来说，信任研究很难在学科之间甚至在同一学科内进行比较，因为信任的概念差异很大。因此，将什托姆普卡关于制度化不信任的概念应用到人工智能治理需要进行一些调整。首先，我们可以区分可信程度的规范性解释和公众信任的经验性衡量。对规范上不太值得信赖的事物给予过多信任是不合理的，并且可能是天真的。其次，实证研究表明，对制度的信任通常是解释对AI等技术产生信任的一个重要变量。AIA提出了一个发展“可信人工智能”的监管框架。由于（实然的）信任不能通过命令凭空创造，因此表明（应然的）可信度是最具前景的选项，以实现在欧盟广泛采用人工智能所需信任水平的既定目标。因此，实现对不信任的制度化意味着提高治理体系的可信度，正如什托姆普卡所言，为建立实际而正当的信任创造机会。因此，对不信任的制度化在人工智能监督中旨在提高人工智能治理的可信度，并支持公众对人工智能系统产生正当的信任。

那么，哪些民主原则体现了对不信任的制度化呢？什托姆普卡认为至少有12项：正当性、换届选举、少数服从多数和集体决策、权力制衡和机构权力有限性、法治、立宪主义和司法审查、诉讼、正当程序、公民权利、法律实施、普遍主义和公平、开放沟通。对于人工智能人类监督这一具体领域，这些原则可以进一步浓缩为下文所阐释的内容。

借鉴什托姆普卡的工作，本文提出六项原则，用于解决表2中A—D所对应的人类监督挑战。

公共权力需要正当性来支撑其合法性。大多数理论家认为，投票和公共审议等民主程序可以将合法权力授予公职人员。除了回答谁应拥有权力这一道德问题外，正当性还有制度之维。依据分配给公共机构及其官员的不同职责，（专业）能力是阐明公众期望的一种方式。因此，人工智能人类监督者能力的缺失会对制度层面的正当性产生影响。正当性原则直接适用于公共机构的人工智能监督和公共服务的供给。然而，算法问责制的研究认为，正当性的需求也扩展至私人机构，因为自动决策系统的设计、操作和结果必须面向所有决策所涉对象进行正当化。

有学者最近建议，应要求公共机构报告说明实施算法决策系统的理由。此外，无论提出何种形式的人类监督，其功能都需要有经验证据的支持。如果缺乏这种证据，则应通过“人机协作的实验性评估”来获取。换句话说，其主张要求提供人类监督能力的证明，以证实在政府中使用人工智能是正当的。

这种方法在很大程度上值得肯定，至少在有可行基准的情况下是如此。虽然避免死亡和伤害应当是无可争议的安全基准，但要证明人类监督者在保护基本权利方面达到令人满意的程度，可能仍存在不确定性。这需要就什么是良好的规范性结果达成一致，例如算法决策的公平性。因此，对人工智能使用及其监督的书面证明方法必须谨慎，以免造成规范确定性的错觉。

新兴的监督法律确证了正当性的制度之维。如前所示，AIA要求人类监督者具备胜任能力（或“人工智能素养”）、训练有素，并有足够的权限干预人工智能系统。然而，将实证测试人类监督有效性的做法解释为AIA提案的要求，可能过于激进。当然，这并不意味着这种测试不利于满足正当性原则。

就表2而言，正当性在制度层面直接涉及A、B领域。无论一级和二级监督者在特定人工智能系统中的绩效标准如何，他们都必须可靠地执行自己的任务。需要注意的是，一级和二级监督者可能需要不同的专业能力。一名与人工智能系统合作为患者寻找最佳治疗方案的医生，显然既要具备医疗能力，也要具备与医疗人工智能互动的能力。一名医院人工智能系统的审计人员却不一定需要完整的医学教育背景，而是需要经历高级统计学培训，以检测治疗建议中的偏差。

错误的激励同样会妨碍人类监督的有效性，因而关系到正当性的制度之维（c和D领域）。例如，外部激励结构或内在动机如何影响人类监督者的表现，仍待进一步研究。因此，正当性原则的启发是对人类监督的行为因素进行实证测试。

AIA要求人工智能系统提供商通过内部控制或第三方审计（“第三方指定机构”）来评估合规性。人工智能开发商将能够选择自己的审计师，实施审计师轮换制度可以保护审计师免受开发商利益影响，从而提升其公正性。在一个由特别强大的市场参与者主导的人工智能经济中，外部审计师（即二级人类监督者）可能会为了获得重复委托而迎合客户的需求。

但与此同时，定期轮换可能会削弱审计师的能力，因为他们需要获得诊查人工智能系统的技能和经验。因此，制度设计必须在原则之间权衡取舍。正当性原则要求胜任能力，但定期轮换原则可能削弱之。这要求人工智能治理在两者之间寻求平衡，例如引入一定的轮换，同时要求一定的最低能力门槛。因此，定期轮换原则主要是解决D领域的问题，但可能对B领域产生不利影响。

集体决策原则假定某些决策者可能存在有害动机。正如布莱斯维特所言：“当我们以12名公民而不是1名公民作为陪审团时，我们就通过人数来将对某些陪审员可能受贿的不信任进行了制度化。”AIA第14条第5款规定，对于附件III第1条第a项提及的高风险人工智能系统，行动决定需要“由至少2名自然人核实和确认”。这里涉及的人工智能系统是用于自然人远程生物识别的。关于其理由和范围，该条款留下了许多悬而未决的问题，因为它没有说明为什么对于生物识别，2名人类监督者比1名更好。我们可以将其重构为一种制度设计选择，以防止错误激励妨碍对生物识别系统的有效监督。

从积极角度来看，集体可能改善决策。群体可以通过多样性提高其认知能力。如果我们汇总成员的判断，个人偏见可能会相互抵消。通过增加具有不同生活经历和解决问题认知技能的成员，给定有利条件，三个臭皮匠也可能赛过诸葛亮。例如，在内容审查中，有通过众包来利用多样性的尝试。Meta的监督委员会“包括来自不同文化和专业背景的成员”，从而增加了其五人小组在审查和裁决案件时的认知多样性。如果AIA第14条第5款旨在通过集体决策来提高监督能力，它应该增加第3名成员，因为两人小组几乎总是太小，无法综合其成员的判断以获得认知收益。

集体决策需要借助社会选择理论。群体决策可能会出现级联或循环。群体可能会两极化或放大成员的个人错误，而非纠正它们。因此，集体决策需要精心设计的决策规则，例如究竟是多数决还是一致决，是汇总意见综合判断还是就结果进行辩论协商。因此，通过集体决策提高能力并非必然结果，这就是笔者对A和B领域标记了星号的原因。

正如什托姆普卡写道，限制机构的权限“意味着对机构将倾向于扩张、垄断决策、滥用权力的怀疑”。权力的分置是将不信任制度化的最古老原则之一。

在分层的人类监督结构中，二级监督者对一级监督者进行制衡。国家主管部门（AIA第59条）和第三方指定机构（AIA第33条）可能试图扩大其在AIA下的权力。在人工智能治理中，一个机构扩张权限的能力很可能取决于其技术能力和对人工智能技术的理解。一个监督机构越能够展现出其技术能力，越能够满足其受众的利益，其他机构就越可能倾向于遵从其决定。AIA第37条为质疑第三方指定机构资格提供了一个结构化程序。然而，这一程序实现的是正当性原则：合法权威要求专业胜任能力，而限制有能力的机构的权力并将决策权重新分配给胜任能力较低的机构，面临着正当性障碍。

因此，人工智能治理将受益于建立具有相对技术能力水平的二级监督机构，允许在二级监督者之间进行垂直控制。允许监督提供者之间进行竞争的基于市场的解决方案可能会奏效。再次借鉴航空领域，软自动化与硬自动化的不同设计方法是由两个市场竞争对手开发的：空客（硬自动化）和波音（软自动化）在开发最佳方法上相互竞争。鉴于此，限制机构的权限主要解决D领域的问题。如果监督提供者之间的竞争是基于能力进行的，则可能对B领域产生积极影响（因而用星号标记）。

在民主国家，个人权利使公民能够将私人和公共机构（以及其他公民）告上法庭，以主张其正当诉求。AIA提案因未包括个人质疑自动化决定并寻求补救的程序性权利而受到批评。因此，欧盟理事会和欧洲议会都提议纳入个人向国家监管机构提出申诉的权利（欧盟理事会版AIA第63条第11款；欧洲议会版AIA第68a条）。根据AIA的最终措辞，受人工智能系统不利影响的个人可能会要求无效的人类监督者承担责任。

通过二级监督提起申诉是另一条问责途径。AIA第45条要求成员国“确保对第三方指定机构的决定提供申诉程序，供该决定涉及的合法利益相关方使用”。界定“合法利益”的范围可能成为一个争议问题。但申诉作为一种制度措施仍是人工智能治理结构中的宝贵补充。如前所述，Meta已在其私人机构中设置了一个申诉机构——监督委员会。

我们还可以考虑是否应引入针对人类监督者的责任索赔制度，这在现有的行业法规中尚不存在。医生等一级监督者已经受到过失和不端行为制度的约束。申诉程序和责任制度可以在一级或二级人类监督因故意或过失而失效时进行干预。在这方面，欧盟委员会2022年新提出的《人工智能责任指令》（AILD）和修订的《产品责任指令》（pLD）具有重要意义。然而，在其当前的草案版本中，AILD提案似乎不适用于人类监督者在人工智能输出和损害之间进行干预的情况。

虽然对一级监督决定的申诉自然涉及A和C领域，但责任制度可以针对二级和一级监督者，从而涵盖从A到D的所有关注领域。为使其有效，决策所涉对象通常需要获得人类监督设计和运作的理由和解释。否则，他们将缺乏关于人类监督者何时、为何以及如何未能完成任务的信息。因此，可诉性和问责制原则依赖于正当性原则的实施，以及根据下面介绍的透明度原则所披露的信息。

透明度制度能激发信任。O1I3自动化决策系统长期以来一直与不透明和“黑箱”决策联系在一起。目前，可解释的人工智能和算法透明度已成为人工智能治理的关键机制，得到政策制定者和学界的拥护。人工智能的代码、数据和开发过程的透明度是人类有效监督的必要条件。但就本文而言，问题在于，人类监督本身应该有多透明？

首先，需要明确人类参与是真实的还是仅仅是表面上的。人工智能部署者有动机创造“人机回路”的假象，以避免流失某些用户。例如，聊天机器人可能模仿人类交谈的方式，包括停顿和习惯动作，以避免给人完全自动化的印象。因此，利用模仿人类的人工智能来操纵人类信任的风险是客观存在的。如前所述，如果告知有人类参与人机循环之中，人们会更加信任该人工智能系统。自动化辅助设备如果给人以人性化的印象，人们会认为其更值得信赖。

其次，如果人类监督本身在某种程度上依赖于人工智能，那么这一事实也应该被披露。此外，用于人工智能辅助监督的方法和数据也应该透明化。同样，正当性原则所建议的人类监督者绩效实证测试结果，也应公开共享，特别是涉及公共部门使用人工智能时。人类监督实践的设计和运作也应公之于众。

最后，透明度需要的不仅仅是提供信息。如果公众应当信任人类监督，那么关于其程序和绩效的透明信息就需要让普通公民易于理解。由此，透明度原则有助于缓解一级和二级人类监督者的能力挑战和激励问题。

综上所述，制度化不信任的六项原则处理了本文确定的所有关注领域。这些原则相互关联。它们可以相互强化，如透明度原则和正当性原则；也可能相互冲突，如定期轮换可以帮助防止监督者追求有害目标，但也可能阻碍正当性原则所要求的能力。因此，在实现所有原则时，必须进行权衡和进一步的规范性抉择。此外，还有一个基准问题，即监督角色的制度设计应实现何种目标。究竟是根据其“阻止预防”良好结果的能力来从负面评估人类监督，如通过消除决策中的偏见等扭曲因素；还是根据其产生良好结果的能力（如通过集体决策增强能力）来积极评估它？积极方法需要知道或决定何为好结果。对于安全这一理由而言，可接受的基准可能更容易达成共识，而就公平性等价值判断达成一致则较为困难。

表3 六项原则的预期效应

表3概述了每项原则对每个关注领域的预期效应。虽然所有适用的原则都积极解决了C和D（一级和二级监督者的错误激励），但它们对A和B领域（一级和二级监督者缺乏能力）的影响似乎不太确定。在最坏的情况下，引入定期轮换制可能会对能力产生负面影响。此外，这六项原则对一级和二级监督者的影响没有差别。考虑到本文的一般性，这也在意料之中。在特定人工智能系统的本地层面，这两类监督者的影响可能会有所不同。定期轮换原则和机构权力有限原则仅适用于二级监督。

结论

利用不信任来设计制度在民主理论中有着悠久的传统，将其应用于对人工智能的人类监督，可以使人工智能治理更值得信赖。并且，根据什托姆普卡的民主悖论，这将激发人们对人工智能的适当信任。本文提出的原则为在局部人工智能系统中实施可信人类监督提供了框架。AIA第14条等横向规定通常只能提供一般性要求，例如监督必须有效。正当性原则已经表明，明显无效的监督是不值得信任的。AIA下的标准化应强制披露人类监督者绩效的信息。其他五项原则通常会通过提高胜任能力或限制错误激励的影响来提高监督的有效性。

此外，本文对AIA的分析表明，人类监督是人工智能开发者和用户共同的责任。执行监督的义务主要落在用户身上，但对于持续学习的人工智能系统，还应根据具体情况决定是否包含开发者。本文提出的监督角色分类，有助于针对不同类型的监督提出改进有效性的建议。具体规范可以根据监督是否构成或纠正人工智能的输出来进行调整。到目前为止，新兴的监督法律还没有彻底区分这些监督的类型。

最后，人工智能系统似乎日益将人类自由裁量权置于审查之下，迫使人们为自己的表现辩护，以与自动化决策的度量结果相抗衡。本文提出的制度化不信任原则旨在推动一种基于绩效的人机比较体系。但人类监督的本质在于维持人类对技术的控制权。因此，将人类监督者能力和动机的不信任制度化，其目的仅在于防止最坏后果并提升监督者的绩效，而非为消除人类控制提供论据。

牛英豪｜区域环境横向立法统一的逻辑研究

王雨彬｜监察法中适用证据困境及解决路径

目录｜《上海法学研究》2024总第12卷

迪克·施陶登迈尔鲍伊帆译｜人工智能责任——欧洲私法对数字化的侵权法适应

迪米特里奥斯·利纳达托斯赵诗文译｜在民法案例研究中的人工智能

约纳森·阿贝尔等｜生成式解释

上海市法学会官网

http://www.sls.org.cn

特别声明：本文经上观新闻客户端的“上观号”入驻单位授权发布，仅代表该入驻单位观点，“上观新闻”仅为信息发布平台，如您认为发布内容侵犯您的相关权益，请联系删除!

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.