可信AI：从原则到实践|算法|鲁棒性|工作流|大模型|人工智能|神经网络

分享至

Trustworthy AI: From Principles to Practices

可信AI：从原则到实践

https://dl.acm.org/doi/epdf/10.1145/3555803

人工智能（AI）技术的快速发展已经使得各种基于AI的系统得以部署。然而，许多当前的AI系统被发现容易受到不可察觉攻击的影响、对代表性不足的群体存在偏见、缺乏用户隐私保护。这些缺陷降低了用户体验，并侵蚀了人们对所有AI系统的信任。在本综述中，我们为AI从业者提供了一个构建可信AI系统的全面指南。我们首先介绍AI可信性的重要方面的理论框架，包括鲁棒性、泛化能力、可解释性、透明度、可重复性、公平性、隐私保护以及问责制。为了统一当前可用但碎片化的可信AI方法，我们将它们组织成一个系统化的方法，该方法考虑AI系统的整个生命周期，从数据获取到模型开发，再到系统开发和部署，最终到持续监测和治理。在这个框架中，我们为从业者和利益相关者（例如研究人员、工程师和监管者）提供了具体的行动项，以提升AI的可信性。最后，我们指出了可信AI系统未来发展的关键机遇和挑战，其中我们强调了向全面可信AI系统进行范式转变的必要性。

CCS 概念：• 计算方法论 → 人工智能；机器学习；• 一般与参考 → 综述和概述；

附加关键词和短语：可信AI、鲁棒性、泛化能力、可解释性、透明度、可重复性、公平性、隐私保护、问责制

1 引言

人工智能（AI）的快速发展持续为社会带来显著的经济和社会效益。随着AI在交通、金融、医疗、安全和娱乐等领域的广泛应用，社会越来越意识到这些系统需要值得信赖。这是因为，鉴于这些AI系统的普遍性，利益相关者的信任一旦被破坏，可能会导致严重的社会后果。这种信任的破坏可能包括自动化系统在招聘和贷款决策中的偏见处理[49, 146]，甚至可能导致人类生命的丧失[52]。相比之下，AI从业者，包括研究人员、开发人员和决策者，传统上一直将系统性能（即准确性）视为其工作流程中的主要指标。这一指标远远不足以反映AI系统的可信度。为了提高AI系统的可信度，应该考虑系统性能之外的多个方面，包括但不限于其鲁棒性、算法公平性、可解释性和透明度。

尽管大多数关于AI可信度的学术研究都集中在模型的算法属性上，但仅靠算法研究的进步是不足以构建值得信赖的AI产品的。从工业角度来看，一个AI产品的生命周期包括多个阶段，包括数据准备、算法设计、开发和部署以及运营、监控和治理。在生命周期的多个阶段（例如数据清理、鲁棒算法、异常监控和风险审计）中做出努力，才能在任何一个方面（例如鲁棒性）提高可信度。相反，任何一个环节或方面的信任受损都可能破坏整个系统的可信度。因此，应该在整个AI系统的生命周期中系统地建立和评估AI可信度。

除了从其生命周期的所有阶段全面看待AI系统的可信度外，了解AI可信度不同方面的全貌也很重要。除了通过为每个具体方面建立要求来追求AI可信度外，我们还关注这些方面的组合和相互作用，这些是构建值得信赖的真实世界AI系统的重要且尚未得到充分研究的主题。例如，对数据隐私的需求可能会干扰详细解释系统输出的愿望，而追求算法公平性可能会损害某些群体所经历的准确性和鲁棒性[284, 361]。因此，简单地将系统组合起来分别提高每个方面的可信度，并不能保证最终结果更值得信赖和有效。相反，需要对可信度的多个方面进行精心的联合优化和权衡[47, 158, 331, 361, 380]。

这些事实表明，需要一种系统化的方法来将当前的AI范式转向可信度。这需要多学科利益相关者的意识和合作，他们从事可信度的不同方面和系统生命周期的不同阶段的工作。我们最近见证了关于可信AI的多学科研究的重要发展。从技术角度来看，可信AI推动了对抗学习、隐私学习以及机器学习（ML）的公平性和可解释性的发展。一些最近的研究从研究[182, 218, 357]或工程[57, 62, 199, 338, 353]的角度对这些发展进行了梳理。非技术领域的进展也在少数研究中得到了回顾，包括指南[145, 178, 294]、标准化[210]和管理流程[31, 274, 301]。我们在附录的A.2节中对各种综述（包括算法研究、工程实践和制度化）进行了详细分析。这些分散的综述大多集中在可信AI的具体观点上。为了以一种系统化的视角同步这些多样化的进展，我们以一种易于获取的方式组织多学科知识，为AI从业者提供行动指南，并在工业系统的生命周期背景下提供系统化的指导，以构建可信的AI系统。我们的主要贡献如下：

我们剖析了AI系统在工业应用中的整个开发和部署生命周期，并讨论了如何在每个阶段——从数据到AI模型，从系统部署到其运行——增强AI的可信度。我们提出了一个系统化的框架，以组织多学科和分散的方法来实现可信AI，并建议将其作为一个连续的工作流程来追求，以便在AI系统生命周期的每个阶段纳入反馈。
我们剖析了AI系统在工业应用中的整个开发和部署生命周期，并讨论了如何在每个阶段增强AI的可信度——从数据到AI模型，从系统部署到其运行。我们提出了一个系统化的框架，以组织多学科和分散的方法来实现可信AI，并进一步建议将其作为一个连续的工作流程来追求，以便在AI系统生命周期的每个阶段纳入反馈。我们还分析了实践中可信度不同方面之间的关系（相互增强，有时是权衡）。目标是为AI系统的各个利益相关者，如研究人员、开发者、操作者和法律专家，提供一个易于访问和全面的指南，以便他们能够快速理解实现AI可信度的方法（第3节）。
我们讨论了研究界和工业实践者在不久的将来应该关注的可信AI面临的突出挑战。我们确定了几个关键问题，包括需要更深入和根本地理解AI可信度的几个方面（例如，鲁棒性、公平性和可解释性），用户意识的重要性，以及促进跨学科和国际合作（第4节）。

通过这些贡献，我们旨在为AI系统的实践者和利益相关者不仅提供一个关于AI可信度的基础和未来的全面介绍，而且还提供一个关于如何构建可信AI系统的操作指南。

2 AI可信度：超越预测准确性

过去几十年中，机器学习（ML）技术的成功在很大程度上得益于基于准确性的性能测量。通过基于定量准确性或损失来评估任务性能，训练AI模型在优化的意义上变得可行。同时，预测准确性被广泛采用来表明一个AI产品优于其他产品。然而，随着AI的广泛应用，仅依赖准确性测量的局限性已经被一系列新挑战所暴露，这些挑战从针对AI系统的恶意攻击到违反人类价值观的AI滥用。为了解决这些问题，AI社区在过去十年中意识到，在构建AI系统时应该考虑并改进超出准确性的因素。一些企业[57, 62, 136, 166, 254, 338]、学术界[122, 199, 218, 301, 322]、公共部门和组织[9, 210, 334]最近已经识别了这些因素，并将它们总结为AI可信度的原则。这些原则包括鲁棒性、安全性、透明度、公平性和安全性[178]。在参考文献[145, 178]中提供了与这些原则相关的全面统计数据和比较。在本文中，我们研究了最近引起广泛兴趣且与实际应用密切相关的代表性原则。这些原则可以分为以下几类：

我们考虑了与当前AI系统面临的技术挑战相关的代表性要求。我们回顾了最近技术研究中引起广泛兴趣的方面，包括鲁棒性、可解释性、透明度、可重复性和泛化能力。
我们考虑了在最近文献[9, 57, 121, 145, 178, 199, 218, 301, 334]中广泛关注的伦理要求，包括公平性、隐私和责任。

在本节中，我们阐述了每个要求的动机和定义。我们还调查了评估每个要求的方法。同时需要注意的是，所选择的要求并不是相互独立的，其中一些要求之间存在密切的相关性。在本节中，我们解释了与相应要求的关系。我们还使用图1来可视化各个方面之间的关系，包括权衡、贡献和表现。

2.1 鲁棒性

一般来说，鲁棒性指的是算法或系统处理执行错误、错误输入或未见过的数据的能力。鲁棒性是影响AI系统在实证环境中性能的重要因素。缺乏鲁棒性也可能导致系统出现意外或有害的行为，从而降低其安全性和可信度。在机器学习系统的背景下，鲁棒性一词适用于多种情况。在这篇综述中，我们非穷尽地总结了AI系统的鲁棒性，分别从数据、算法和系统层面对漏洞进行分类。

数据。随着AI系统的广泛应用，AI模型部署的环境变得更加复杂和多样化。如果AI模型在训练时没有考虑到不同场景中数据分布的多样性，那么它的性能可能会受到显著影响。对抗分布偏移的鲁棒性在各种AI应用中一直是一个常见问题[19]。在高风险应用中，由于对安全性和安全性的负面影响，这个问题更加关键。例如，在自动驾驶领域，除了开发在晴朗场景下工作的感知系统外，学术界和工业界还在使用众多的开发和测试策略来增强车辆在夜间/雨天场景下的感知性能，以确保系统在各种天气条件下的可靠性[318, 382]。

算法。人们普遍认为，AI模型可能容易受到恶意攻击者的攻击。在各种形式的攻击中，对抗性攻击及其防御近年来在学术界和工业界引起了关注。文献已经从几个典型方面对对抗性攻击的威胁进行了分类，并提出了各种防御方法[12, 69, 213, 304, 373]。例如，在参考文献[340]中，根据攻击时间对对抗性攻击进行了分类。决策时攻击通过扰动输入样本来误导给定模型的预测，以便攻击者能够逃避安全检查或冒充受害者。训练时攻击将精心设计的样本注入训练数据中，以改变系统对特定模式的响应，也被称为投毒攻击。考虑到攻击的实用性，还应注意攻击在执行空间上的差异。传统研究主要集中在特征空间攻击上，这些攻击直接作为模型的输入特征生成。在许多实际场景中，对手只能修改输入实体来间接产生与攻击相关的特征。例如，有人很容易戴上对抗性图案眼镜来逃避面部验证系统，但很难修改内存中的图像数据。最近，产生可实现的基于实体的攻击（问题空间攻击）的研究越来越受到关注[325, 358]。除了直接误导AI模型之外，算法层面的威胁可能以各种形式存在。模型窃取（也称为探索性攻击）试图窃取有关模型的知识。虽然它不会直接改变模型行为，但窃取的知识对于生成对抗样本具有重要价值[329]。

系统。在现实的AI产品中，还应仔细考虑系统级对非法输入的鲁棒性。在实际情况下，非法输入的情况可能极其多样。例如，一个分辨率非常高的图像可能会使一个不完美的图像识别系统挂起。自动驾驶车辆的激光雷达感知系统可能会感知到其他车辆发出的激光束，并产生损坏的输入。呈现攻击[275]（也称为欺骗攻击）是近年来引起广泛关注的另一个例子。它通过例如照片或面具来伪造输入，以欺骗生物识别系统。

已经探索了各种方法来防止AI系统中的漏洞。防御的目标可以是主动的或被动的[227]。主动防御试图优化AI系统，使其对各种输入更加鲁棒，而被动防御旨在检测潜在的安全问题，如分布变化或对抗样本。在第3节中介绍了提高AI系统鲁棒性的代表性方法。

评估。评估AI系统的鲁棒性是避免漏洞和控制风险的重要手段。我们简要描述了两组评估：鲁棒性测试和数学验证。

鲁棒性测试。测试一直是评估和增强传统软件以及AI系统鲁棒性的基本方法。传统的功能测试方法，如猴子测试[115]，为评估系统级鲁棒性提供了有效的方法。此外，正如将在第3.3.1节介绍的，软件测试方法最近已被扩展到评估对抗对抗攻击的鲁棒性[226, 260]。与功能测试相比，性能测试，即基准测试，在机器学习领域更广泛地用于评估系统性能的各个维度。在机器学习研究中，使用各种分布的测试数据集来评估数据的鲁棒性。在对抗攻击的背景下，最小的对抗扰动是鲁棒性的核心指标，其经验上界，即经验鲁棒性，在测试数据集上已被广泛使用[65, 312]。从攻击者的角度来看，攻击的成功率也直观地衡量了系统的鲁棒性[312]。

数学验证。继承自形式化方法理论，对AI模型的对抗鲁棒性的认证验证引起了越来越多的兴趣。例如，对抗鲁棒性可以通过推导出对AI模型攻击的最小失真非平凡且经过认证的下界来反映[51, 379]。我们将在第3.2.1节介绍这个方向。

2.2 泛化能力

泛化能力一直是机器学习模型关注的焦点。它代表了从有限的训练数据中提取知识，对未见数据进行准确预测的能力[133]。尽管在可信AI的背景下泛化不是一个经常提及的方向，我们发现它对AI可信度的影响不容忽视，值得特别讨论。一方面，泛化要求AI系统对现实数据进行预测，即使在它们未经训练的领域或分布上也是如此[133]。这显著影响了实际系统的可靠性和风险。另一方面，AI模型应该能够在不需要为各种领域详尽地收集和标注大量数据的情况下进行泛化[343, 391]，从而使AI系统在广泛的应用中部署更加经济和可持续。

在机器学习领域，关于泛化理论的经典研究集中在对未见数据的预测上，这些数据通常与训练数据具有相同的分布[133]。尽管AI模型在训练数据集上可以达到合理的准确性，但已知它们在训练和测试准确性之间存在差距（即泛化差距）。从统计学习到深度学习的不同领域的研究方法已经被研究来分析这个问题并增强模型的泛化能力。许多机器学习教科书中可以找到典型的代表方法，如交叉验证、正则化和数据增强[133]。

创建现代数据驱动的AI模型需要在训练阶段大量数据和标注。这导致制造商和用户在为每个任务重新收集和重新标注数据以训练模型时成本高昂。这种成本突出了将模型知识泛化到不同任务的必要性，这不仅减少了数据成本，而且在许多情况下还提高了模型性能。在迁移学习范式下，已经探索了各种研究方向来解决不同场景和配置下的知识泛化问题[255, 350]。我们将在第3.2.2节回顾代表性方法。

泛化能力的包容性概念与AI可信度的其他方面密切相关，特别是鲁棒性。在机器学习的背景下，对抗分布偏移的鲁棒性（第2.1节）也被认为是泛化问题。这意味着鲁棒性和泛化的要求有一些重叠的方面。对抗鲁棒性和泛化之间的关系更为复杂。正如参考文献[362]所展示的，对抗小扰动具有鲁棒性的算法具有更好的泛化能力。然而，最近的研究表明[271, 331]，通过对抗训练提高鲁棒性可能会降低测试准确性并导致更差的泛化。为了解释这一现象，参考文献[116]认为对抗鲁棒性对应于可能损害模型泛化能力的不同数据分布。

评估。在具有各种分布的测试数据集上进行基准测试是评估AI模型在现实场景中泛化能力的常用方法。参考文献[391]总结了常用数据集和领域泛化基准测试，并涵盖了对象识别、动作识别、分割和面部识别等任务。

在理论评估方面，过去的机器学习研究已经开发了丰富的方法来衡量模型泛化误差的界限。例如，拉德马赫复杂性[35]通常用于确定模型能够多好地适应类标签的随机分配。此外，瓦普尼克-切尔诺文斯基（VC）维数[337]是可学习函数集的容量/复杂性的度量。VC维数越多，表示容量越高。

深度神经网络（DNN）的进步导致了泛化理论的新发展。参考文献[377]观察到，尽管现代深度学习模型具有巨大的容量，但它们仍然可以实现泛化差距。这一现象引发了关于深度神经网络（DNN）泛化的学术讨论[23, 39]。例如，参考文献[39]从偏差-方差权衡的角度检查泛化，以解释和评估DNN的泛化能力。

2.3 可解释性和透明度

复杂AI系统的不透明性在学术界、工业界以及整个社会引起了广泛关注。深度神经网络（DNN）如何超越其他传统机器学习方法的问题一直令研究人员感到困惑[24]。从实际系统的角度来看，用户需要了解AI产品的意图、商业模式和技术机制[9, 135]。多项研究从可解释性、可解释性和透明度等术语的角度来解决这些问题，并深入探讨了不同的定义[5, 24, 47, 141, 216, 250]。为了使我们的讨论更加简洁和针对性，我们将可解释性和透明度的范围缩小到分别解决理论研究和实际系统中的上述问题。

可解释性解决的是如何理解AI模型做出决策的问题[24]。
透明度将AI视为一个软件系统，并寻求披露有关其整个生命周期的信息（参见参考文献[9]中的“操作透明”）。

2.3.1 可解释性。可解释性，即理解AI模型如何做出决策，处于现代AI研究的核心位置，并作为决定对AI技术信任的基本因素。对AI可解释性的需求来自多个方面[24, 25]。从科学研究的角度来看，理解AI系统中数据、参数、程序和结果的所有内在机制是有意义的。这些机制也从根本上决定了AI的可信度。从构建AI产品的角度来看，对可解释性存在各种实际要求。对于银行高管等操作者来说，可解释性有助于理解AI信用系统，以防止潜在的缺陷[25, 184]。像贷款申请者这样的用户想知道为什么他们被模型拒绝，以及他们可以做些什么来获得资格[25]。详见参考文献[25]对可解释性的各种动机的详细分析。

解释机器学习模型一直是过去五年中机器学习研究以及心理学研究中的一个活跃话题[5, 24, 47, 141, 216, 250]。尽管AI模型的可解释性的定义仍然是一个开放性问题，但研究已经从AI[141, 285]和心理学[144, 245]的角度尝试解决这个问题。总结起来，相关研究将可解释性分为两个层次来解释：

模型设计时的可解释性。在过去半个世纪的机器学习研究中，已经设计了一系列完全或部分可解释的机器学习模型。代表包括线性回归、树、k最近邻（KNN）、基于规则的学习器、广义加性模型和贝叶斯模型[24]。可解释模型的设计仍然是机器学习中的一个活跃领域。
事后模型可解释性。尽管上述传统模型具有良好的可解释性，但更复杂的模型如深度神经网络（DNN）或梯度提升决策树（GDBT）在最近的工业AI系统中表现出更好的性能。由于相关方法仍然无法全面解释这些复杂模型，研究人员转向事后解释。它通过分析模型的输入、中间结果和输出来解决模型的行为。在这方面的一个代表性类别是通过使用可解释的机器学习模型（即解释器），如线性模型[225, 279]和规则[140, 280]，来全局或局部近似决策面。对于像卷积神经网络（CNN）或变换器这样的深度学习模型，检查中间特征是解释模型行为的广泛使用手段[332, 366]。

可解释性的方法在机器学习中是一个活跃的研究领域，并已在多种研究中得到了全面的调查[24, 47, 141, 250]。在第3.2.3节中回顾了实现上述两个层面可解释性的代表性算法。评估。除了解释AI模型的问题外，可解释性的统一评估被认为是一个挑战。这的主要原因在于可解释性在心理学上的界定不明确。为了规避这个问题，多种研究已经使用定性指标来评估可解释性，并有人类的参与。代表性的方法包括：

主观人类评估。在这种情况下的评估方法包括访谈、自我报告、问卷调查和案例研究，这些方法测量例如用户满意度、心理模型和信任[144, 155, 267]。
人-AI任务表现。在人-AI协作执行的任务中，协作表现受到人类对AI协作者理解的显著影响，可以被视为解释质量的反映[249]。这种评估已被用于开发例如推荐系统[198]和数据分析[132]。

此外，如果可解释性可以通过解释器实现，那么后者的表现，例如在近似精度（保真度[140, 279, 280]）方面，可以用来间接和定量地评估可解释性[16]。

尽管有上述评估，可解释性的直接定量测量仍然是一个问题。一些模型复杂性的简单测量，如树深度[46]和规则集的大小[202]，已经被研究作为先前工作中的替代可解释性指标。我们认为，统一的定量指标是基础AI研究的核心。最近关于机器学习模型复杂性[162]及其认知功能复杂性[347]的研究可能会激发未来关于统一定量评估指标的研究。

2.3.2 透明度。透明度要求披露系统的信息，并且在软件工程中早已被认为是一个要求[89, 207]。在AI行业中，这一要求自然涵盖了AI系统的生命周期，并帮助利益相关者确认适当的设计原则在其中得到体现。以一个用于识别的生物识别系统为例。用户通常关心他们的生物识别信息被收集的目的以及如何使用。业务运营者关心准确性和对攻击的鲁棒性，以便他们可以控制风险。政府部门关心AI系统是否遵循指导方针和法规。总的来说，透明度是建立公众对AI系统信任的基本要求[22, 178, 189]。

为了使AI系统的生命周期透明化，需要披露有关其创建的各种信息，包括设计目的、数据来源、硬件要求、配置、工作条件、预期用途和系统性能。一系列研究已经通过适当的文档检查披露这些信息[22, 129, 156, 246, 265]。这在第3.5.1节中讨论。最近开源系统的趋势也显著地促进了AI系统的算法透明度。

由于AI系统的内部程序复杂且动态，关于其创建的事实不足以完全揭示其机制。因此，在各种场景中，还应考虑运行时过程和决策的透明度。对于一个交互式AI系统，适当设计的用户界面是披露底层决策程序的重要手段[10]。在许多安全关键系统中，如自动驾驶车辆，日志系统[29, 261, 369]被广泛采用来追踪和分析系统执行。

评估。尽管统一的定量评估尚不可用，但透明度的定性评估在AI行业中最近已经取得了进展。评估清单[10, 292]被视为评估和增强系统透明度的有效手段。在用户或公众心理学的背景下，用户研究或A/B测试可以基于用户满意度提供有用的评估[249]。

近年来，人们还探索了AI文档的质量评估。一些研究[22, 129, 156, 246, 273]提出了标准实践来指导和评估AI系统的文档。参考文献[265]总结了更具体评估的一般定性维度。

2.4 可重复性

现代AI研究涉及数学推导和计算实验。这些计算过程的可重复性是验证AI研究的关键步骤。在AI可信度方面，这种验证有助于检测、分析和减轻AI系统中潜在风险，例如特定输入的漏洞或意外的偏见。随着AI研究社区开放合作生态系统的逐步建立，可重复性正成为研究人员和开发者关注的问题。除了使研究得到有效验证外，可重复性还允许社区快速将最新方法转化为实践或进行后续研究。

AI研究社区出现了一种新趋势，即在公布研究时将可重复性视为一项要求[142]。我们看到了主要会议，如神经信息处理系统会议（NeurIPS）、国际机器学习会议（ICML）和ACM多媒体会议（ACMMM），引入了与可重复性相关的政策或程序[263]，以鼓励工作的可重复性。为了获得清晰的评估，ACM Artifact Review和参考文献[106, 143]等作品中研究了可重复性的程度。例如，在参考文献[143]中，最低程度的可重复性要求使用相同的实现和数据完全复制实验，而更高程度的要求使用不同的实现或数据。除了基本的研究验证外，更高程度的可重复性通过区分影响效果的关键因素，促进了对研究的更好理解。

一些最近开发的大规模预训练AI模型，如生成预训练变换器3（GPT-3）和双向编码器表示从变换器（BERT），代表了AI研究可重复性的挑战。这些模型的创建涉及专门设计的数据收集策略、大数据的有效存储、分布式集群之间的通信和调度、算法实现、适当的软件和硬件环境以及其他类型的专业知识。这种模型的可重复性应该在其整个生命周期中考虑。在最近关于机器学习可重复性的研究中，这一要求被分解为数据、方法和实验的可重复性[142, 143, 169]，后者涵盖了代码、文档、软件、硬件和部署配置等一系列生命周期工件。基于这种方法，越来越多的机器学习平台正在开发中，以帮助研究人员和开发者更好地以可重复的方式跟踪生命周期[169, 374]。

评估。可重复性清单最近在机器学习会议中被广泛采用，以评估提交的可重复性[263]。除了在出版物中复制实验外，参考文献[142, 143]还指定了在不同程度上评估可重复性的清单。除了清单外，还采用了可重复性挑战和可重复性论文轨道等机制来评估出版物的可重复性[118, 263]。为了在挑战的背景下定量评估可重复性，已经研究了一系列定量指标。例如，参考文献[53, 118]设计了指标来量化信息检索系统可以被复制到其原始状态的程度。

2.5 公平性

当AI系统在招聘、金融风险评估和面部识别等领域帮助我们时，它们决策中的系统性不公平可能对社会产生负面影响（例如，弱势群体可能在招聘决策中经历系统性劣势[49]，或在犯罪风险分析中受到不成比例的影响[104, 146, 161]）。这不仅损害了各利益相关者对AI的信任，也阻碍了AI技术为更大利益的发展和应用。因此，实践者必须牢记AI系统的公平性，以避免植入或加剧社会偏见[66, 105, 242]。

AI系统中公平性的一个共同目标是减轻偏见的影响。减轻偏见并非易事，因为偏见可以采取多种形式，如数据偏见、模型偏见和程序偏见，在开发和应用AI系统的过程中[242]。偏见通常表现为基于人们的受保护信息（例如，性别、种族和民族）对不同群体的不公平对待。因此，群体身份（有时也称为敏感变量）和系统响应（预测）是影响偏见的两个因素。在某些情况下，评估系统公平性时还应考虑给定任务的客观真实情况，例如，一个人的语言是否被正确识别或他们的面部是否被正确识别。

公平性可以适用于系统行为的多个粒度级别[66, 242, 339]。在每个粒度级别，我们可能关心分配公平或结果公平，或程序公平或过程公平（我们请读者参阅参考文献[137]以获得更详细的讨论）。在每种情况下，我们通常关心AI系统的聚合行为及其中的偏见，这被称为统计公平或群体公平。在某些应用中，考虑个体公平或反事实公平也很有帮助，特别是当敏感变量可以更容易地与其他应合理决定系统预测的特征分离时[242]。虽然前者更广泛地适用于各种机器学习任务，例如语音识别和面部识别，后者在诸如简历审查以筛选候选人[44]的情况下可能至关重要。

在群体层面，研究人员已经确定了三个抽象原则来分类不同类型的公平性[66]。我们用一个简单的招聘申请者的例子来说明它们，申请者来自一个由50%男性和50%女性申请者组成的群体，其中性别是敏感变量（例子改编自参考文献[339, 388]）：

独立性。这要求系统结果在统计上独立于敏感变量。在我们的示例中，这要求男性和女性申请者的录取率相等（称为人口统计奇偶校验[376]；另见不同影响[117]）。
分离性。独立性没有考虑到真实情况与敏感变量之间的合理相关性（例如，可能更少的女性申请者比男性申请者更容易举起100磅的货物）。因此，分离性要求在给定潜在真实情况的条件下，独立性原则成立。也就是说，如果工作要求体力资格，那么合格男性和女性申请者的录取率应该相等（称为平等机会[147]；另见平等机会[43]和准确性公平[95]）。
充分性。充分性同样考虑了真实情况，但要求在给定相同系统预测的条件下，真实结果和敏感变量独立。也就是说，鉴于模型预测的相同招聘决策，我们希望男性和女性申请者中合格申请者的比例相同（称为测试公平[80, 147]）。这与模型校准密切相关[266]。

请注意，这些原则在某些情况下是相互排斥的（例如，当敏感变量与真实情况相关时，独立性和分离性不能同时成立）。参考文献[187]讨论了各种公平性指标之间的权衡。此外，参考文献[84]提倡了这些原则的扩展视图，其中预测和真实结果的效用被纳入考虑（例如，暴力犯罪再犯的风险和成本与拘留成本相比），并且可以与敏感变量相关联。我们请读者参阅这项工作以获得更详细的讨论。

评估。尽管上一节概述的抽象标准很简单，但公平性可以根据这些原则以许多不同形式表现（参见参考文献[66, 356]进行全面调查，以及参考文献[228]关于AI伦理的清单）。我们根据模型和任务的属性对公平性指标进行分类，以帮助读者为他们的应用选择合适的指标：

离散变量与连续变量。任务输出、模型预测和敏感变量都可以是离散的（例如，分类和国籍）、排序的（例如，搜索引擎、推荐系统）或连续的（例如，回归、分类器分数、年龄等）。可以使用标准统计工具（如相关系数（皮尔逊/肯德尔/斯皮尔曼）和方差分析（ANOVA））评估离散变量的经验相关性，而连续变量通常还需要进行分箱、量化或损失函数来评估公平性[66]。
损失函数。由于经验数据的限制，公平性标准通常无法完全满足（例如，在只招聘三名候选人时，群体之间的人口统计奇偶校验）。在这种情况下，损失函数很有用，可以衡量我们离经验公平性有多远。损失函数的选择可以由所关注变量的性质来指导：如果变量代表概率，那么似然比更有意义（例如，不同影响[117]）；对于实值回归，可以使用每个群体聚合到真实值的平均距离差异来表示我们是否对一个群体的建模显著优于另一个群体[59]。
多个敏感变量。在许多应用中，理想的AI系统应该对多个敏感变量公平（例如，贷款风险的预测应该在性别和种族方面都公平；此外，推荐系统理想情况下应该对用户和被推荐者都公平）。可以分别评估每个变量的公平性，并结合损失函数进行最终评估，或者探索所有变量的完整笛卡尔积[307]以实现联合公平，这通常需要更多的经验观察，但倾向于满足更强的伦理要求。

2.6 隐私保护

隐私保护主要指的是防止未经授权使用能够直接或间接识别个人或家庭的数据。这些数据涵盖了广泛的信息，包括姓名、年龄、性别、面部图像、指纹等。对隐私保护的承诺被视为决定AI系统可信度的一个重要因素。最近发布的AI伦理指南也强调隐私是关键关注点之一[9, 178]。政府机构正在制定越来越多的政策来规范数据隐私。《通用数据保护条例》（GDPR）就是一个代表性的法律框架，它推动企业采取有效措施保护用户隐私。

除了企业内部的隐私保护之外，最近在AI利益相关者之间进行数据交换的发展为隐私保护带来了新的挑战。例如，在训练一个医学AI模型时，每个医疗机构通常只有来自当地居民的数据，这可能不足以满足需求。这导致了与其他机构合作并联合训练模型的需求[299]，同时不泄露机构间的私人信息。

现有的保护技术贯穿AI系统的整个生命周期，以解决日益增长的隐私问题。在第3节中，我们简要回顾了在数据收集和处理、模型训练（第3.2.5节）以及模型部署（第3.4.4节）中保护隐私的技术。隐私保护的实现也与可信AI的其他方面相关。例如，透明度原则在AI系统中被广泛使用。它告知用户个人数据收集情况，并启用隐私设置。在开发隐私保护机器学习软件（如联邦学习，例如FATE和PySyft）时，开源是一种常见的做法，以增加透明度并证明系统的保护性。

评估。像GDPR这样的数据隐私保护法律要求，如果任何数据处理对数据隐私构成风险，则必须进行数据保护影响评估（DPIA）。必须采取措施解决与风险相关的担忧，并证明遵守法律[10]。需要让数据隐私保护专业人士和其他利益相关者参与评估。

以前的研究已经设计了各种数学方法来正式验证隐私保护方法的保护性。典型的验证可以在半诚实安全等假设下进行，这意味着所有参与方都遵循协议执行计算任务，但可能试图从计算的中间结果中推断其他方的数据（例如，参考文献[215]）。更严格的假设是恶意攻击假设，其中每个参与方不需要遵循给定的协议，并且可以采取任何可能的措施来推断数据[214]。

在实际场景中，通常会考虑隐私泄露风险的实证评估[283, 360]。例如，参考文献[283]表明，15个人口统计属性足以使99%的参与者具有唯一性。在设计数据收集计划时，对这种数据重新识别的评估直观地反映了保护性。

2.7 责任性：对上述要求的全面评估

我们已经描述了一系列建立可信AI的要求。责任性涉及对AI系统遵循这些要求的规范。随着AI治理的法律和制度规范的逐步完善，责任性成为AI以可信度持续造福社会的关键因素[100]。

责任性贯穿AI系统的整个生命周期，并要求AI系统的利益相关者有义务证明他们的设计、实施和运营与人类价值观一致。在执行层面，这种证明通过考虑周到的产品设计、可靠的技术架构、对潜在影响的负责任评估以及对这些方面的信息披露来实现[209]。请注意，在信息披露方面，透明度为促进AI系统的责任性提供了基本机制[94, 100]。

从责任性还衍生出可审计性的概念，它要求对系统的证明进行审查、评估和审计[209]。算法审计是确保AI系统责任性并评估其对多维度人类价值观影响的一种公认方法[272]。另见第3.5.2节。

评估。基于清单的评估已被研究用于定性评估责任性和可审计性[10, 315]。如本节所述，我们将责任性视为对可信AI每个具体要求的全面证明。其实现由对AI系统生命周期中这些要求的评估组成[272]。因此，责任性的评估反映了这些可信度要求及其影响在多大程度上可以被评估。

3 可信AI：系统化方法

我们在第2节介绍了与可信AI相关的概念。自2010年代初以来，不同的AI利益相关者一直在努力提高AI的可信度。在我们的附录A中，我们简要回顾了他们在多学科领域的最新实践，包括研究、工程和监管，以及在人脸识别、自动驾驶和自然语言处理（NLP）等工业应用中的示例研究。这些实践在提高AI可信度方面取得了重要进展。然而，我们发现，从工业角度来看，这项工作仍然不足。如第1节和图2所示，AI行业处于连接多学科领域以建立可信AI的位置。这一位置要求工业利益相关者学习和组织这些多学科方法，并确保AI在其生命周期中的可信度。

在本节中，我们简要回顾了用于构建可信AI产品的技术，并从工业角度将其组织到产品开发的生命周期中。如图2中的实线框所示，典型AI产品的开发生命周期可以分为数据准备、算法设计、开发-部署和管理[26]。我们回顾了在每个生命周期阶段与AI产品可信度密切相关的几个关键算法、指南和政府法规，旨在为来自不同背景的实践者提供系统化的方法和易于遵循的指南，以建立可信AI。本节中提到的方法和文献总结在图3和表1中。

3.1 数据准备

当前的AI技术在很大程度上是由数据驱动的。数据的适当管理和利用不仅提高了AI系统的性能，还影响了其可信度。在本节中，我们考虑数据准备的两个主要方面，即数据收集和数据预处理。我们还讨论了与可信AI相对应的要求。

3.1.1 数据收集

数据收集是AI系统生命周期的基础阶段。精心设计的数据收集策略可以提高AI可信度，例如在公平性和可解释性方面。

偏见缓解：训练和评估数据被认为是AI系统的常见偏见来源。可能存在许多类型的偏见，并困扰数据收集中的公平性，需要不同的过程和技术来对抗它（参见参考文献[242]进行全面调查）。
在数据收集期间的偏见缓解技术可以分为两大类：去偏见采样和去偏见标注。前者涉及识别要使用或标注的数据点，而后者侧重于选择合适的标注者。
在采样数据点进行标注时，我们注意到反映用户群体的数据集并不能保证公平性，因为统计方法和指标可能偏向多数群体。如果多数群体在任务上更同质（例如，由于数据稀缺，识别较少听说的口音的语音可能自然更困难[191]），这种偏见可能会进一步放大。因此，系统开发人员在开发和评估公平的AI系统时应考虑任务难度。然而，为代表性不足的数据选择合适的标注者尤其重要（例如，在标注语音识别数据时，大多数人也难以识别很少听到的口音）。因此，在为代表性不足的群体标注数据时，必须注意选择合适的专家，以防止人为偏见渗入标注数据。
解释收集：除了模型设计和开发外，数据收集对于构建可解释的AI系统也至关重要。如将在第3.2.3节中提到的，向AI模型添加解释任务可以帮助解释模型的中间特征。这种策略在基于NLP的阅读理解任务中使用，通过生成支持句子[332, 366]。为了训练解释任务，考虑收集可能不是最终任务一部分的解释或信息是有帮助的，可以直接从标注者[354]那里收集，或者借助自动化方法[185]。
数据来源：数据来源要求记录数据血统，包括来源、依赖关系、上下文和处理步骤[306]。通过以最高分辨率跟踪数据血统，数据来源可以提高AI系统的透明度、可重复性和责任性[154, 172]。此外，最近的研究表明，数据来源可以用来缓解数据投毒[33]，从而增强AI系统的鲁棒性和安全性。数据来源的技术实现已在参考文献[154]中提供。针对涉及AI系统的具体场景，也研究了工具链[293]和文档[129]指南。
为确保来源的防篡改性，最近区块链被认为是证明AI中数据来源的有前途的工具[15, 96]。

3.1.2 数据预处理

在将数据输入AI模型之前，数据预处理有助于去除可能损害模型行为和可能危害用户隐私的不一致污染。

异常检测：异常检测（也称为离群点检测）一直是机器学习[70, 81, 257, 316]中的活跃领域。由于机器学习模型对离群数据的敏感性，通过异常检测进行数据清洗是提高性能的有效方法。在最近的研究中，异常检测已被证明在满足AI可信度的一些要求方面是有用的。例如，欺诈性数据可能挑战银行和保险等领域系统的鲁棒性和安全性。为解决这一问题，已提出了各种方法，使用异常检测[70]。检测和缓解对抗性输入也被认为是防御规避攻击和数据投毒攻击的一种手段[12, 213, 304]。值得注意的是，在高维度（例如，图像）中检测的有效性仍然有限[64]。对抗性攻击的缓解也被称为数据净化[71, 87, 258]。
数据匿名化（DA）：DA修改数据，使得受保护的私人信息无法恢复。已经开发了不同的定量数据匿名化原则，如k-匿名性[288]，(c, k)-安全性[236]，和δ-存在性[253]。特定于数据格式的DA方法已经研究了几十年[171, 372, 386]。例如，社交网络图数据中的私人信息可能包含在图的顶点属性、链接关系、权重或其他图度量中[390]。文献中已经考虑了匿名化此类数据的方法[37, 220]。还为关系数据[262]、集合值数据[151, 320]和图像数据[97, 239]设计了特定的DA方法。已经制定了数据匿名化的指南和标准，如美国HIPAA和英国ISB1523。数据假名化[251]也是GDPR推广的相关技术。它用非识别性引用替换私人信息。
理想的数据匿名化应该能够免疫于试图从匿名化数据中恢复私人信息的数据去匿名化或重新识别攻击[111, 175]。

例如，参考文献[176]介绍了几种用于从图数据中去匿名化用户信息的方法。为了降低隐私泄露的风险，参考文献[174]提供了一个开源平台，用于评估图数据匿名化算法在面对去匿名化攻击时的隐私保护相关性能。

差分隐私（DP）。差分隐私在保留数据集中群体信息的同时，隐藏个体样本的信息[108–110]。典型的差分隐私可以通过ε-差分隐私来正式定义。它衡量一个（随机化的）统计函数在数据集上反映是否移除一个元素的程度[108]。差分隐私已经在各种数据发布任务中被探索，例如日志数据[159, 385]、集合值数据[76]、相关网络数据[75]和众包数据[278, 344]。它还被应用于单机和多机计算环境，并与机器学习模型集成以保护模型隐私[2, 120, 349]。像苹果这样的企业已经使用差分隐私将用户数据转换成无法还原真实数据的形式[21]。在参考文献[113]中，研究人员提出了满足差分隐私定义的RAPPOR算法。该算法用于众包用户软件的统计分析。差分隐私还被用于提高人工智能模型对抗对抗样本的鲁棒性[204]。

3.2 算法设计

在人工智能研究的背景下，可信人工智能的许多方面已经被视为算法问题，并引起了广泛的关注。我们根据人工智能可信性的相应方面对最近的技术方法进行分类，包括鲁棒性、可解释性、公平性、泛化能力和隐私保护，以便为从业者提供快速参考。

3.2.1 对抗鲁棒性 人工智能模型的鲁棒性受到训练数据和所使用算法的显著影响。我们在本节中描述了几个代表性方向。可以在文献中找到全面的综述，例如参考文献[12, 19, 45, 69, 213, 304, 373]。

对抗训练。自发现对抗攻击以来，人们认识到通过在训练数据中添加对抗样本是防御对抗攻击的一种直观方法。这通常被称为对抗训练[134, 211, 346]。可以通过在训练过程中同时输入原始数据和对抗样本以暴力方式实现数据增强[201]，也可以通过使用正则化项来隐式表示对抗样本[134]。传统的对抗训练针对特定攻击增强数据。它可以防御相应的攻击，但对其他类型的攻击存在漏洞。已经研究了各种改进方法以增强这种防御[45, 229, 304]。参考文献[328]通过从其他模型转移对抗扰动来增强训练数据。研究表明，这可以进一步防御不需要模型参数知识的黑盒攻击。这有助于防御不需要模型参数知识的黑盒攻击。参考文献[231]将多种类型的扰动结合到对抗训练中，以增强模型对多种攻击类型的鲁棒性。

对抗正则化。除了隐式表示对抗样本的正则化项外，最近的研究进一步探索网络结构或正则化，以克服深度神经网络对对抗攻击的漏洞。这种正则化的直观动机是防止网络输出在小输入扰动的情况下发生剧烈变化。例如，参考文献[139]通过惩罚每一层的较大偏导数来提高其输出的稳定性。参考文献[286]采用了类似的梯度正则化。Parseval网络[82]通过在每一层施加Lipschitz常数的正则化来训练网络。

认证鲁棒性。对抗训练和正则化在实践中提高了人工智能模型的鲁棒性，但无法从理论上保证这些模型能够可靠地工作。这个问题促使研究正式验证模型的鲁棒性（即认证鲁棒性）。最近关于认证鲁棒性的研究集中在处理输入扰动的鲁棒训练上。例如，CNN-Cert[51]、CROWN[379]、Fast-lin和Fast-lip[352]旨在最小化在给定输入扰动下最坏情况损失的上界。参考文献[152]则推导出改变分类器决策所需的输入操作的下界，并将其作为鲁棒训练的正则化项。为了应对在大型网络中精确计算这些界限的计算不可行性问题，各种松弛或近似方法，如参考文献[352, 378]，已被提出作为正则化的替代方案。需要注意的是，上述研究主要仅在给定训练数据附近局部优化鲁棒性。为了在未见输入上实现认证鲁棒性，全局鲁棒性最近引起了人工智能界的关注[77, 206]。

值得注意的是，认证鲁棒性与形式化验证视角的交叉研究的最新趋势，其目标是为软件正确性保证开发严格的数学规范和验证技术[83]。参考文献[335]最近的一项综述对神经网络的形式化验证进行了全面回顾。

投毒防御。典型的投毒或后门攻击通过污染训练数据来误导模型行为。除了在数据清理阶段避免可疑数据外，针对投毒数据的防御算法是一个活跃的研究领域[213]。这种防御已经在深度神经网络模型的不同阶段进行了研究。例如，基于观察到与后门相关的神经元通常对良性样本处于非激活状态，参考文献[219]提出从网络中剪枝这些神经元以移除隐藏的后门。Neural Cleanse[342]积极发现模型中的后门模式。然后可以通过从数据中早期检测后门模式或重新训练模型以减轻后门来避免后门。还可以通过对模型在特别设计的基准输入上的预测进行分析来检测后门攻击[194]。

3.2.2 模型泛化 模型泛化技术不仅旨在提高模型性能，还探索在有限数据和有限成本下训练人工智能模型。我们回顾了模型泛化的代表性方法，分为经典泛化和领域泛化。

经典泛化机制。作为模型泛化理论的一个基本原则，偏差-方差权衡表明，一个泛化的模型应该在欠拟合和过拟合之间保持平衡[39, 124]。对于一个过拟合的模型，降低复杂性/容量可能会导致更好的泛化。以神经网络为例，向其中添加瓶颈层（该层的神经元数量少于上下层）可以帮助降低模型复杂性并减少过拟合。

除了调整模型的架构外，还可以通过各种显式或隐式正则化来减轻过拟合，以获得更好的泛化，例如提前停止[370]、批量归一化[167]、Dropout[309]、数据增强和权重衰减[196]。这些正则化是当训练数据的规模远小于模型参数数量时提高模型泛化的标准技术[337]。它们旨在将学习推向具有可管理复杂性的假设子空间，并降低模型复杂性[377]。然而，[377]还观察到，显式正则化可能提高泛化性能，但不足以降低泛化误差。因此，深度神经网络的泛化仍然是一个开放性问题。

领域泛化。现代深度神经网络面临的挑战之一是它们对分布外数据的泛化。这一挑战源于各种实际人工智能任务[343, 391]，在迁移学习领域[255, 350]中尤为突出。领域适应[343, 391]旨在找到领域不变的特征，使得算法能够在不同领域实现类似的性能。另一个例子是，少样本学习的目标是仅使用少量样本将模型泛化到新任务[78, 348, 371]。元学习[336]尝试从多个相似任务中学习泛化的先验知识。特征相似性[190, 308]已被用作知识先验的代表性类型，例如在模型无关元学习（MAML）[119]、强化学习[212]和记忆增强神经网络[38, 291]等工作中。

模型预训练是一种利用其他领域所学知识的流行机制，并在学术界和工业界都取得了日益成功的成果。例如，在计算机视觉中，一个成功的范式是在大规模数据集（如ImageNet）上预训练模型，然后在目标任务上微调，这些目标任务的训练数据较少[131, 224, 375]。这是因为预训练的特征表示可以用于将信息转移到目标任务[375]。无监督预训练最近在语言处理（例如BERT[92]和GPT[269]）和计算机视觉任务（例如Momentum Contrast（MoCo）[150]和序列对比学习（SeCo）[368]）中取得了巨大成功。此外，自监督学习为学习跨模态特征表示提供了一个良好的机制。这些包括视觉和语言模型VL-BERT[313]和Auto-CapTIONs[256]。为了说明无监督预训练的有效性，[112]进行了一系列实验，说明它可以驱动学习进入产生更好泛化的最小值盆地。

3.2.3 可解释的机器学习 在本节中，我们回顾了第2.3.1节中提到的机器学习可解释性的两个方面的代表性方法及其在不同任务中的应用。

可解释机器学习模型设计。尽管被认为在性能方面存在劣势，但可解释模型近年来得到了积极研究，并且研究了各种完全或部分可解释的机器学习模型，以推动它们的性能极限。

自解释机器学习模型。多年来，机器学习领域研究了许多自解释模型。其中的代表性模型包括KNN、线性/逻辑回归、决策树/规则以及概率图模型[24, 47, 141, 250]。需要注意的是，这些模型的自解释性有时会因其复杂性而受到损害。例如，非常复杂的树结构或规则结构有时可能被认为难以理解或无法解释。

除了传统模型外，一些其他学习范式也被认为是可解释的，例如因果推断[197, 259]和知识图谱[345]。这些方法也有望为解决机器学习的可解释性问题提供宝贵的启示。

超越自解释机器学习模型。与深度神经网络（DNN）等黑盒模型相比，传统自解释模型在复杂任务（如图像分类和文本理解）上的性能较差。为了在可解释性和性能之间取得平衡，提出了自解释模型和黑盒模型的混合组合。一种典型的设计是将可解释的瓶颈模型嵌入到DNN中。例如，先前的研究已经将线性模型和原型选择嵌入到DNN中[16, 20, 73]。在著名的类别激活映射[389]中，DNN末端的平均池化层也可以被视为一个可解释的线性瓶颈。注意力机制[30, 363]也引起了最近的关注，并在一些研究中被视作DNN中的可解释瓶颈[79, 237]。然而，这一观点仍在争论之中，因为代表不同解释的注意力权重可能会产生类似的最终预测结果[170, 355]。

事后模型解释。除了设计自解释模型外，理解黑盒模型是如何做出特定决策的也是一个重要问题。针对这一问题的研究大部分集中在事后模型解释的方法论上，并提出了各种方法。

解释器近似旨在用可解释的模型来模仿给定模型的行为。这也可以被称为模型的全局解释。为了近似机器学习模型，已经提出了多种方法，例如随机森林[317, 392]和神经网络[28, 86, 393]。随着过去十年深度学习的兴起，DNN上的解释器近似已经发展为树等解释器上的知识蒸馏问题[125, 384]。

3.2.4 算法公平性。在算法开发过程中减少人工智能模型偏见的方法可以在数据输入模型之前（预处理）、模型训练时（中处理）或模型训练后对模型预测进行干预（后处理）。

预处理方法。除了对数据收集过程进行去偏见处理外，我们还可以在模型训练之前对数据进行去偏见处理。常见方法包括：

调整样本重要性。如果对数据收集过程去偏见不足或不再可能，这将特别有帮助。常见方法包括重采样[6]，涉及选择数据的一个子集；重加权[60]，涉及为数据样本分配不同的重要性值；以及对抗学习[229]，可以通过借助训练有素的模型进行重采样或重加权来实现，以找到违规案例。除了有助于平衡分类准确性外，这些方法还可以应用于平衡分类错误的成本，以提高某些群体的性能[163]（例如，在筛查高度传染性和严重疾病时，假阴性可能比假阳性代价更高；参见成本敏感学习[321]）。
调整特征重要性。特征与敏感变量之间的偶然相关性可能导致不公平。去偏见的常见方法包括表示转换[61]，可以帮助调整特征的相对重要性；以及屏蔽[74]，省略与敏感变量直接相关的特征。
数据增强。除了直接使用现有的数据样本外，还可以引入额外的样本，通常涉及对现有样本进行更改，包括通过扰动和重新标记[60, 85]。

自解释机器学习模型。多年来，机器学习领域研究了许多自解释模型。其中的代表性模型包括KNN、线性/逻辑回归、决策树/规则以及概率图模型[24, 47, 141, 250]。需要注意的是，这些模型的自解释性有时会因其复杂性而受到损害。例如，非常复杂的树结构或规则结构有时可能被认为难以理解或无法解释。

超越自解释机器学习模型。与深度神经网络（DNN）等黑盒模型相比，传统自解释模型在复杂任务（如图像分类和文本理解）上的性能较差。为了在可解释性和性能之间取得平衡，提出了自解释模型和黑盒模型的混合组合。一种典型的设计是将可解释的瓶颈模型嵌入到DNN中。例如，先前的研究已经将线性模型和原型选择嵌入到DNN中[16, 20, 73]。在著名的类别激活映射[389]中，DNN末端的平均池化层也可以被视为一个可解释的线性瓶颈。注意力机制[30, 363]也引起了最近的关注，并在一些研究中被视作DNN中的可解释瓶颈[79, 237]。然而，这一观点仍在争论之中，因为代表不同解释的注意力权重可能会产生类似的最终预测结果[170, 355]。

事后模型解释。除了设计自解释模型外，理解黑盒模型是如何做出特定决策的也是一个重要问题。针对这一问题的研究大部分集中在事后模型解释的方法论上，并提出了各种方法。

中处理方法。预处理技术在模型训练期间并不一定能达到预期的效果，因为不同的模型可能会以不同的方式利用特征和样本。这正是中处理技术可以发挥作用的地方：

调整样本重要性。与预处理方法类似，重加权[195]和对抗学习[68]可以用于中处理，有可能利用尚未完全优化的模型参数或预测，更直接地对模型进行去偏见处理。
与优化相关的技术。或者，可以通过优化技术更直接地强制模型公平性。例如，可以使用定量的公平性指标作为正则化[7]或模型参数优化的约束条件[67]。

后处理方法。即使在数据策划和模型训练方面采取了所有预防措施，最终的模型可能仍然表现出意想不到的偏见。后处理技术可以用于去偏见，通常借助辅助模型或超参数来调整模型输出。例如，可以应用优化技术（例如，约束优化）来训练一个较小的模型，以转换模型输出或校准模型置信度[186]。对多个模型的预测结果进行重加权也有助于减少偏见[168]。

3.2.5 隐私计算。除了在第3.1.2节中介绍的隐私保护数据处理方法外，另一类方法在模型学习期间保护数据隐私。在这一部分中，我们简要回顾了这类算法的两个流行类别：安全多方计算和联邦学习。

安全多方计算（SMPC）处理的是多个数据所有者计算一个函数的任务，同时保护数据的隐私，且没有可信的第三方作为协调者。一个典型的SMPC协议满足隐私性、正确性、输入独立性、保证输出交付和公平性等属性[114, 387]。混淆电路是安全两方计算的一个代表性范例[244, 367]。无意识传输是其中的关键技术之一。它保证发送方不知道接收方从传输的消息中获得了什么信息。对于多方条件，秘密共享是其中一个通用框架[181]。每个数据实例被视为一个秘密，并被分割成多个份额。然后将这些份额分配给多个参与方。函数值的计算被分解为基本操作，这些操作按照给定的协议进行计算。

在模型特定的学习任务（例如，线性回归[128]和逻辑回归[300]）以及通用模型学习任务[247]的背景下，SMPC在机器学习任务中的使用已经被研究。安全推理是一个新兴的话题，它为机器学习定制了SMPC。其在机器学习中的应用是作为一种服务，服务器持有模型，而客户端持有私有数据。为了降低SMPC的计算和通信成本，参考文献[8, 32]中将参数量化和函数近似与密码学协议一起使用。一些工具已经被开源，例如MP2ML[48]、CryptoSPN[330]、CrypTFlow[200, 276]和CrypTen[188]。

联邦学习（FL）最初被提出作为一种安全方案，用于在用户与其设备交互的数据上协作训练机器学习模型[241]。它迅速在学术界和工业界引起了广泛兴趣，作为一种利用多方数据进行协作模型训练任务的解决方案。它旨在解决阻碍机器学习算法适当使用多个数据源的数据隐私问题。它已经被应用于许多领域，如医疗保健[282, 299]和金融[223]。

现有的联邦学习算法可以分为横向联邦学习、纵向联邦学习和联邦迁移学习算法[365]。横向联邦学习指的是每个参与方拥有不同的样本，但样本共享相同的特征空间的情况。一个训练步骤被分解为首先在每个客户端上计算优化更新，然后在中心服务器上聚合这些更新，而无需了解客户端的私有数据[241]。纵向联邦学习指的是所有参与方共享相同的样本ID空间，但具有不同特征的设置。参考文献[148]使用同态加密进行基于垂直逻辑回归的模型学习。在参考文献[138]中，提出了一种高效的核学习方法。联邦迁移学习适用于在样本或特征空间中没有任何一方重叠的情况[222]。参考文献[180]讨论了联邦学习与其他研究主题（如多任务学习、元学习和公平学习）之间的联系。为了加快联邦学习相关的研究和开发，许多开源库已经被发布，例如FATE、FedML[149]和FedlearnAlgo[217]。

3.3 开发制造可靠的产品需要在软件工程方面付出相当大的努力，而这一点有时会被人工智能开发者忽视。这种缺乏严谨性的行为，例如测试和监控不足，可能会在人工智能产品的后续生命周期中（即所谓的技术债务[296]）带来长期成本。软件工程在开发和部署阶段最近引起了广泛关注，被认为是可靠人工智能系统的一个基本条件[17, 203]。此外，针对这一阶段研究的各种技术可以为人工智能系统的可信性做出贡献[17]。在本节中，我们对代表性技术进行了调查。

3.3.1 功能测试从经典软件工程的工作流程继承而来，测试方法在人工智能系统的开发中受到了越来越多的关注。在人工智能可信性方面，测试是一种有效的方法，用于证明系统是否满足特定要求。最近的研究探索了如何将功能测试适应于人工智能系统。这一内容已在文献中进行了回顾，例如参考文献[164, 235, 381]。我们从文献中描述了两个有助于增强人工智能系统可信性的适应方面。

测试标准与经典软件工程中测试系统实际输出与预期输出之间的精确等价性不同，人工智能系统通常通过其在特定测试数据集上的预测准确性进行测试。除了准确性之外，还研究了各种测试标准，以进一步反映和测试人工智能系统的更复杂属性。软件测试中的测试覆盖概念已被移植到深度神经网络（DNN）模型中[226, 260]。一个代表性指标的名称——神经元覆盖[260]——形象地说明了它测量DNN中激活神经元的覆盖范围，类似于经典软件测试中的代码分支。这种覆盖标准对于证明DNN对抗对抗性攻击的鲁棒性非常有效[226]。
测试用例生成人工标注的数据集不足以彻底测试人工智能系统，大规模自动生成的测试用例被广泛使用。与经典软件测试类似，自动生成预期真实值的问题（称为“预言机问题”[34]）也出现在人工智能软件测试场景中。手工制作的测试用例模板是在自然语言处理（NLP）应用中的一种直观但有效的方法[281]。形态测试也是一种实用的方法，将输入/输出对转换为新的测试用例。例如，[382]使用生成对抗网络（GAN）将白天拍摄的道路场景图像转换为雨天图像作为新的测试用例，并重新使用原始的、不变的标注来测试自动驾驶系统。这些测试用例对于评估人工智能模型的泛化性能非常有用。类似的方法通过在正常图像中添加对抗性模式来测试对抗性鲁棒性[226]。模拟环境也被广泛用于测试计算机视觉和强化学习等应用。我们将在第3.3.3节中进一步回顾这一主题。

3.3.2 性能基准测试
与传统软件不同，人工智能系统的功能往往不能仅通过功能测试轻易捕捉。为了确保系统在不同方面的可信性，基准测试（即软件工程中的性能测试）通常被应用于确保系统性能和稳定性，当这些特性可以自动测量时。

鲁棒性是可信性的一个重要方面，相对容易进行自动评估。参考文献[88, 153]介绍了一系列黑盒和白盒攻击，用于自动评估人工智能系统的鲁棒性。这可以在这些系统部署前影响数百万用户之前作为一项基本检查。软件公平性自传统软件测试以来一直是一个问题[56, 127]。已研究了人工智能系统的标准，通过调查敏感属性、系统结果和真实标签（如果适用）之间的相关性，以发现不公平问题，特别是在精心设计的诊断数据集上[327]。文献中提出了精心策划的数据集和指标，以评估对不同任务感兴趣的公平性指标的性能[40, 123, 307]。

最近，随着模型在自然语言处理（NLP）应用中输出解释，对可解释性的基准测试越来越感兴趣。例如，参考文献[238]要求众包工人标注导致他们认为文本是仇恨或冒犯性的突出文本片段，并检查模型预测的重要性与人类标注的契合程度。相反，参考文献[93]向人类标注者引入文本的部分扰动，并观察系统的解释是否与改变人类决策的扰动相匹配。与此同时，参考文献[267]报告称，可解释性基准测试仍然相对困难，因为视觉刺激是高维且连续的。

3.3.3 基于模拟的开发
虽然基准测试用于评估人工智能系统在静态数据下的预测行为，但许多系统的动态行为与其与世界的交互密切相关。例如，仅在静态场景中对自动驾驶车辆系统进行基准测试是不足以帮助我们评估其在动态道路上的表现的。对于这些系统，模拟在部署前确保其可信性方面通常发挥着重要作用。

机器人技术是人工智能的一个子领域，其中模拟最为常用。机器人的控制系统可以在模拟环境中进行比较和基准测试，例如Gazebo[192]、MuJoCo[324]和VerifAI[103]。类似地，自动驾驶车辆的模拟器已被广泛使用，包括CARLA[102]、TORCS[359]、CarSim[42]和PRESCAN[323]。这些软件平台模拟了机器人和车辆运行的环境以及对模拟机器人或汽车的控制操作。在自然语言处理（尤其是对话式人工智能）中，模拟器被广泛用于模拟用户行为，以通过对话测试系统能力并满足用户需求[205]。这些模拟器可以帮助在交互环境中自动确保人工智能系统的性能，并在部署前诊断问题。

尽管软件模拟器提供了效率、灵活性和可复制性，但它们通常仍然无法完美模拟人工智能系统在部署时面临的约束以及环境属性或其中的变化。对于部署在嵌入式或其他封装硬件上的人工智能系统，了解它们在实际场景中使用的硬件上运行时的行为至关重要。硬件在环（HIL）模拟可以帮助开发人员了解系统在模拟环境中运行在芯片、传感器和执行器上的性能表现，对于自动驾驶系统等对延迟和功耗敏感的系统尤其有帮助[50, 54]。通过将真实世界模拟进一步推进一步，还可以构建受控的真实世界环境，让完全集成的人工智能系统在其中运行（例如，为自动驾驶汽车设置带有路标和假障碍物的测试轨道）。这可以在向用户发布这些系统之前提供更现实的性能测量和保证。

3.4 部署
在开发完成后，人工智能系统会被部署到实际产品中，并与环境和用户进行交互。为了确保这些系统是可信的，在部署阶段应该考虑许多方法，例如增加额外的组件来监控异常，以及开发特定的人工智能交互机制以增强透明度和可解释性。

3.4.1 异常监控
异常监控已经成为软件工程中一种成熟的方法。对于人工智能系统而言，监控的范围进一步扩展到覆盖数据异常值、数据漂移和模型性能。作为人工智能系统成功运行的关键保障，监控提供了增强系统在多个方面可信性的手段。以下讨论一些代表性示例。

攻击监控已在传统的SaaS（软件即服务）中被广泛采用，例如在电子商务系统中的欺诈检测[3]。对于最近出现的对抗性攻击，检测和监控此类攻击输入也被认为是确保系统鲁棒性的重要手段[243]。数据漂移监控[268]为在动态环境（如市场变化[289]）导致的概念变化[394]下维持人工智能系统的泛化能力提供了重要手段。滥用监控最近也在几项云人工智能服务[173]中被采用，以避免不当使用，例如未经授权的人群监控或通过人脸识别进行个人跟踪，这有助于确保伦理价值的正确对齐。

3.4.2 人机交互
作为人机交互（HCI）的延伸，人机交互在人工智能行业引起了广泛关注[4, 18]。有效的人机交互在多个方面影响人工智能系统的可信性。我们简要阐述两个主题。

用户界面是最直接影响用户体验的因素。它是人工智能系统向用户披露其内部信息和决策过程的主要媒介，因此对系统的透明度和可解释性具有重要影响[301, 351]。为了增强人工智能的可解释性，已经研究了各种交互方法，包括机器学习模型的可视化[72]和交互式参数调整[351]。除了透明度和可解释性外，界面的可访问性也显著影响用户对可信性的体验。基于人工智能的交互技术已经实现了各种新型人

机界面，例如聊天机器人、语音识别和手势识别，这些技术可能会导致残疾人面临可访问性问题。减轻这种不公平性在最近的研究中引起了关注[179, 326]。

人为干预，例如通过监控故障或参与决策[295]，已被应用于各种人工智能系统，以弥补性能的不足。高级驾驶辅助系统（ADAS）可以被视为涉及人为干预的系统的典型例子，其中人工智能负责低级驾驶任务，而人类负责高级决策。除了弥补决策能力外，人为干预在许多场景中为训练或微调人工智能系统提供了信息监督，例如自动驾驶汽车的影子模式[319]。为了在这些人机交互中最小化并充分利用人力，在人机交互（HCI）和人工智能的跨学科工作中，高效设计人机协作模式是一个新兴主题，并在文献中被称为“人在回路”或交互式机器学习[157]。

3.4.3 故障安全机制
考虑到当前人工智能系统的不完美性，在系统在特殊情况下失败时避免造成伤害非常重要。通过借鉴传统的实时自动化系统，人工智能社区意识到，如果人工智能系统的失败可能导致伤害或损失，那么故障安全机制或备用计划应该是人工智能系统设计的一个基本组成部分。

这种机制也作为一项重要要求出现在最近的人工智能指导方针中，例如参考文献[9]。在过去的几年中，故障安全设计已在机器人技术的多个领域得到应用。在无人机（UAV）领域，故障安全算法已被长期研究，以避免四旋翼飞行器的频繁碰撞[126]，并确保在系统故障时安全着陆[252]。在安全至关重要的自动驾驶领域，像静止不动这样的故障安全机制已成为高级驾驶辅助系统（ADAS）产品中不可或缺的组成部分[160]，并且正在更高水平的自动化中进行研究[230]。

3.4.4 硬件安全
人工智能系统被广泛部署在各种硬件平台上，以应对从计算中心的服务器到手机和嵌入式系统的多样化场景。对操作系统和硬件的攻击导致了新的风险，例如数据篡改或窃取，这些风险威胁到人工智能系统的鲁棒性、安全性和隐私性。已经研究了各种方法来应对这一新威胁[364]。从硬件安全的角度来看，可信执行环境（TEE）的概念是一种最近被许多硬件制造商采用的代表性技术[287]。TEE的一般机制是为数据和代码提供一个安全区域。该区域不受标准操作系统的干扰，使得受保护的程序不会受到攻击。ARM处理器使用TrustZone设计[264]支持TEE的实现。它们在单个内核上同时运行一个安全操作系统和一个普通操作系统。安全部分为敏感信息提供了一个安全的环境。英特尔软件保护扩展通过基于硬件的内存加密实现TEE[240]。其飞地机制允许分配受保护的内存来存储私有信息。这些安全机制已被用于保护敏感信息，如生物识别ID和金融账户密码，并且适用于其他人工智能用例。

3.5 管理
研究人员和开发人员等人工智能从业者已经在数据、算法、开发和部署阶段研究了各种技术，以提高人工智能的可信性。除了这些具体方法外，适当的管理和治理为人工智能系统的整个生命周期中可信性的一致对齐提供了全面的保证。在本节中，我们介绍几种可执行的方法，以帮助人工智能社区改进对人工智能可信性的管理和治理。

3.5.1 文档化
传统软件工程在利用文档协助开发方面积累了丰富的经验。代表性文档类型包括需求文档、产品设计文档、架构文档、代码文档和测试文档[11]。除了传统软件工程外，还提出了多种新类型的文档以适应机器学习的训练和测试机制。其范围可能包括模型的目的和特性[246]、数据集[41, 129, 156]和服务[22]。正如第2.3.2节和第2.7节中提到的，文档是一种有效且重要的方法，通过跟踪、指导和审计系统的整个生命周期来增强系统的透明度和问责性[272]，并作为构建可信人工智能系统的基石。

3.5.2 审计
借鉴了金融和航空航天等安全关键行业的经验教训，审计最近被公认为是一种有效的机制，用于检查人工智能系统是否符合特定原则[58, 356]。就审计人员的立场而言，审计过程可以分为内部审计或外部审计。内部审计使制造商能够进行自我评估和迭代改进，以遵循可信性的原则。它可以覆盖系统的整个生命周期，而不会泄露商业机密[272]。然而，由独立方进行的外部审计在获得公众信任方面更为有效[58]。

审计可能涉及人工智能系统整个生命周期或其部分环节。可以在参考文献[272]中找到一个全面的内部审计框架。审计的手段可能包括访谈、文档记录、清单、代码审查、测试和影响评估。例如，像产品需求文档、模型卡片[246]和数据表[129]这样的文档是理解开发过程中原则对齐的重要参考。清单被广泛用作一种直接的定性方法来评估公平性[228]、透明度[292]和可重复性[263]。定量测试也是一种强大的方法，并已成功用于审计公平性，例如在“性别阴影”研究[58]中。受欧盟数据保护影响评估（DPIA）的启发，提出了算法影响评估的概念，以评估可信性的主张并发现负面影响[277]。除了上述代表性内容外，算法审计方法的设计可以在参考文献[290, 356]中找到。

3.5.3 合作与信息共享
如图2所示，建立可信人工智能需要利益相关者之间的合作。从行业角度来看，与学术界的合作能够使新技术快速应用于产品，提升产品性能并降低其带来的风险。与监管机构的合作则可以证明产品是否适当遵循了可信性的原则。此外，工业企业之间的合作有助于解决基于共识的问题，例如数据交换、标准化和生态系统建设[27]。人工智能利益相关者近期的实践表明，合作在多个维度上是有效的。我们在以下方面总结了这些实践。

合作研究与开发
合作一直是人工智能技术发展的强大动力。为了推动人工智能可信性的研究，利益相关者正在建立各种形式的合作，例如可信人工智能的研究研讨会和DARPA可解释人工智能（XAI）[144]等合作项目。
可信的数据交换
数据日益增长的商业价值提高了在各种场景下（例如第2.6节中的医疗人工智能系统）跨公司交换数据的需求。除了基于隐私的计算技术外，数据所有者、技术提供商和监管机构之间的合作正在推进数据交换生态系统的建立，并解决数据定价和数据授权等问题。
合作制定法规
积极参与标准和法规的制定是学术界、行业和监管机构对齐要求和情况的重要手段。
事件共享
人工智能社区最近认识到事件共享是一种有效的方法，可以突出并预防人工智能系统的潜在风险[57]。人工智能事件数据库[91]为利益相关者共享负面人工智能事件提供了一个启发性的例子，以便行业能够避免类似问题。

3.6 TrustAIOps：迈向可信性的持续工作流

可信人工智能的问题源于人工智能技术的快速发展及其新兴应用。人工智能的可信性并非是一个可以通过某些特定解决方案达到的静态标准。可信性的建立是一个动态过程。在过去十年中，我们见证了可信性在不同维度上的演变[178]。例如，对抗性攻击的研究增加了对对抗鲁棒性的关注。安全关键场景的应用使得人工智能系统的问责性要求更加严格。人工智能研究的发展、人工智能产品形式的演变以及社会视角的变化意味着可信性要求及其解决方案需要持续重新制定。因此，我们认为，除了人工智能产品的要求外，人工智能行业应该将可信性视为其运营常规的一部分，并准备好持续提升其产品的可信性。

人工智能可信性的持续提升对人工智能行业提出了新的工作流要求。最近对工业人工智能工作流的研究将DevOps[36]的机制扩展到MLOps[233]，以实现机器学习产品的改进。DevOps的概念已被现代软件开发采用，以持续部署软件功能并提高其质量。MLOps[233]及其变体（如ModelOps[165]和SafetyOps[303]）将DevOps扩展到工作流中，涵盖机器学习生命周期的数据准备、训练、验证和部署。MLOps的工作流为构建可信人工智能的工作流提供了起点。通过整合机器学习生命周期，MLOps将研究、实验和产品开发联系起来，以便快速利用可信人工智能的理论发展。最近，大量的MLOps工具链被发布，用于跟踪数据、模型和元数据等人工智能工件，以提高产品的可问责性和可重复性[165]。最近的研究试图进一步将可信性整合到人工智能工作流中。例如，[303]通过将安全工程扩展到MLOps中，为自动驾驶开发了SafetyOps。

正如我们在本节中所阐述的，建立可信性需要持续和系统地升级人工智能生命周期。通过扩展MLOps，我们将这种实践的升级总结为一个新的工作流——TrustAIOps，它专注于在整个人工智能生命周期中施加可信性的要求。这个新的工作流具有以下特点：

跨学科角色之间的紧密合作。建立可信人工智能需要组织不同的角色，如机器学习研究人员、软件工程师、安全工程师和法律专家。紧密合作可以减轻专业知识形式之间的知识差距（例如，参考文献[208]，参见第3.5.3节和附录A.2）。
统一的可信性原则。人工智能系统的生命周期的每个阶段都存在不可信的风险。减轻这些风险需要人工智能行业的所有利益相关者意识到并统一于可信性原则（例如，参考文献[301]，参见附录A.2）。
广泛的工件管理。工业人工智能系统是基于各种工件构建的，如数据、代码、模型、配置、产品设计和操作手册。这些工件的精心管理有助于评估风险，并提高可重复性和可审计性（参见第3.5.1节）。
持续的反馈循环。经典的持续集成和持续开发（CI/CD）工作流提供了通过反馈循环改进软件的有效机制。在一个可信的人工智能系统中，这些反馈循环应该连接并迭代改进其生命周期的五个阶段，即数据、算法、开发、部署和管理（例如，参考文献[272, 310]）。

人工智能工业工作流的演变是建立其可信性的动态过程的自然反映。通过系统地组织人工智能生命周期的阶段和跨学科从业者，人工智能行业能够从技术、法律和社会等多个角度理解可信性的要求，并持续提供改进。

4 结论、挑战与机遇
在本综述中，我们概述了我们认为对人工智能系统至关重要的可信性的关键方面。我们介绍了如何在这些方面对人工智能系统进行评估和评估，并回顾了行业在这一方向上的当前努力。我们进一步提出了一种系统化的方法，以在现实世界中的人工智能系统的整个生命周期中考虑这些可信性的方面，为开发和使用这些系统的每一步提供建议。我们认识到，完全采用这种系统化的方法来构建可信的人工智能系统，需要从业者接受我们所确定的关键方面的基本概念。更重要的是，它需要从以性能驱动的人工智能转向以可信性驱动的人工智能。

在短期内，这种转变不可避免地会带来一些副作用，例如更长的学习时间、开发速度减慢和/或构建人工智能系统的成本增加。然而，我们鼓励从业者关注获得所有利益相关者信任的长期利益，以实现这些系统的持续使用和发展。在本节中，我们通过讨论可信人工智能未来发展的一些开放性挑战和潜在机遇来结束本文。

4.1 人工智能可信性作为长期研究
我们对人工智能可信性的理解远非完整或普遍，并且随着我们开发新的AI技术以及更清晰地了解其对社会的影响，它将不可避免地发展。这一过程需要在人工智能的多个关键领域进行长期研究。在本节中，我们讨论了一些我们认为对人工智能可信性未来发展至关重要的开放性问题。

4.1.1 可信性方法的不成熟性
如第2节所述，人工智能可信性的几个方面，如可解释性和鲁棒性，解决了当前人工智能技术的局限性。尽管人工智能研究引起了广泛关注，但令人满意的解决方案仍然遥不可及。以可解释性为例。尽管这是一个活跃的人工智能研究领域，但目前仍不被充分理解。当前的解释模型和事后模型解释技术有一些共同的问题，例如：（1）解释对扰动很脆弱[130]；（2）解释并不总是与人类解释一致[47]；（3）很难判断解释是否正确或忠实[250]。这些问题在可解释性的研究中提出了重要的问题，并为人工智能理论研究提供了有价值的研究方向。

另一个例子是鲁棒性。对抗性攻击和防御之间的军备竞赛反映了我们对人工智能鲁棒性理解的不成熟。与其他安全领域一样，攻击随着防御的发展而演变。传统的对抗训练[134]已被证明很容易被随后开发的攻击所欺骗[328]。相应的防御[328]后来被证明对新攻击[99]存在漏洞。这不仅要求从业者在长期和持续的发展过程中灵活采用防御技术，以减轻新攻击的风险，而且也对理论研究提出了长期挑战[270]。

4.1.2 可信性方面的摩擦影响
如我们在第2节中所展示的，可信性的不同方面之间存在着丰富的联系和支持。然而，研究表明，在某些情况下，这些方面之间存在摩擦或权衡，我们在此进行回顾。

增加透明度可以通过信息披露来增强人工智能系统的信任。然而，披露不适当的信息可能会增加潜在风险。例如，对数据集和算法的过度透明可能会泄露私人数据和商业知识产权。披露详细的算法机制也可能导致有针对性的黑客攻击风险[12]。然而，不适当的解释也可能导致用户过度依赖系统并遵循人工智能的错误决策[311]。因此，人工智能系统的透明度程度应根据公众用户、运营商和审计师的角色...

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.