网易首页 > 网易号 > 正文 申请入驻

可量化论证框架中的争议性

0
分享至

Contestability in Quantitative Argumentation

可量化论证框架中的争议性

https://www.arxiv.org/pdf/2507.11323

概述:本文提出了一种动态调整边权的方法以增强模型的解释性和适应性。论文通过理论分析和实验(如电影推荐系统)表明,传统的EW-QBAFs在固定边权下难以准确反映用户偏好和不确定性。作者引入了一种基于G-RAEs(渐进式边权调整算法),通过迭代优化边权,使模型能够更好地模拟复杂关系(如支持和攻击),并在XOR MNIST等任务中验证其有效性。研究强调,可争性AI需通过动态调整实现对个体偏好和情境的敏感性。

推荐原因

  1. 创新性:提出G-RAEs算法,突破传统EW-QBAFs的静态限制,适合AI领域研究者探索可解释性和动态适应的前沿。
  2. 实用性 :在电影推荐等应用中验证了方法的可行性,有助于开发者优化个性化推荐系统,提升用户体验。
  3. 理论价值:结合量化论证与可争性设计,为AI系统的透明度和适应性提供新视角,特别是在决策支持场景中具有参考意义

摘要

可争议的人工智能要求由AI驱动的决策与人类偏好保持一致。尽管各种形式的论证已被证明有助于实现可争议性,但加权定量双极论证框架(EW-QBAFs)却鲜受关注。在本研究中,我们展示了如何将EW-QBAFs用于这一目的。具体而言,我们提出了EW-QBAFs的可争议性问题,该问题旨在探讨如何修改边权重(例如偏好),以实现对特定目标论证(即主题论证)的期望强度。为解决这一问题,我们提出了一种基于梯度的关系归因解释方法(G-RAEs),该方法量化了主题论证强度对单个边权重变化的敏感性,从而为朝向可争议性的权重调整提供可解释的指导。基于G-RAEs,我们开发了一种迭代算法,逐步调整边权重以达到期望的强度。我们在模拟个性化推荐系统和多层感知机结构特征的合成EW-QBAFs上对本方法进行了实验评估,结果表明该方法能够有效解决该问题。

1 引言

可争议人工智能(Contestable AI)(Lyons, Velloso, and Miller 2021;Alfrink et al. 2023;Leofante et al. 2024)研究的是允许用户挑战其输出结果的AI系统。当这些输出偏离预期或理想结果时,这一点尤为重要。此类偏差可能源于模型错误或与人类偏好的不一致。为了实现可争议的人工智能,近期研究(Leofante et al. 2024)提倡采用计算论证(computational argumentation)(参见 Atkinson et al. 2017 以了解综述)作为一种有前景的范式,因为其固有的能力能够支持冲突解决、可解释性以及交互性(例如,如 Cocarascu, Rago, and Toni 2019;Freedman et al. 2025;Rago, Li, and Toni 2023;Russo and Toni 2023 所示),而这些特性已被公认对可争议人工智能至关重要(Lyons, Velloso, and Miller 2021;Alfrink et al. 2023;Almada 2019)。

在各种形式的计算论证中,边加权定量双极论证框架(Edge-Weighted Quantitative Bipolar Argumentation Frameworks,简称 EW-QBAFs)(Mossakowski and Neuhaus 2018)能够自然地以定量方式建模关于冲突和支撑信息的推理过程。一个EW-QBAF通常由四个组成部分构成:一组论证(arguments)、关系(包括攻击和支撑)、论证的基础得分(base scores),以及关系的边权重(edge weights)。论证的强度通过EW-QBAF语义进行评估,该评估依赖于基础得分、边权重以及其攻击者和支持者的强度。EW-QBAFs可以应用于多个领域。例如,某些神经网络可以被理解为EW-QBAFs,其中神经元作为论证,偏置作为基础得分,连接作为关系,连接权重作为边权重(Potyka 2021)。EW-QBAFs的限制条件也可以自然地建模个性化推荐系统(PRS)(Cocarascu, Rago, and Toni 2019;Battaglia et al. 2024;Rago et al. 2025)。例如,图1展示了一个基于EW-QBAFs的分层电影推荐系统:顶层论证反映对一部电影的整体评价,受诸如表演和编剧等标准论证的影响,而这些标准论证又进一步受到具体演员等子标准论证的影响。基础得分可以从电影评论中提取,而边权重则可能捕捉个体用户的偏好。


尽管EW-QBAFs具有内在的可解释性和广泛的应用潜力,但对其可争议性的关注仍然有限,特别是如何系统地调整边权重以使某个特定目标论证(即主题论证)达到期望的强度。这个问题对于挑战、优化和个性化EW-QBAFs的输出结果至关重要。例如,在基于EW-QBAF的个性化推荐系统中,边权重可以被调整以更好地反映个体人类偏好。

我们研究以下可争议性问题:给定一个主题论证 α 和一个期望的强度 s,如何修改边权重,使得 α 的强度变为 s?为便于解决该问题,我们引入了针对EW-QBAFs的梯度-based关系归因解释(G-RAEs)。直观上,G-RAEs量化了主题论证的强度对单个边权重变化的敏感性。因此,它们可以作为可解释的指标,提示应将某条边权重增加或减少多少。基于G-RAEs,我们设计了一种迭代算法,逐步调整边权重以达到期望的强度。在合成的EW-QBAFs上的实验结果表明,这些EW-QBAFs被设计用于模拟多层感知机(MLP)和个性化推荐系统(PRS)的结构,我们的启发式算法在达到期望强度方面是有效的,运行时间为多项式时间,并且能够很好地扩展到大型且密集的EW-QBAFs。

总结而言,我们的主要贡献如下:

  • 我们为EW-QBAFs引入了新的性质,用以解释边权重变化的影响(第4节)。

  • 我们正式定义了EW-QBAFs的可争议性问题(第5节)。

  • 我们正式定义了G-RAEs,并研究其是否满足现有性质(第6节)。

  • 我们基于G-RAEs开发了一种算法来解决可争议性问题(第7节)。

  • 我们通过实验证明了所提算法的有效性和可扩展性(第8节)。

所有技术证明和实现代码均提供在补充材料(SM)中。

2 相关工作

文献中已提出多种设计可争议人工智能系统的方案(Hirsch 等,2017;Almada,2019;Alfrink 等,2023;Russo 和 Toni,2023)。一篇近期的立场论文(Leofante 等,2024)将可争议人工智能解决方案划分为三个维度:被争议的实体、争议的主体以及争议的方法。在我们的工作中,被争议的实体是主题论证的强度;争议的主体是具有不同观点的人类(例如,个性化推荐系统(PRS)的用户或使用多层感知机(MLP)的领域专家);而争议方法则基于我们提出的新型概念——G-RAEs。

论证天然支持可争议性。例如,(Shao 等,2020)提出了基于结构化论证的学习方法,该方法利用神经网络等通用函数逼近器的表达能力,同时保留广泛的可计算推理过程。这些方法能够为决策过程提供论证式解释,进而可被质疑以促进模型修正,例如,当模型得出正确输出但基于错误推理时。

与我们的工作类似,(Freedman 等,2025)采用定量双极论证框架(QBAFs)来增强大型语言模型(LLMs)在声明验证场景中的可解释性与可争议性。在该研究中,主题论证的强度可以通过修改基础得分,或引入新的论证与关系来进行争议。我们的可争议性问题也与(Yin、Potyka 和 Toni,2024b)中提出的反事实问题相关。反事实问题研究如何通过修改基础得分来改变决策(例如,在贷款审批系统中调整信用评分),而我们的可争议性问题则聚焦于修改边权重。前者可视为调整对某个论证的先验信念,而后者则对应于调整某个论证在讨论中的相关性。

从更广泛的意义上讲,我们的工作与机器学习中的归因解释(Baehrens 等,2010;Ribeiro、Singh 和 Guestrin,2016;Lundberg 和 Lee,2017),以及论证归因解释(AAEs)(Cyras、Kampik 和 Weng,2022;Yin、Potyka 和 Toni,2024a;Kampik 等,2024)和关系归因解释(RAEs)(Amgoud、Ben-Naim 和 Vesic,2017;Yin、Potyka 和 Toni,2024c)密切相关。AAEs 和 RAEs 分别旨在量化单个论证和关系对主题论证的影响。例如,基于梯度的 AAEs 通过计算主题论证强度相对于影响性论证基础得分的梯度来评估这种影响,从而捕捉前者对后者的敏感性。相比之下,基于 Shapley 值的 RAEs 则借助博弈论中的 Shapley 值(Shapley,1953)来量化某条关系(即攻击或支撑)对主题论证的影响。我们的 G-RAEs 采用了基于梯度的 AAEs 的思想,但专注于评估关系的重要性,正如 RAEs 所做的那样。

3 预备知识

我们考虑类似于(Mossakowski 和 Neuhaus 2018;Potyka 2021)的加权定量双极论证框架(EW-QBAFs)。



QBAF 的语义通常属于模块化语义家族(Mossakowski 和 Neuhaus 2018)。对于这类语义,强度值通过一种迭代更新过程计算得出,该过程首先将强度值初始化为基础得分,然后反复进行更新。它们被称为“模块化”,是因为更新函数可以分解为两个部分:一个聚合函数,用于聚合攻击者和支持者的强度值;以及一个影响函数,根据聚合结果调整基础得分。聚合函数的形式为 agg(A, S),其中 A 和 S 分别是攻击值和支持值的多重集合。示例包括:


乘积聚合用于 DF-QuAD 语义(Rago 等,2016),而求和聚合则用于受限欧拉语义(REB)(Amgoud 和 Ben-Naim,2016;Amgoud 和 Ben-Naim,2018)、二次能量(QE)语义(Potyka,2018)以及基于多层感知机(MLP)的语义(Potyka,2021)。在标准的 QBAF 设置中,A 和 S 初始化为攻击者和支持者的强度值。而在 EW-QBAF 设置中,我们可以改用带边权重的强度值。也就是说,对于一个(临时的)强度函数 σ 和一个论证 α,我们考虑以下多重集合:


随后,该聚合结果可像往常一样输入到影响函数中。影响函数的形式为 infl(B, A),其中 B 是基础得分,A 是一个实数(由聚合函数计算得出的聚合值)。直观上,当聚合值大于 0 时,影响函数会增加基础得分;当聚合值小于 0 时,则会降低基础得分,同时遵守强度域 [0, 1] 的上下界约束。例如,DF-QuAD(Rago 等,2016)和 QE(Potyka,2018)语义的影响函数具有如下形式:


对于无环的 QBAF,该算法等价于按照论证的拓扑序进行一次简单的前向传播,强度值可在线性时间内计算得出(Potyka,2019)。对于有环的 QBAF,虽存在保证收敛的充分条件,但这些条件通常需要对论证的入度或基础得分做出较强假设(Mossakowski 和 Neuhaus,2018;Potyka,2019)。尽管这些条件并非必要,但文献中已存在大量有环 QBAF 的示例,表明在这些情况下算法无法收敛(Mossakowski 和 Neuhaus,2018;Potyka 和 Booth,2024),此时强度值将保持未定义。然而,在所有已知的情形中,收敛问题均可通过“连续化”语义来解决(Potyka,2018;Potyka,2019;Potyka 和 Booth,2024)。


4 EW-QBAF 的性质

在介绍可争议性问题之前,我们讨论一些 EW-QBAF 的性质,这些性质将在后续内容中有所帮助。这些性质与文献中已有的性质类似,但关注的是边权重的影响,而现有性质仅涵盖基础得分的影响。我们回顾一下来自 (Potyka 和 Booth 2024) 的一些定义。



如果可以将不等式替换为严格不等式(在第一项中排除 b = 0,在第二项中排除 b = 1),则 infl 满足严格单调性。

我们的第一个性质是中立性性质(Amgoud 和 Ben-Naim,2018)的一个变体,该性质指出强度为 0 的论点不产生任何影响。我们的“边中立性”性质同样要求:权重为 0 的边不产生任何影响。



引理4.如果一种模块化语义基于一个聚合函数 agg 和一个影响函数 infl,且这两个函数满足其对应的单调性性质,那么该语义在无环 EW-QBAF 类上满足单调性和边单调性。所有通常被考虑的聚合函数和影响函数均满足其对应的平衡性、单调性和中立性性质(Potyka 和 Booth 2024,引理10、14)。因此,我们前面的引理蕴含了以下结果。

命题1.边加权 QE、REB、DF-QuAD 和基于 MLP 的语义满足边中立性、边稳定性、边方向性、单调性和边单调性。

最后,后文我们将用到这样一个事实:在无环 EW-QBAF 下,这些语义中的强度函数关于边权重是可微的。

引理5.对于无环 EW-QBAF,在边加权 QE、REB、DF-QuAD 和基于 MLP 的语义下,强度函数关于边权重是可微的。

在接下来的部分中,我们将用 σ 表示上述任意一种边加权渐进语义。

5 可争议性问题

在本节中,我们定义并研究 EW-QBAF 的可争议性问题。我们将假设所讨论的 EW-QBAF 是无环的。虽然这是一种限制,但许多应用(如 PRS 系统(Cocarascu、Rago 和 Toni 2019;Battaglia 等 2024;Rago 等 2025))由于其层次化结构,自然会产生无环图。

直观上,EW-QBAF 的可争议性问题是指:寻找一种对边权重的修改方式,使得某个指定的主题论点达到期望的强度值。


作为一个例子,考虑图1中的EW-QBAF,其中用户对当前的电影评分得分 σ(a) = 0.827 不满意,而更倾向于一个较低的强度值 s = 0.3。这种情况可以被视为一个可争议性问题,即可以通过调整边权重来更好地反映用户的偏好。

我们的第一个问题是:对于给定的主题论点,是否可以实现任意期望的强度?Cocarascu 等人(2019)在标准 QBAF 框架中引入了一个“可达性”(attainability)性质,该性质考察在给定一组攻击者或支持者的情况下,能否达到某个主题论点的期望强度。在这里,我们将这一概念推广到 EW-QBAF 框架中,关注的是:通过修改边权重,是否能够使某个主题论点达到期望的强度。




6 解释与性质

在本节中,我们提出一种新颖的基于梯度的关系归因解释(G-RAE)概念,并研究其从文献中借鉴而来的相关性质。

6.1 G-RAE

为了在无环 EW-QBAF 中实现某个主题论点的期望强度,我们结合了基于梯度的 AAE(论证归因解释)与 RAE(关系归因解释)的思想,提出了一种新颖的 G-RAE 概念,用于刻画主题论点强度对各个边权重变化的敏感度。


作为解释得分,G-RAE 能够揭示每条边对主题论点影响的方向和程度,这在多个领域中具有实际应用价值,例如 PRS 的争议处理或 MLP 模型的调试。在这些场景中,识别并调整最具影响力的边可能直接提升用户满意度或改善模型性能。

示例2. 考虑图1中的 EW-QBAF,其中 σ 由基于 MLP 的语义给出。表1展示了相对于主题论点“Movie”的 G-RAE 值,按降序排列。


6.2 G-RAE 的性质

接下来,我们借鉴自(Yin, Potyka, and Toni 2024a; Yin, Potyka, and Toni 2024c)中常用的论证归因解释性质,对其进行适配,并检验这些性质在 G-RAE 中的满足情况。

我们首先在以下三个命题中分析直接边、间接边和独立边(定义4)的影响。直接影响力(Yin, Potyka, and Toni 2024a; Yin, Potyka, and Toni 2024c)表明,我们的 G-RAE 能够正确捕捉直接连接的定性效应:直接攻击(支持)对主题论点的影响始终为非正(非负)。


无关性指出:任何与主题论点无关的边均无影响。


接下来,我们将两个现有性质适配到 EW-QBAF 的设定下,并检验它们在直接边和间接边情况下的满足情况。反事实性(受 Yin, Potyka, and Toni 2024a; Yin, Potyka, and Toni 2024c 启发)考察当一条边被移除时,主题论点的强度如何变化——在我们的设定中,这对应于将边权重设为 0。


在本节中,我们定义了 G-RAE,并考察了三种连接类型的影响,随后分析了两个性质,最后展示了 G-RAE 的计算复杂度。我们分析了直接、间接和独立影响,但未考虑多重路径(multifold)的情况。这是因为,即使在单调性和边单调性(仅适用于直接边)的保证下,一条参与多重路径的边仍可能对主题论点产生非单调的影响,从而导致这些性质被违反。正如(Yin, Potyka, and Toni 2024a; Yin, Potyka, and Toni 2024c)所讨论的,这类影响可能出现在无限多种特殊情形中。例如,某条边同时参与多条路径,而这些路径对主题论点传递的定性影响不同(既有正面也有负面)。我们未对多重路径情况提供保证,因为这需要对攻击与支持路径的数量与强度进行过多的情形区分。然而,对直接和间接情况的性质分析仍具有重要的实际价值,因为许多应用都是基于树状结构的 QBAF(例如,(Cocarascu, Rago, and Toni 2019; Rago, Li, and Toni 2023; Kotonya and Toni 2019; Chi et al. 2021))。

7 可争议性算法

在本节中,我们提出一种用于 G-RAE 的近似算法,该算法也可应用于循环的 EW-QBAF;同时,我们还提出一种用于求解可争议性问题的迭代算法。

为简化实现并避免处理不同 EW-QBAF 结构上的变化,我们采用一种基于扰动的方法来近似计算 G-RAE。在无法解析计算梯度的情况下,基于扰动的方法在文献中也广泛用于梯度估计任务(例如,(Ozbulak 等 2020;Minervini、Franceschi 和 Niepert 2023))。算法1用于计算 EW-QBAF 中所有边相对于主题论点的 G-RAE。该算法首先根据渐进语义 σ 计算主题论点 α 的原始强度(第2行)。随后,对于一条边 r,算法将 w(r) 扰动一个值 ε,并基于扰动后的边权重重新计算 σ(α)(第4-5行)。边 r 的近似 G-RAE 通过将 α 的强度变化量除以 ε 得到(第6行)。在计算完边 r 的 G-RAE 后,恢复其原始权重 w(r),以便继续处理下一条边(第7行)。上述过程迭代执行,以计算所有边的 G-RAE。



由于 G-RAE 量化了边权重对主题论点强度变化的影响,我们利用它们引导一种迭代算法,通过调整边权重来求解可争议性问题。算法2首先根据渐进语义 σ 计算主题论点 α 的强度(第2行)。为简洁起见,我们假设当前主题论点的强度小于期望强度。如果当前强度与期望强度之间的差值超过预设的误差阈值 δ,且迭代次数尚未达到最大迭代限制 M(引入该限制是为了防止算法无限运行或陷入局部极小值)(第3行),则通过将各边的 G-RAE 乘以一个更新步长 h,并加到对应边权重上,来更新边权重(第6行)。由于边权重被约束在 [0, 1] 范围内,我们使用 max 和 min 函数确保更新后的权重保持在合法范围内(第7行)。所有边权重更新完毕后,重新计算 σ(α),并递减迭代计数器 M(第9-10行)。当 σ(α) 足够接近期望强度,或达到迭代次数上限时,算法终止。该算法的时间复杂度如下所示。



8 实验评估

我们通过两个潜在的应用场景评估了所提出的可争议性算法的有效性(即实现期望强度的能力)和可扩展性(在密集 EW-QBAF 上的性能):PR 系统(实验1)和 MLP 调试(实验2)¹。

算法参数设置在算法1中,扰动值 ε 被设为 10⁻⁵,用于近似计算边的 G-RAE。在算法2中,误差阈值 δ 设为 0.01,最大迭代次数 M 设为 1000。为了加速收敛,我们采用动态更新步长策略:当当前强度与期望强度差距较大时,使用较大的步长;当当前强度更接近期望强度时,则使用较小的步长。

8.1 实验1

在本实验中,我们旨在评估算法在无环 EW-QBAF 上的性能,这些结构模拟了 PRS 的典型结构,以展示其解决 EW-QBAF 结果与人类期望之间不一致问题的潜力。我们在此设定下评估了算法的有效性

实验设置为了随机生成无环 EW-QBAF,我们首先创建 n 个论点(α₁, ⋯, αₙ),每个论点被赋予一个从区间 [0,1] 均匀随机抽取的基础得分。对于每一对论点 (αᵢ, αⱼ),其中 i < j,以概率 p 生成一条边。由于许多应用中的 QBAF 通常包含少于 100 个论点,并且论点数和边数大致相等(例如,电影推荐系统(Cocarascu, Rago, and Toni 2019)、虚假新闻检测(Kotonya and Toni 2019)、欺诈检测(Chi et al. 2021)),我们生成了不同规模的 EW-QBAF,其中 n ∈ {10, 20, ..., 100},p = 2/n。每条边以相等概率随机指定为攻击或支持关系,其权重从区间 [0,1] 中均匀抽取。主题论点被指定为 αₙ,其期望强度设为可达到的最大强度和最小强度的均值。这一选择由定理2启发,该定理保证了均值总是可以达到的。需要注意的是,根据 p 的取值,主题论点在此设定下可能没有或仅有少数前驱节点。为了缓解随机性带来的影响,我们对每种规模生成了 100 个 QBAF 实例。为计算论点强度,我们采用了三种常见的渐进语义——QE(Potyka 2018)、REB(Amgoud and Ben-Naim 2018)和 DF-QuAD(Rago et al. 2016)——并分别进行了适配,以纳入边权重以适应我们的设定。

结果与分析我们评估了算法在不同语义和不同边数下的有效性(即是否达到期望强度)、运行时间以及尝试次数。我们首先分析有效性。在每种结构的全部 100 个 EW-QBAF 中,算法的有效性始终达到 100%,无论语义类型或边数如何,表明它总能成功识别出期望强度,这与定理2一致。

接下来,我们讨论尝试次数和算法运行时间。由于我们的算法基于梯度下降,存在收敛到局部极小值的风险。为应对这一问题,当在最大迭代次数 M 内未能找到解时,我们会调整初始搜索点并重新执行算法。在 REB 语义下,我们的算法在所有 EW-QBAF 规模上均首次尝试就成功,其次是 QE 语义,平均需要 1.01 次尝试。尽管 DF-QuAD 语义所需的平均尝试次数最高(1.014),但最大尝试次数从未超过 4,与 QE 语义相当,表明算法在所有情况下均能在合理次数的尝试内找到解。

关于图3所示的运行时间性能,在相同的 EW-QBAF 结构下,REB 语义通常表现出最短的平均运行时间,其次是 DF-QuAD,而 QE 的运行时间最长。尽管存在这些差异,所有语义和所有 EW-QBAF 规模下的平均运行时间仍保持在 1.5 秒以内。由于 EW-QBAF 是随机生成的,某些实例需要显著更长时间处理。因此,我们也报告了中位运行时间。在三种语义下,中位运行时间相近,随着边数增加呈现整体上升趋势,但波动较小²。在所有情况下,中位运行时间均低于 0.12 秒。总体而言,有效性、运行时间和尝试次数的结果共同表明,我们的算法在广泛的无环 QBAF 配置下既有效又能在多项式时间内运行,突显了其在 PRS 场景中解决用户期望与 EW-QBAF 输出之间不一致问题的潜在适用性。


8.2 实验 2

在本实验中,我们旨在评估算法在更密集的 QBAF 上的性能,这些结构模拟了多层感知机(MLP)的架构。如 (Potyka 2021) 所示,MLP 可以被转化为边加权量化论证框架(EW-QBAF),我们的算法有潜力通过为给定输入实例实现期望输出来辅助 MLP 的调试。除了有效性与多项式时间复杂度之外,我们进一步评估了算法的可扩展性

实验设置我们生成的 QBAF 比实验 1 中的更密集。具体而言,我们设计了三种类 MLP 的 QBAF 结构:[8,32,1]、[8,32,16,1] 和 [8,32,16,8,1],其神经元数量和隐藏层数各不相同。例如,[8,32,1] 包含 8 个输入论点、三个隐藏层分别包含 32、16 和 8 个论点,以及 1 个输出论点,总共产生 8 + 32 + 16 + 8 + 1 = 65 个论点;在完全连接的情况下,边数为 8 × 32 + 32 × 16 + 16 × 8 + 8 × 1 = 904 条。我们选择这些结构是因为它们适用于许多二分类任务,例如皮马印第安人糖尿病分类问题 (Potyka, Yin, and Toni 2022)。对于每种结构,论点的基础得分、边的极性和权重的设定方式与实验 1 相同。主题论点被设为输出层的论点。我们通过调整相邻层任意两个论点之间存在边的概率 p(p ∈ {0.1, 0.2, ..., 1.0})来改变连接密度。当 p = 1.0 时,表示一个完全连接的类 MLP EW-QBAF。我们为每种结构生成了 100 个 EW-QBAF 以避免随机性影响,并采用基于 MLP 的渐进语义 (Potyka 2021) 来计算论点强度。

结果与分析我们首先检查算法的有效性。在所有 EW-QBAF 结构中,有效性始终达到 100%,表明该算法能够成功实现期望强度,即使在比实验 1 更密集的配置下也是如此。接下来我们评估尝试次数和运行时间。对于所有结构,算法均在首次尝试中成功,除了 [8,32,1] 的情况,其中一条完全连接(p = 0.7)的类 MLP EW-QBAF 需要额外一次尝试。总体而言,实验 2 的结果优于实验 1。可能的解释在于本实验中的结构约束:每个论点仅连接到下一层的论点,形成更简单且更具层次性的结构。相比之下,实验 1 允许更灵活的连接方式。如图 4 所示,所有结构的平均运行时间随边数增加而上升,最大平均运行时间达到 12.50 秒。与此同时,中位运行时间呈现出严格递增趋势,峰值为 6.44 秒。多项式时间的结果进一步表明,即使 EW-QBAF 密度增加,我们的算法仍保持良好的可扩展性。总之,针对类 MLP 的 EW-QBAF 的实验结果展示了算法的有效性和可扩展性,表明其在 MLP 调试方面具有潜在应用价值。

9 结论

在本研究中,我们探讨了边加权量化论证框架(EW-QBAF)在支持可争议性方面的潜力。我们首先引入了适用于 EW-QBAF 的新性质,用以解释边权重变化所产生的影响。随后,我们正式定义了无环 EW-QBAF 的可争议性问题,并讨论了其解的可达性。为解决该问题,我们提出了一种新颖的 G-RAE(基于梯度的关系归因解释)概念,为实现可争议性提供可解释的指导。我们还从现有标准 QBAF 的论证归因解释中借鉴并适配了若干理想性质,将其应用于 G-RAE 的语境中。基于 G-RAE,我们开发了一种迭代算法,通过逐步调整边权重,以实现期望的论点强度。我们在模拟 PRS 和 MLP 调试场景的合成 EW-QBAF 上,从有效性、运行时间复杂度和可扩展性等方面对算法进行了实证评估,展示了其潜在的实际应用价值。

未来的研究可聚焦以下几个方向:第一,探索我们的理论在真实世界 EW-QBAF 场景中的适用性,特别是在 PRS 争议处理和 MLP 调试中的具体应用。第二,开展用户研究,通过用户反馈评估我们理论的有效性和可用性,重点关注用户对所提供解释的理解程度、信任程度以及据此采取行动的能力,从而评估解释在支持可争议性中的实际作用。第三,定义并研究“多可争议性问题”——即当多个基础得分函数对同一主题论点同时产生期望强度与非期望强度时,目标是调整边权重,使得尽可能多地(或全部)实现所期望的强度值。






原文链接:https://www.arxiv.org/pdf/2507.11323

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一声叹息!杨兰兰案第四次开庭否认所有指控,可能不了了之

一声叹息!杨兰兰案第四次开庭否认所有指控,可能不了了之

热点菌本君
2025-11-14 14:06:36
亚朵大战全季,传统五星级酒店输麻了

亚朵大战全季,传统五星级酒店输麻了

IC实验室
2025-11-13 15:50:52
不是迷信!今日寒衣节,晚上最不能做的5件事,别忘了告诉家人!

不是迷信!今日寒衣节,晚上最不能做的5件事,别忘了告诉家人!

阿龙美食记
2025-11-20 01:15:05
54岁姥姥的自述:给女儿带外孙4年,外孙一句话,我果断回老家

54岁姥姥的自述:给女儿带外孙4年,外孙一句话,我果断回老家

清水家庭故事
2025-11-19 14:35:39
21届最强双星!火箭内线核心进步明显 活塞状元已成持球大核

21届最强双星!火箭内线核心进步明显 活塞状元已成持球大核

惊奇侃球
2025-11-21 00:01:42
四川队获全运男子4X400米接力金牌

四川队获全运男子4X400米接力金牌

体坛周报
2025-11-20 21:13:14
最令大龄剩女崩溃的瞬间是什么?网友扎心评论:万家灯火与我无关

最令大龄剩女崩溃的瞬间是什么?网友扎心评论:万家灯火与我无关

小鬼头体育
2025-10-20 10:37:55
这次哈马斯的认怂和服输会让哪些人备感失落呢?大概有三类人!

这次哈马斯的认怂和服输会让哪些人备感失落呢?大概有三类人!

翻开历史和现实
2025-10-12 15:49:50
叫嚣要出兵台海后,高市早苗迎来外援,解放军一定要做好万全准备

叫嚣要出兵台海后,高市早苗迎来外援,解放军一定要做好万全准备

老黯谈娱
2025-11-20 03:15:48
如果有人问:你觉得美国好,你为什么不去美国?怎么回答比较好?

如果有人问:你觉得美国好,你为什么不去美国?怎么回答比较好?

翻开历史和现实
2025-11-15 09:03:25
你心中有过不去的坎吗?网友:能伤到我们的往往是我们最亲的人啊

你心中有过不去的坎吗?网友:能伤到我们的往往是我们最亲的人啊

解读热点事件
2025-10-11 00:05:03
站着的霍金,罕见的李嘉诚,20岁的屠呦呦,这是朋友圈最珍贵的照片

站着的霍金,罕见的李嘉诚,20岁的屠呦呦,这是朋友圈最珍贵的照片

空间设计
2025-11-09 12:15:02
重磅:波兰关闭最后一个俄罗斯总领事馆!发起最大规模军事部署

重磅:波兰关闭最后一个俄罗斯总领事馆!发起最大规模军事部署

项鹏飞
2025-11-20 20:52:01
斯诺克赛程:决出4强,3场世界冠军较量,赵心童首秀,75双雄出战

斯诺克赛程:决出4强,3场世界冠军较量,赵心童首秀,75双雄出战

刘姚尧的文字城堡
2025-11-20 08:10:15
新加坡总理黄循财:美国越是加码施压,中国反而越坚定发展更快

新加坡总理黄循财:美国越是加码施压,中国反而越坚定发展更快

爆角追踪
2025-11-20 18:56:13
江湖梦9:突然袭击

江湖梦9:突然袭击

金昔说故事
2025-11-20 16:38:58
苹果官网国补页面更新,iPhone 17 大降价!

苹果官网国补页面更新,iPhone 17 大降价!

花果科技
2025-11-19 13:32:36
蒋介石在日记里坦言:重庆谈判放走毛泽东,全是因为这两点!

蒋介石在日记里坦言:重庆谈判放走毛泽东,全是因为这两点!

鹤羽说个事
2025-10-25 11:44:53
是否考虑过国家队?朱婷扭头就走:没考虑过 记者疑似爆粗骂人

是否考虑过国家队?朱婷扭头就走:没考虑过 记者疑似爆粗骂人

风过乡
2025-11-20 07:01:16
中央组织部决定:刘巍履新

中央组织部决定:刘巍履新

鲁中晨报
2025-11-20 10:42:04
2025-11-21 01:43:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
998文章数 16关注度
往期回顾 全部

科技要闻

马云发话了:冲第一

头条要闻

日本政府被判赔偿39亿日元

头条要闻

日本政府被判赔偿39亿日元

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌的每一任都是大美女

财经要闻

揭秘三体公司原CEO许垚投毒杀人案始末

汽车要闻

AI驱动内容营销新纪元 2026网易年度新车总评榜揭晓

态度原创

教育
健康
旅游
公开课
军事航空

教育要闻

2020年吉林省国家励志奖学金发放时间

警惕超声报告这六大"坑"

旅游要闻

旅超大赛!金山主打“免费潮”,周末快来薅羊毛

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日本称已向美国出口爱国者导弹

无障碍浏览 进入关怀版