KDD 2025 | 北航提出SI2AF框架，提升GNN虚假新闻检测模型的鲁棒性|算法|检测器|智能体|深度思考模型

分享至

本文介绍来自北航彭浩团队的最新科研成果 - SI2AF框架。这是一种建立在网络结构信息理论（如结构熵、层次社区结构）基础上针对虚假新闻检测的对抗攻击框架，用于评估基于图神经网络（GNN）的检测模型的鲁棒性。与 MARL、SGA 等十种基线攻击算法相比，综合实验表明了SI2AF在攻击有效性与提升检测鲁棒性等方面的显著优势。

论文名称： Robustness Evaluation of Graph-based News Detection Using Network Structural Information 论文链接： https://arxiv.org/abs/2505.14453

一、动机

近期研究指出，社交媒体的普及加速了虚假信息和假新闻的传播。这一现象不仅破坏公众信任，还对政治、经济和公共安全等关键领域产生负面影响。与传统新闻不同，社交平台上的虚假内容因其故意误导性、传播迅速且专家验证成本高，带来了独特挑战，因此需要开发自动化检测机制。传统基于自然语言处理的机器学习检测器[1] 试图识别虚假内容，但在捕捉信息传播的独特结构和复杂行为方面存在效率局限 [2]。为此，基于图神经网络（GNN）的检测器 [3] 应运而生，其通过分析谣言传播的复杂结构模式显著提升了检测精度。

尽管 GNN 技术有所进步，当前基于图的检测器仍易受对抗性攻击。尽管针对自然语言处理检测器的鲁棒性研究已较为广泛，但图检测器的鲁棒性研究仍不足。现有方法如 Malcom 框架[4]通过生成对抗性评论探测检测系统漏洞，基于强化学习的攻击策略[5]和梯度方法 GAFSI[6]分别针对图检测器的特定弱点和通用图结构攻击，但这些方法主要聚焦恶意账户与单个目标新闻的关联，忽略了社交网络中对信息传播至关重要的底层结构关系，导致攻击策略难以有效覆盖复杂网络传播场景。

当前图检测器鲁棒性评估面临的 3 个主要挑战：

挑战 1：如何有效建模社交网络的底层结构关系？

现有对抗攻击方法多聚焦单一目标新闻与恶意账户的局部关联，忽略了用户与新闻之间的层次社区结构、动态互动模式等全局结构信息，导致攻击无法捕捉网络中信息传播的复杂依赖关系，难以评估检测器对真实社交网络结构扰动的鲁棒性。

挑战 2：如何设计多模态协同的攻击策略？

传统方法仅通过单一类型恶意账户实施攻击，缺乏对不同影响力账户（如低影响力 bots、高影响力 crowd workers）的差异化建模，且未考虑目标新闻与关联新闻（如子图内真实新闻、其他虚假新闻）的协同攻击策略，导致攻击的多样性和有效性不足。

挑战 3：如何提升对抗攻击对黑箱检测器的泛化能力？

现有攻击多依赖梯度信息或特定图结构假设，难以适应黑箱场景下检测器的参数不可知性和图结构多样性，导致攻击策略的通用性较差，无法全面评估不同 GNN 模型的鲁棒性。

为了解决上述挑战，作者提出了SI2AF，通过融入网络结构信息评估图检测器鲁棒性。构建用户 - 新闻二分图，利用结构熵量化互动不确定性。通过子图内多智能体协作实施直接、间接、反馈三种子图攻击策略，最大化规避黑箱检测器能力（详见图1）。

如图2所示，SI2AF框架包含三个主要模块：层次结构识别、多智能体设计和目标子图攻击。在结构识别模块中，需要从历史互动中构建用户 - 帖子二分图，并生成其最优编码树，以表示所有用户和帖子的层次社区结构。在智能体设计模块中，需要使用结构熵提出影响力指标来评估用户账户，将其分为不同类型的恶意账户和真实账户。作者为每个目标帖子协调多个智能体，以在相关子图内与目标和非目标帖子建立新连接，旨在优化对基于 GNN 的检测模型的规避能力。

图 2 SI2AF 框架的详细设计图。 2.1 层次结构识别

与以往研究独立分析单个目标新闻不同，作者通过最小化社交互动中的动态不确定性，识别用户账户和新闻帖子的层次社区结构，从而在 SI2AF 框架内实现有效的子图攻击。

为此，首先提取用户账户U和新闻帖子P之间的历史互动数据，构建无向二分用户 - 帖子图。与先前的工作一致，使用预训练语言模型对用户历史帖子进行嵌入，得到用户表示；同理，通过嵌入每条新闻帖子的内容生成帖子表示。

对于每条边，计算用户表示与帖子表示的余弦相似度，以此捕获嵌入空间中的语义相似性，并按如下公式计算边权重 :

权重越高，表明用户与帖子的相关性越强，反之则表示差异越大。

在二分图中，作者将社交互动建模为用户和帖子顶点之间的随机游走，利用结构熵量化这些互动的动态不确定性。该熵量化了随机社交互动中确定可访问用户或帖子所需的最小信息量（以比特为单位）。通过最小化的高维熵，可以生成其最优编码树，以捕获用户账户U和新闻帖子P的层次社区结构。具体来说，首先为初始化单层编码树，其中每个叶节点ν的父节点为树根λ（即）。然后使用 HCSE 算法，通过 “拉伸” 和 “压缩” 两种操作，从单层到K层迭代贪婪优化编码树，最终得到K层最优编码树。在中，根节点λ对应用户和帖子集合的并集，每个叶节点ν对应单个用户或帖子，中间节点则对应不同层次的社区。

最后，对于每个目标帖子，提取其对应的k层社区，压缩中第k层的用户子集和帖子子集。将用户子集扩展为整个用户集合U，得到关联的二分量子图。扩展后的顶点集包括整个用户账户集U和帖子子集，边集捕获了U中账户与中帖子的局部结构关系，突出了子图内的互动。在本研究中，高度参数k默认设置为 K−1，以便从根节点的直接子节点对应的顶点社区中导出所有目标子图。

2.2 多智能体设计

基于上述层次社区结构，作者提出一种衡量用户账户网络影响力的指标，并设计多个协作智能体以管理不同影响力和预算的恶意账户。

在编码树中，公式赋予每个非根节点 α 的结构熵用于衡量，已知随机游走进入到父社区进一步确定其进入到子社区的不确定性。对于任意用户，随机互动到达该用户的概率受从根节点λ到叶节点ν( )路径上所有节点 α 的累积熵影响。由此，定义影响力指标I以量化用户账户参与中随机互动的可能性：

其中，c为调整参数，用于调节所有用户账户的影响力分布。

现有研究基于账户分享新闻的数量划分恶意群体（反映网络影响力），但社交网络的稀疏性（多数用户仅关联单个帖子）导致分享次数分布不均，造成基于影响力的分类失衡。作者提出的指标通过融合内容相关性和层次社区结构，实现了对相同分享次数用户的精细化区分，提升了影响力衡量精度。定理 2.1 表明，即使在无向图和单层网络结构中，调整参数c可减少影响力值相同的账户数量，促进用户影响力分布的均衡性。此时，用户u的影响力指标仅依赖其顶点度数（即用户关联的内容数量），公式简化为：

定理 2.1：设为具有概率密度函数的正随机变量。在变换下，当条件成立时，变量随x单调递增，且其概率密度函数满足：

其中参数b表示所有用户分享的帖子总数与这些帖子被分享的总次数之和。因此，每个用户的个体分享次数x满足范围

针对虚假信息传播中的多类型恶意群体，作者建模了三种不同影响力层级的恶意账户 —— 低影响力的 “机器人”（bots）、中等影响力的 “半机械人”（cyborgs）和高影响力的 “众包工作者”（crowd workers），并基于预算 Δb、Δc、Δw 设计自适应分类算法：按影响力指标I升序排列所有用户；根据预算比例划分低、中、高影响力群体；从各群体中随机抽样生成、、，受控恶意账户集合为：

最后，为模拟不同群体的协作行为，设计三类智能体：管理低影响力机器人的、管理中等影响力半机械人的、管理高影响力众包工作者的。

2.3 目标子图攻击

针对目标帖子的攻击（主要针对假新闻，也适用于真实新闻）被建模为关联用户 - 帖子子图内的集体协作，所有智能体协同操纵基于 GNN 的黑箱检测器的分类结果。

对于目标假新闻帖子，其关联子图包含紧密相关的帖子集合，包括假新闻子集（其中）和真实新闻子集。其中，和分别表示子图内假新闻和真实新闻的数量。

SI2AF 框架将目标帖子攻击建模为多智能体协作的马尔可夫决策过程，由元组描述，其中，为状态空间，为联合动作空间，为转移函数，为奖励函数，为折扣因子。在每个时间步 t，负责管理恶意账户的智能体观测当前环境状态，并根据其策略网络选择动作。策略网络决定每个受控账户在关联用户 - 帖子子图中与哪个帖子顶点互动，即。类似地，智能体和过各自的策略网络，遵循与类似的决策流程选择相应动作和。

对于每个恶意账户，根据该账户与目标帖子的所有共同父节点的累积熵，定义其选择动作的采样概率如下：

如果与目标帖子 p 之间的唯一共同父节点是根节点，需要将采样概率设置为预定义的较小随机值 0.01，以表示低动作可能性。类似地，采用相同方法为和控制的账户定义采样概率。基于这些概率，对、和执行加权采样，得到时间步t的单智能体动作、和。

此外，根据每个智能体控制的恶意账户的网络影响力总和对这些动作进行集中聚合，生成时间步t的最终动作，该动作指定被攻击的帖子和选定的恶意账户。集体动作通过在和之间建立新的分享关系来修改用户 - 帖子图的结构，可能影响基于 GNN 的检测器对目标新闻 p 的分类结果。根据被攻击帖子的类型，作者提出的子图攻击包含三种不同的策略：

直接攻击：直接与目标新闻互动，以影响基于 GNN 的检测器对其的分类结果。

间接攻击：与关联子图内的真实新闻互动，间接影响目标p的预测。

反馈攻击：与关联子图内的其他假新闻互动

，旨在丰富环境反馈并解决决策过程中的奖励稀疏问题。

在针对基于 GNN 的检测器进行对抗攻击时，SI2AF 框架会考虑目标帖子及其他相关假新闻帖子的分类结果。这些帖子的预测值作为奖励信号，指导所有智能体的策略网络训练和优化。具体来说，表示目标帖子的分类结果，而 (i>1)表示其他假新闻帖子的分类结果。奖励函数定义如下：

其中表示由动作扰动后的更新结构关系。

对于基于策略运行的智能体，使用Q学习估计其价值函数并最小化优化损失：

其中是智能体的目标价值网络，用于通过减少学习 Q 值的振荡来稳定训练过程。最优价值函数由贝尔曼方程表示：

该方程描述了一种贪婪策略，即智能体选择使给定状态下Q值最大化的动作：

智能体和的策略训练遵循与相同的Q学习方法，但会适配各自的动作空间。

2.4 检测优化

通过利用训练好的 SI2AF 框架，作者将各子图中生成的扰动整合到用户与帖子的结构关系更新中，从而优化基于图的检测器，提升其鲁棒性。对于每个目标帖子，从关联子图中提取假新闻和真实新闻。根据训练好的策略 , , ，分别选择多智能体动作，和，并通过加权采样确定时间步t的集体动作。该动作用于更新用户 - 帖子图中的结构关系。在完成对中所有目标帖子的攻击后，作者最小化公式中的交叉熵损失，优化基于图的模型，从而增强其检测鲁棒性。

三、实验结果与分析

为评估SI2AF框架性能，作者在 Politifact 和 Gossipcop 真实数据集上与五类 GNN 检测器（GCN/GAT/GraphSAGE/GCAN/Bi-GCN）及多种基线方法（随机、梯度、多智能体协作等）对比。实验采用成功率（目标帖子误分类比例）和预测概率变化为核心指标，结果经五组随机种子取均值。

SI2AF 在攻击效果上显著优于所有基线：假新闻和真实新闻攻击成功率均达最优（详见表1），预测概率调整幅度更大（假帖平均降低、真帖平均提升幅度见图 3）。多策略协同实验表明，结合直接 / 间接 / 反馈攻击的成功率显著高于单一策略（详见图 4），验证了子图攻击的策略优势。通过将攻击生成的结构扰动融入模型训练，检测模型鲁棒性显著提升（详见表 2），且框架训练 / 推理时间与基线 MARL 相当，随攻击预算增加保持稳定（详见表 3）。在不同参与度帖子上，SI2AF 对高传播度帖子的攻击优势更明显（详见表 4），适配不同影响力场景。

与此同时，案例研究显示，SI2AF 通过多阶段策略（初期直接连接目标、后期扩展关联帖子）显著改变 GNN 预测概率（详见图 5），其效果源于直接攻击（连接高影响力账户）、间接攻击（增强关联真实新闻互动）和反馈攻击（协同影响关联假新闻）的协同作用。消融实验表明，高影响力 worker 智能体性能最优，账户数量增加至阈值后攻击效果趋稳（详见图 6）。参数敏感性分析显示，子图规模参数的最优值与网络规模相关（详见图 7），过大子图因纳入无关内容导致效果下降。

本文提出了 SI2AF 对抗攻击框架，该框架利用网络结构信息识别账户与帖子间的层次社区结构，从而实现对各类基于 GNN 的检测器的有效攻击并评估其鲁棒性。作者提出了一种恶意账户影响力度量方法，结合三种基于多智能体协作的子图攻击策略，以最大化目标新闻帖子的规避效果。在 Politifact 和 Gossipcop 两个真实数据集上的大量实验表明，SI2AF 持续提升了攻击有效性，性能优于最先进的基线方法，并显著增强了基于图的检测模型的鲁棒性。未来研究将聚焦于扩展基于图的检测器范围，并通过更全面地探索子图攻击来进一步提升其鲁棒性。

篇幅原因，我们在本文中忽略了诸多细节，更多细节可以在论文中找到。感谢阅读！

参考文献

[1]Kai Shu, Limeng Cui, Suhang Wang, Dongwon Lee and Huan Liu. defend:Explainable fake news detection. In Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining, 2019.

[2]Tian Bian, Xi Xiao, Tingyang Xu, Peilin Zhao, Wenbing Huang, Yu Rong and Junzhou Huang. Rumor detection on social media with bi-directional graph convolutional networks. In Proceedings of the AAAI conference on artificial intelligence, 2020.

[3]Van-Hoang Nguyen, Kazunari Sugiyama, Preslav Nakov and Min-Yen Kan. Fang: Leveraging social context for fake news detection using graph representation. In Proceedings of the 29th ACM international conference on information & knowledge management, 2020.

[4]Thai Le, Suhang Wang and Dongwon Lee. Malcom: Generating malicious comments to attack neural fake news detection models. In 2020 IEEE International Conference on Data Mining (ICDM), 2020.

[5]Yuefei Lyu, Xiaoyu Yang, Jiaxin Liu, Sihong Xie, Philip Yu and Xi Zhang. Interpretable and effective reinforcement learning for attacking against graph-based rumor detection. In 2023 International Joint Conference on Neural Networks (IJCNN), 2023.

[6]Peican Zhu, Zechen Pan, Yang Liu, Jiwei Tian, Keke Tang and Zhen Wang. A general black-box adversarial attack on graph-based fake news detectors. arXiv preprint arXiv, 2023.

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线600+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.