从样本到规则：基于自动分析的 Web 检测能力演进|算法|哈希|聚类

分享至

【技术随谈】第15篇

引言

在复杂多变的网络攻防环境下，安全检测能力需要不断演进，以应对层出不穷的 Web 攻击手法。本方案以“从样本到规则”为主线，介绍如何利用自动化分析技术，将收集到的海量 Web 攻击样本转化为新的安全检测能力。我们将讨论 Web 攻击样本的类别划分、评估检测能力的合理指标，以及针对不同类别样本的分类分析方法，最后阐述如何通过自动分析和专家介入，将样本分析结果提升为实用的安全规则。

一、Web 攻击样本的类别

在自动分析流程开始前，我们需要明确 Web 攻击样本的大致分类。本方案将 Web 攻击样本分为“泛化样本”和“特化样本”两大类别：

泛化样本

此类攻击 payload 具有广泛适用性，往往不依赖特定平台或服务，在任意输入参数中触发都可能奏效。例如 SQL 注入、命令注入、跨站脚本（XSS）、XML 实体注入（XXE）等经典攻击手法即属此列[1]。这些攻击的共同点是在请求的 GET、POST、Cookie、URL 路径等任意位置注入恶意代码即可产生危害[1]。由于不限定上下文环境，泛化样本通常呈现模式通用的特征，便于通过模式识别和相似度聚类等方法加以归纳。

特化样本

此类攻击高度依赖特定框架、软件或服务的漏洞才能生效。以 Apache Shiro 的 rememberMe 反序列化漏洞（CVE-2016-4437）为例：攻击载荷通常隐藏在请求的 Cookie 中（rememberMe 字段），只有当目标系统确实使用了存在该风险配置的 Shiro 会话管理，且满足特定密钥与反序列化链条件时才可能触发远程执行。其特征往往分布在报文多个位置并需要上下文协同——例如 URL 路径指向登录/会话相关接口、请求头包含会话Cookie、应用指纹显示使用 Shiro；响应侧还可能出现覆盖型回写（如将 rememberMe 重置为某占位值）的副特征。因而，仅凭单一关键字或单字段匹配难以准确归类，需要将 URL 结构、Header/Cookie、参数命名习惯、应用栈指纹等多维特征融合，以更高置信度聚合出同类样本簇并定位到具体漏洞类型。

二、建立合理的评价指标

传统上，业界常用的检测能力评估指标多集中于误报率（False Positive Rate）、漏报率（False Negative Rate）或简单的混淆矩阵这几个评价指标。然而，仅关注整体准确率容易掩盖检测能力在不同攻击类别上的不均衡表现[3]。在设计评估指标时，我们建议从以下几方面综合考虑：

分类覆盖率

关注检测结果对各类攻击样本的覆盖全面性。单纯追求总体检出率可能导致模型偏向多数样本，而忽视某些类别的漏报。应使用宏平均等方式分别计算各类别的检出率，确保每种攻击类型均被有效拦截[3]。均衡的样本分布有助于算法不过度偏向高频类别。

误报与业务影响

除了误报比例，还要考虑误报样本对业务系统的影响程度[3]。一次误报若阻断了关键业务请求，造成的损失远大于一次普通请求的误拦。因此评价指标中可对不同误报按业务风险加权，确保降低高影响误报。同样，不同攻击类别的实际危害差异也应纳入考量，对高危漏洞（如远程执行）的检测漏报应赋予更高权重。

样本频次权重

将攻击频度纳入指标体系。某类攻击样本出现频繁却存在漏报，说明检测能力存在短板，需要引起重视。我们可以在建立评价指标时，引入对各类别按其出现频次的权重，以反映检测系统对现实威胁的适配度。

通过上述多维度指标体系，我们能够全面衡量安全检测能力的有效性，避免片面优化单一指标而忽视了整体防护效果[4]。合理的指标设计将督促模型既精确（低误报漏报），又全面（广覆盖高优先级威胁），从而最大程度保障业务安全。

三、样本分类方法：泛化样本 vs 特化样本

由于 Web 攻击样本的泛化与特化两大类别存在较为明显的差异，我们需要针对性地设计不同的自动分类方法，以便高效聚类同类攻击并提取样本特征。下面分别介绍应对泛化样本和特化样本的思路。

1. 泛化样本的自动聚类

对于 SQLi、XSS 等通用模式的攻击，我们倾向于利用其payload 本身的相似性进行自动归类。具体方法包括：

词法分析 + 模糊哈希聚类：先对样本的攻击代码片段进行词法或语法层面的解析，抽取出关键字、操作符等特征序列，然后计算样本的SimHash 指纹用于相似度判断[5]。SimHash 等局部敏感哈希算法能够将文本映射为固定长度指纹，并保证相似文本的哈希距离较近[5]。将大量 payload 取指纹后，可根据哈希的海明距离对样本进行快速聚类，找出彼此相似的一组变种攻击。此方法计算高效、对混淆变形具有鲁棒性，非常适合海量泛化攻击样本的初步归并[5]。例如，不同变种的SQL注入 payload（加入注释符、大小写混淆等）仍会因核心模式相似而被归入同一簇。

向量化嵌入 + 相似度聚类：利用机器学习中的向量嵌入模型将攻击样本转化为特征向量，再在向量空间中按距离远近分组[6]。我们可以训练基于代码或语义的嵌入模型（例如针对脚本和数据库语句的预训练模型），将每个payload映射为向量表示。相似攻击由于语义模式近似，会在向量空间中彼此聚集，可用聚类算法（如K均值、DBSCAN等）自动划分类别[6]。研究表明，通过n-gram分词等方法获取攻击语句特征，再聚类相似payload，能有效发现隐藏的模式家族[6]。这种基于向量的聚类有助于挖掘语义层面的相似性，哪怕表面字符串不同，也能发现同类攻击意图。

通过以上方式，我们能够将海量泛化攻击样本自动分门别类，形成一系列聚类簇，每簇代表了一种攻击模式。这样为后续分析每类攻击特征，修改、提炼检测规则打下基础。

2. 特化样本的特征组合分析

对依赖具体漏洞的特化攻击样本，仅靠内容相似性不足以归类，需要考虑多维度特征组合。我们的方法是从多个角度提取样本特征，再综合进行分类：

基于攻击目标特征归类：特化攻击往往对特定应用组件实施利用，因此其目标特征具有聚类价值。例如按 URL 或路径特征归类：针对同一软件的漏洞利用通常指向相似的 URL 路径或资源（如某款框架的特定接口路径、管理端点等）。再如按 HTTP 参数归类：某些漏洞利用会使用独有的参数名或 Header 字段（比如 Apache Struts2 CVE-2017-5638 利用需要特殊构造的 Content-Type 头）。将具有共同目标特征的流量样本划为一组，有助于锁定对应的漏洞攻击类型。

多特征指纹聚类：综合样本的多处信息生成复合指纹，用于相似度匹配。例如组合 URL、请求方法、Header、Cookie、Payload 形态等要素形成特征向量，对样本做聚类分析。以 Shiro rememberMe（CVE-2016-4437）为例，我们会关注请求中是否携带 rememberMe Cookie，其值是否呈现编码/长度/熵特征上的异常（如“看似被编码或加密”的特征形态），同时结合该请求是否命中登录/会话相关路径、是否存在应用指纹显示使用 Shiro 等上下文线索；在部分场景下，响应还可能出现对 rememberMe 的覆盖型回写（例如重置为占位值）。只有当多个关键字段/上下文同时趋同时，样本才归入同一簇，避免因为单一字段相似而误把不同漏洞类型混在一起。通过这种多维度特征融合，能更准确地聚合出与 Shiro rememberMe 相关的特化样本簇。

采用以上方法，我们针对特化样本实现了多特征、多策略的分类：既利用共同攻击目标的线索进行分组，也融合多个字段特征进行相似度聚类，并辅以已知样本的监督指导。最终输出的将是一系列按漏洞或攻击类型划分的样本集合，每个集合对应一种具体的安全风险。

四、分类分析与安全能力提炼

完成对样本的自动分类聚类后，我们进入深入分析和安全能力提炼阶段。此阶段的目标是从每个样本簇中总结出可靠的检测规则或模型，从而将前序分析转化为实际防御能力。我们采取分层次的分析策略，结合模型、AI和人工专家的力量，确保提炼出的规则准确有效：

1.聚类内模式分析

首先对每个簇的样本进行自动化的模式挖掘。对于泛化样本簇，我们可进一步统计该簇共有的关键字、语法结构、字符分布等，形成该类攻击的特征模式。例如某簇SQLi样本或许都包含 ' OR '1'='1 这样的布尔条件片段。对于特化样本簇，则提取其共享的多维特征组合，例如某“Apache RCE簇”中样本也许都具有 Content-Type: %{ 的特征头部和 ${...} 的payload模式。这一步通过程序分析和简单规则挖掘即可完成。输出结果是每个簇的候选特征描述，为制定检测规则提供线索。

2.混入标记样本验证

将已有标注（已知攻击类别）的样本混入对应簇中，验证自动聚类和模式挖掘的正确性。如果某已知 XSS 样本出现在簇 A，那么簇 A 提取的特征应能覆盖经典 XSS 手法；反之，如果标记为SQLi的样本被错分进了簇 B，则提示我们聚类标准可能有偏差，需调整特征提取或距离阈值。通过这种插标对照，我们不断矫正分类结果，确保每个簇名副其实地代表某攻击类型。

3.LLM 辅助分析

对于极少数复杂样本簇，若自动化方法未能提炼出清晰的规则，可以引入大语言模型（LLM）等先进的 AI 手段进行辅助分析。LLM（如类似 GPT 的模型）因具备对代码和文本的理解能力，可用于审阅簇中的典型样本，生成对其攻击意图和手法的总结。例如让模型阅读一个未知样本的payload，它可能反馈“这看起来像是在利用某框架的反序列化漏洞”。这种基于 AI 的语义分析能帮助我们揭示一些隐含的攻击逻辑，为制定规则提供灵感。当然，LLM 的结论仅作参考，安全专家会对其分析进行验证把关。

4.专家人工介入

最后，安全专家团队对难以判定样本簇的分析结果进行人工审查。他们结合专业知识，确认簇的攻击类别归属是否正确、提炼的检测特征是否有效且无误报风险。对于AI给出的建议，专家会进一步验证其可行性。经过人工校准，有针对性地完善或缩减规则条件，去除可能的噪声特征，确保最终形成的检测规则精准可靠。比如专家可能补充一些上下文限制，避免规则误伤正常流量。人工介入是关键的一环，确保了最终安全能力包含自动分析广度的同时，也具备准确度。

5.能力演进输出

通过上述多层分析，我们最终为每一类样本簇产出相应的安全检测能力。这些能力形式可以是新增的特征规则（如WAF拦截策略、Snort特征等），也可以是机器学习模型更新（如分类器新训练识别该攻击），或策略知识库的扩充。重要的是，这些规则/模型源自真实攻击样本的自动挖掘，具有高度的时效性特性。当新的攻击样本不断被收集并经过同样流程分析后，我们的检测策略将持续更新迭代，逐步演进出更全面、更智能的 Web 攻击防御体系。

五、总结

“从样本到规则”的自动化分析流程，使我们能够高效地将海量威胁情报转化为切实可用的安全防护能力。通过划分泛化与特化样本、建立科学的评估指标、采用多策略的样本分类方法，以及结合AI与人工专家对聚类结果进行深入分析，我们实现了检测能力的快速演进：既降低了人工编写规则的压力，又提升了对未知威胁的覆盖面。在实际应用中，这一方法学能够使安全产品及时捕获新兴攻击手法，持续优化误报漏报表现，为客户业务提供与日俱增的安全保障。[7][2]

综上所述，基于自动分析的 Web 检测能力演进，将安全专家多年积累的经验与机器智能相结合，既保证了规则提炼的准确性，又大幅提升了响应新威胁的速度。在未来，我们将继续完善这一体系，使其更智能高效，为网络空间安全保驾护航。

参考文献

[1] [7] web威胁感知_web 异常uri 威胁分析-CSDN博客

https://blog.csdn.net/baidu_38938517/article/details/117477753

[2] Apache Shiro 反序列化漏洞 CVE-2016-4437 漏洞复现

https://www.cnblogs.com/darkcyan/p/18319822

[3] [4] 为什么机器学习解决网络安全问题总是失败

https://toooold.com/2021/09/27/why_ml_fails_solving_sec_algo.html

[5] CN108985057B - 一种webshell检测方法及相关设备 - Google Patents

https://patents.google.com/patent/CN108985057B/zh

[6] arxiv.org

https://arxiv.org/pdf/2312.07885

山石网科是中国网络安全行业的技术创新领导厂商，由一批知名网络安全技术骨干于2007年创立，并以首批网络安全企业的身份，于2019年9月登陆科创板（股票简称：山石网科，股票代码：688030）。

现阶段，山石网科掌握30项自主研发核心技术，申请560多项国内外专利。山石网科于2019年起，积极布局信创领域，致力于推动国内信息技术创新，并于2021年正式启动安全芯片战略。2023年进行自研ASIC安全芯片的技术研发，旨在通过自主创新，为用户提供更高效、更安全的网络安全保障。目前，山石网科已形成了具备“全息、量化、智能、协同”四大技术特点的涉及基础设施安全、云安全、数据安全、应用安全、安全运营、工业互联网安全、信息技术应用创新、安全服务、安全教育等九大类产品服务，50余个行业和场景的完整解决方案。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.