这家安全公司把95%数据扔了，结果检出率反而涨了|流量|阈值|基线

这家安全公司把95%数据扔了，结果检出率反而涨了

2026-04-10 09:45:17　来源: 码上闲叙

北京举报

分享至

每秒百万级遥测事件，防火墙日志、DNS查询、认证尝试、流量记录——安全团队要找的"针"就藏在这堆干草里。但真正的瓶颈不是找不找得到，而是找得够不够快。

某安全团队在搭建洞察系统时撞上铁墙：下游的机器学习模型和大语言模型（LLM）摘要管道根本吞不下原始数据量。一个典型分析窗口动辄几十TB，而LLM摘要管道实际能处理的只有几千条记录，还得给提示词和结构化输出留空间。

他们需要在砍掉95%以上数据的同时，保证关键记录一条不漏。

这不是新问题。网络监控领域的采样研究已经相当成熟，但随机采样或简单阈值过滤在安全场景里就是自杀——漏掉一条指标，可能就是入侵检测和彻底失防的区别。

为什么传统方案在安全数据上栽跟头

先看最简单的做法：每N条留一条，或者完全随机采样。这类方法在流量聚合分析里用得很多，统计特性保得住，检测能力却稀烂。

安全威胁往往是罕见事件。一次端口扫描可能只占总流量的0.1%，却承载着100%的威胁信号。随机采样把它当噪声扔了，你就在毫不知情中被渗透。

固定阈值过滤是另一常见套路：字节数、连接数、威胁分数超过某个值就保留。听起来合理，实际用起来处处漏风。

不同网段、不同时段、不同数据源的基线天差地别。给客户A防火墙日志调好的阈值，套到客户B的DNS查询数据上完全失效。凌晨两点的异常连接数和下午两点的高峰流量，用同一根尺子量纯属自欺欺人。

他们的解法：给数据打"安全价值分"

团队最终搭了一套多级管道：评分、过滤、优先级排序，核心是给每条记录算一个"对安全分析有多重要"的分数。

评分维度有三层。第一层是行为分析——这条记录偏离正常基线多远？第二层是威胁情报上下文——IP、域名、文件哈希有没有命中已知恶意指标？第三层是跨源关联——同一条会话在防火墙、终端、DNS里有没有留下其他痕迹？

三条线交叉验证，单点异常和全局威胁模式都能抓。

具体实现上，他们用了分层采样策略。高置信度威胁直接全量保留；中等可疑记录按分数加权采样；明显正常的背景噪声大幅压缩。压缩比根据实时负载动态调整，LLM管道空闲时多留一些边缘案例，拥堵时优先保高分记录。

一个关键设计是"可审计的丢弃"。每条被过滤掉的记录都附带丢弃原因和置信度分数，分析师随时可以回溯：这条为什么没进摘要？当时的阈值是多少？有没有可能漏掉横向移动的迹象？

效果验证：从"全都要"到"只要对的"

上线后的数据很有意思。某客户网络单日原始日志1.2TB，经过管道压缩后进入LLM的只剩38MB——压缩率97%，但红队测试中的检出率反而比全量分析提升了12%。

秘密在于噪声过滤。全量分析时LLM被海量正常连接淹没，关键指标淹没在上下文窗口里；压缩后的数据密度更高，模型注意力自然集中在真正可疑的模式上。

另一个意外收获是响应速度。原本需要4小时的威胁狩猎查询，现在15分钟出结果。分析师不再等批处理跑完，可以边查边调整策略。

团队在产品文档里埋了一句挺扎心的备注：「我们花了三个月教模型什么是"重要"，才发现之前两年都在教它怎么在垃圾堆里翻垃圾。」

这套方法能抄作业吗？

直接照搬有门槛。行为分析需要历史基线数据，新上线客户得先"养"几周才能启动有效评分；威胁情报的覆盖度和时效性直接影响第二层精度；跨源关联更是对数据治理能力的拷问——很多企业的防火墙和EDR（端点检测与响应）数据连时间戳都对不齐。

更隐蔽的坑是反馈循环。如果分析师长期不碰被过滤的数据，系统就永远不知道"漏了啥"。团队的做法是每周随机抽取1%的丢弃记录做人工复核，用 misses 反向优化评分模型。

成本账也得重算。管道本身需要算力维护，小规模场景可能不如直接买更大的LLM配额划算。他们内部的经验值是：日活事件超过5000万条时，自建压缩管道才开始比裸跑LLM便宜。

现在这套系统已经跑了18个月，处理了超过400PB的原始安全数据。团队正在把第三部分——跨源关联——做成可插拔的模块，让客户能接入自己的威胁情报源。

最后一个细节：他们在仪表盘里加了一个"被丢弃的TOP10"小窗，显示当天分数最高却被过滤掉的事件。很多客户第一次点开时都会愣一下——"这条我怎么没收到告警？"——然后默默把评分阈值往下调了一格。

如果你的安全团队也在被数据淹没，你会先砍噪声，还是先扩容算力？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

这家安全公司把95%数据扔了，结果检出率反而涨了

为什么传统方案在安全数据上栽跟头

他们的解法：给数据打"安全价值分"

效果验证：从"全都要"到"只要对的"

这套方法能抄作业吗？

库克罕见"拒答"！苹果正被AI供应链卡脖子

伊朗公布伊方最新谈判方案： 总计14点提议 聚焦终战

伊朗公布伊方最新谈判方案： 总计14点提议 聚焦终战

休赛期总冠军，轮到休斯顿火箭

高圆圆赵又廷游三亚 牵手逛街好甜蜜

雷军很努力 小米还是跌破了30港元大关

态度原创

高考地理:分析黄土高原红土柱的形成过程

看！海夫兰笔下的美女，令人惊艳的艺术之美！

五一楼市彻底明牌！塔尖人群都在重仓凯旋新世界

联想拯救者手机Y70新一代规格曝光

库克称MacBook Neo需求超出苹果预期：目前处于供应受限状态

伊朗公布伊方最新谈判方案：总计14点提议聚焦终战

伊朗公布伊方最新谈判方案：总计14点提议聚焦终战

高圆圆赵又廷游三亚牵手逛街好甜蜜

雷军很努力小米还是跌破了30港元大关