然而,KPN、谷歌、COTY和WilliamHill等组织正在学习如何打破这个循环。
不再等待错误发生
对DevOps(开发运营)这种操作的自我完善模式而言,我们改进问题点,一个新的错误出现了,我们再次改进。它不会试图超越未知的问题。我们是否能够实现修复和改进我们甚至还不知道的问题呢?
在传统的操作改进方法中,我们等待,直到监控告诉我们有什么东西坏了。这可能以API中的HTTP 500错误突然出现的形式出现,也可能是来自数据库服务器的错误日志。
这些错误告诉我们有东西坏了。如果我们已经想到了这个错误,我们可能通过警报立即提醒我们。如果我们没有想到这个错误,我们可能要等到用户告诉我们。这意味着我们通常与用户同时发现问题,或者更糟的是,客户先发现问题。
这就是AIOps发挥作用的地方。
AIOps是什么?
AIOps利用人工智能(AI)的强大功能来检测问题。而不是依赖于我们已经知道的警报,AIOps提供了可观察性,可以检测您的系统中尚未发现的异常。
它可能是一个应用程序的日志突然出现峰值,或者一个应用程序每小时记录一个错误,然后突然触发30个错误,然后再次稳定下来。所有这些“怪癖”可能是你还没有发现的更大问题的前兆症状。
这种持续分析的结果很简单。您不必等到问题以中断的形式表现出来,而是可以发现系统行为不当的微妙迹象。日志量的突然变化,应用程序中后台错误数量的波动,或延迟的减慢(会自行解决)。以往,我们很难注意到这些东西。AIOps将这些数据可视化并呈现出来,因此可以对其进行检查,并常常产生可操作的见解。
AIOps是如何工作的?
AIOps宣言详细介绍了五个维度,它们共同构成了一个有价值的组织学习过程。
首先,检测一个数据集。这是业务决策、前期工程工作和应用一些选择算法来创建一组清晰、有用的可分析数据的组合。
然后在数据集中检测模式。这些模式可能不会反馈任何业务结果。可能,一些信息被检测到是异常的。然后,这些模式会进入下一个阶段,即推理。推理是试图理解已检测到的模式中的因果关系的过程。
这些发现被打包在通信步骤中。在这个阶段,目标很简单。将机器学习算法中的知识转移到工程师的头脑中。这可以是一个API、一个人类可读的段落或一封邮件的形式。
最后也是最复杂的阶段是自动化。在此阶段,您将寻求自动纠正已检测到的问题。这是一个复杂的问题。随着该领域的发展,毫无疑问,这将变得更容易实现。
AIOps的大挑战
机器学习很难。如果您即将开始执行您的AIOps任务,应该首先考虑自己想要构建多少。通常我们可以利用提供机器学习驱动的可观察性的SaaS提供商,而不是从头开始构建它。
你需要在多大程度上能够控制你的AIOps?你想要得到结果,还是想把机器学习嵌入到未来几年的技术策略中?这不是一个容易的问题。对于绝大多数用户来说,他们希望在没有痛苦学习的情况下获得好处。在这种情况下,我们强烈建议使用SaaS提供商。
AIOps会改变一切吗?
AIOps越来越受欢迎,因为我们的数据集和可观测性挑战正在超越传统方法的限制。也就是说,AIOps不太可能取代传统的警报。相反,它应该被视为一种升级。一个安全网,捕捉在设计解决方案时没有考虑到的东西。
针对“已知”问题的传统警报和针对“未知”问题的人工智能驱动警报的融合,将创造出非凡的运营能力,并在未来几年维持一个稳定、高性能的软件系统。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.