全文共2366字,预计学习时长8分钟
图源:unsplash
随着数据宕机时间的增加和数据堆栈复杂性的上升,可观测性不再只适用于软件工程,它已然成为数据团队关注的重点。
如今,DevOps团队已成为大多数工程组织中不可或缺的组成部分。他们消除了软件开发人员和IT运维技术人员之间的隔阂,推动软件无缝且可靠地发布到生产环境中。
随着组织的发展,为它们提供支持的底层技术堆栈变得越来越复杂,对于DevOps团队来说,保持其系统正常健康地运转非常重要。可观测性是工程学词汇中最近增加的一个词汇,它不但满足了这一需求,还包括对事件的监视、跟踪和分类,从而防止宕机。
由于整个行业向分布式系统转变,可观测性工程学已成为一门快速发展的工程学科。可观测性工程学从根本上可分为三大块:
· 指标是指随时间测量的数据的数字表示形式。
· 跟踪是指分布式环境中因果相关的事件。
· 日志是在给定时间记录下发生的事件,并且提供有关特定事件何时发生的有价值的上下文。
这三大支柱为DevOps团队在预测未来行为方面提供了宝贵的见解,进而我们可以信任他们的系统能够满足服务等级协议。归根结底,可靠的软件意味着可靠的产品,这会得到用户的满意。
然而,即使拥有一流的可观测性解决方案,如果数据不可靠,使用再多花哨的工具或工程专业术语也无法让客户满意。
数据宕机时间增加
作为Gainsight公司客户成功运营部门副主管,我负责领导一个团队,每周CEO提交客户数据和分析报告。每一次,我们刚刚提交了报告,几分钟后就会被通知数据有问题。不管我们的数据管道有多强大,也不管我们检查了多少次结构化查询语言(SQL),结果只有一个——我们的数据总是不可靠。
这个问题并不是Gainsight独有的。在与数百名数据负责人讨论之后,数据宕机是大家都最头疼的问题。数据宕机时间(即数据不完整、错误、丢失或其他数据不准确的时间段)只会随着数据系统变得越来越复杂而成倍增加,以支持无穷无尽的资源和消费者生态系统继续运行。
对于数据工程师和开发人员来说,数据宕机意味着时间和资源的浪费;对于数据消费者来说,这会削弱你的决策信心。与我交谈过的负责人们,也和我一样不相信他们的数据,这是一个严重的问题。
简介:数据可观测性
团队通常在特定的基础上处理数据质量和沿袭问题,而不是采用整体方法来解决数据宕机问题。就像DevOps将可观测性应用到软件中一样,是时候对数据进行同样全面的调查了。
数据可观测性,是一个组织完全了解系统中数据运行状况的能力,它通过将DevOps可观测性的最佳实践应用于数据管道来消除数据宕机时间。与DevOps类似,数据可观测性使用自动监视、警报和分类来识别和评估数据质量和可发现性问题,从而带来更健康的数据管道、更高效的团队和更高满意度的客户。
简单起见,我将数据可观测性分为五大块:新鲜度、分布、数量、模式和数据血缘。这些部分结合在一起,可以提供有关数据质量和可靠性的宝贵见解。
· 新鲜度:新鲜度试图了解你的数据表是如何更新的以及数据表更新的节奏。在做决策时,新鲜度尤其重要。毕竟,陈旧的数据基本上是在浪费时间和金钱。
· 分布:分布是数据可能值的函数,它告诉你数据是否在可接受的范围内。通过数据分布,你可以根据对数据的期望来了解数据表是否可信。
· 数量:数量是指数据表的完整性,提供有关数据源运行状况的见解。如果2亿行突然变成了500万行,你不会没发现。
· 模式:数据组织(即模式)的更改通常表示数据损坏。监视谁对这些表进行了更改以及何时进行更改,对了解数据生态系统的运行状况至关重要。
· 数据血缘:当数据中断时,第一个问题始终是“在哪里中断”。数据血缘通过告诉你哪些上游源和下游摄入者受到了影响、以及哪些团队正在生成数据以及谁在访问数据来提供答案。优良的数据血缘还会收集与特定数据表相关的治理,业务和技术准则的数据信息(也称为元数据),为所有消费者提供唯一的真实来源。
解锁公司的数据可观测性
图源:cesiumcompany
有了DevOps,我们得以拥有一个简单的视角来观察可观测性作为应用数据的重要性。一旦出现数据宕机事件,数据可观测性的五大版块能够为真正的端到端可靠性提供必要的整体框架。
与传统的DevOps可观测性工具一样,最佳的数据可观测性解决方案不仅会监视这五大版块,而且会从一开始就防止不良数据进入它们。出色的数据可观测性解决方案具有以下特点:
· 它通过公开有关数据资产的丰富信息,可以负责任地、主动地进行更改和修改,从而从源头处防止问题的发生。
· 它不需要事先映射需要监视的内容和监视方式,可以帮助你识别关键资源、关键依赖项和关键不变量,你可以轻松获得广泛的可观测性。
· 它可以快速无缝地连接到现有堆栈,无需修改管道、编写新代码或使用特定编程语言。这样就可以快速评估并最大限度地测试覆盖范围,而无需进行大量投资。
· 它提供了丰富的上下文,可进行快速分类和故障排除,并与受数据可靠性问题影响的利益相关者进行有效沟通,不会只停留在“表Y中的字段X的值今天低于Z”这种层面。
· 它可以监视你的静态数据,并且不需要从当前存储的位置中提取数据。这使得解决方案具有高性能、可扩展性和成本效益。它还可以确保你满足最高级别的安全性和合规性要求。
· 它只需要最少的配置,并且几乎不需要设置阈值。它使用ML模型来自动学习环境和数据。它使用异常检测技术来通知你何时发生了故障,不仅考虑单个指标,还考虑了数据的整体视图以及任何特定问题的潜在影响,从而最大程度地减少误报,你无需花费资源来配置和维护嘈杂的规则。
图源:unsplash
当问题发生时,这些工具将赶在所有人之前通知你的团队,任谁也赶不上它的速度。
留言点赞关注
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.