对于元数据的一些概念介绍:
元数据是什么——简单的来说:它是数据的数据。
元数据的分类——技术元数据、业务元数据、管理元数据、
元数据管理是什么——它是对元数据的创建、存储、整合、控制的一整套流程,能够支持基于元数据的相关需求和应用。
那元数据管理的好处是什么——它能够让开发和业务人员快速的了解数据的上下游关系及本身的含义,精准定位需要查找的数据,减少数据研究的时间成本,提高效率。
那在项目中元数据管理该怎么做呢?
01 元数据范围
首先确定元数据来源范围,在实际的工作中,不是所有数据都是要做元数据管理,通常我们会选择业务数据做元数据管理,非业务数据(例如:备份数据、系统日志等)是不会纳入管理范围内,主要还是因为元数据管理是提供业务和开发人员快速掌握业务数据。
确定规则后,就要结合公司的实际情况去梳理出哪些业务系统、哪些数据库、哪些数据库用户、哪些表需要做元数据管理。当然也可以支持非结构化数据的元数据抽取,例如:word、pdf等。
02 元数据接入
元数据从哪接入,一般都是从源系统接入,假如公司已经存在数仓或者实时性要求不高,为了节约开发工作量,对于已有的元数据会从数仓接入,还未接入的会从源系统进行接入。
但这种方案也是存在风险,假如数仓的数据和源系统出现不一致,就会导致元数据出错。现在大部分的元数据抽取都是采用配置自动化的方式进行。
03 元数据标准
在梳理的过程中可能会出现有些数据库或者有些数据定义不规范的情况,导致元数据管理无法进行下去。那接下来需要建立元数据的管理规范,去反推前端的源数据进行整改,主要是保证元数据的完整性和一致性。
针对不同的类型的公司要求,元数据会开放给不同的人群,所以要对元数据进行权限管理,规范里面就需定义权限的管理流程:元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程。
我的公司将元数据分为业务和技术两个管理属性,技术人员可以查看全域元数据,业务人员只能查看自己所对应业务流程的元数据,如要查看其他业务流程的元数据,需进行申请,申请流程要过元数据对应的业务和技术属主。
04 元数据维护
元数据维护主要是对已经发布的元数据进行维护管理,已经发布上线的元数据,如需调整、优化则必须重新走元数据发布流程,不准许对元数据进行直接修改。为了安全,元数据所有操作行为都要记录到元数据操作日志里面。
可以对元数据创建目录将不同的元数据挂在对应的目录下,按照业务流程、业务主题域、开发流程设计对应的目录,主要还是根据公司要求设计。
05 元数据查找、分析、报告
有单独的页面支持元数据的模糊或精准快速查找,通过输入关键信息查找对应的元数据。我所在的公司将元数据作为数据资产的一类,因此我们需要产出元数据资产报告,从报告中能够快速的了解元数据访问热度、数据价值、数据成本、数据分布等相关信息。
元数据管理平台架构
元数据管理统一管控分布在企业各个角落的数据资源,企业涉及的业务元数据、技术元数据、管理元数据都是其管理的范畴,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。
作为企业数据治理的基础,元数据管理平台从功能上主要包括:元数据采集服务,应用开发支持服务,元数据访问服务、元数据管理服务和元数据分析服务。
1、元数据采集服务:能够适应异构环境,支持从传统关系型数据库和大数据平台中采集从数据产生系统到数据加工处理系统到数据应用报表系统的全量元数据,包括过程中的数据实体(系统、库、表、字段的描述)以及数据实体加工处理过程中的逻辑;
亿信华辰元数据管理平台内置多种采集适配器,支持多种存储格式的元数据自动获取,如:数据库、报表工具、ETL工具、文件系统等,同时无法完成自动获取的元数据,提供了可自定义的元数据采集模版完成元数据的批量导入。
2、元数据访问服务:元数据访问服务是元数据管理软件提供的元数据访问的接口服务,一般支持REST或Webservice等接口协议。通过元数据访问服务支持企业元数据的共享,是企业数据治理的基础。
3、元数据管理服务:实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。
亿信华辰元数据管理平台提供各类元数据管理,包括:业务元数据、技术元数据和管理元数据,支持元数据的基本信息、属性、依赖关系、组合关系的增删改查操作。最新元数据和定版元数据隔离,在最新元数据中的改动不影响定版元数据的正常使用,同时每次发布都有版本留痕,支持各版本的对比分析。
4、元数据分析服务:元数据的应用一般包括数据地图,数据的血缘、影响分析,全链分析等;
亿信华辰元数据管理平台提供了丰富的元数据分析功能,包括血缘分析、影响分析、全链分析、关联度分析、属性值差异分析等,分析出元数据的来龙去脉,快速识别元数据的价值,掌握元数据变更可能造成的影响,以便更有效的评估变化带来的风险,从而帮助用户高效准确的对数据资产进行清理、维护与使用。
血缘分析:告诉你数据来自哪里,都经过了哪些加工。
影响分析:告诉你数据都去了哪里,经过了哪些加工。
冷热度分析:告诉你哪些数据是企业常用数据,哪些数据属于僵死数据。
关联度分析:告诉你数据和其他数据的关系以及它们的关系是怎样建立的。
数据资产地图:告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。
元数据管理价值
元数据管理到底有什么用?图书馆的目录卡片只是一个很简单的元数据管理,在企业中,元数据管理会更为全面,难度更高,同时也将带来更多的收益:
元数据管理平台为用户提供高质量、准确、易于管理的数据,它贯穿数据中心构建、运行和维护的整个生命周期。同时,在数据中心构建的整个过程中,数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节,均需要通过相应的元数据的进行支撑。
通过元数据管理,形成整个系统信息数据资的准确视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据,梳理业务元数据之间的关系,建立信息数据标准完善对这些数据的解释、定义,形成企业范围内一致、统一的数据定义,并可以对这些数据来源、运作情况、变迁等进行跟踪分析。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.