关注我们 -数字罗塞塔计划-
PREMIS(PreservationMetadata:Implementation Strategies,即保存元数据:实施战略)是由美国联机计算机图书馆中心(OCLC)与研究图书馆集团(RGL)共同发起,国际专家团队联合开发的项目。PREMIS是元数据的国际标准,涵盖了数据字典、XML模式及支持文档等,旨在保障数字对象的保存及其长期可用性。目前,该标准已在世界各地的数字保存项目中得到广泛应用,并被众多商业与开源的数字保存工具与系统纳入支持。
PART 01
项目研究过程
- 发起行动计划
2000 年 3 月,由 OCLC 和RLG共同发起了一项对数字保存元数据的基础架构进行研究的行动计划。该研究活动主要解决 4 个问题:
(1)定义保存元数据 (Preservation Metadata);
(2)描述在数字保存过程中元数据的角色功能;
(3)对当前的元数据体系进行评议和综合;
(4)开发一个广泛适用的、综合性的元数据框架以支持数字资源的长期保存。
前三个问题在2001年出版的《数字对象保存元数据——最新情况的一个回顾》(“Preservation Metadata for Digital Objects: A Review of the State of the Art”)报告中得到解答。
- 发布保存元数据框架
2002年7月,工作组发布了名为《保存元数据和 OAIS 信息模型——支持数据对象保存的元数据框架》(“Preservation Metadata and the OAIS Information Model: A Metadata Framework to Support the Preservation of Digital Objects”)的报告,回答了第四个问题。该报告详细阐述了数字资源长期保存所需的各种信息,并提出了一个扩展和细化的元数据框架,包括各个组成部分所需的元数据元素。
- 发起PREMIS项目
2003年,在上述研究成果基础上,OCLC和RLG联合发起了PREMIS项目,旨在基于保存元数据框架,解决实施问题,提出数字资源长期保存中实施保存元数据的指导方案。项目分为两个工作组:
核心元素工作组:负责定义核心保存元数据元素集,开发数据字典,提供应用、植入和管理指南,并定义XML Schema和数字保存术语表;
实施战略工作组:负责提出数字保存系统内和系统间保存元数据编码、存储、管理和交换的规范,探讨如何在数字保存中利用元数据,以及元数据在数字保存仓储体系中的存储方式。
2004年9月,PREMIS发布了《数字资源保存库保存实施——文化遗产界当前的实践与呈现的趋势》报告,从实用性和可操作性的角度,定义了数字保存仓储中核心保存元数据的具体内容。这些元数据被认为是任何保存环境下都必须存在的,同时在各种保存类型和仓储系统中也具有普遍适用性。
- PREMIS数据字典1.0发布
2005年5月,PREMIS发布了《保存元数据之数据字典——PREMIS工作组最终报告》(“Data Dictionary for Preservation Metadata: Final Report of the PREMIS Working Group”)及相关XML Schema。报告共237页,包括PREMIS数据字典1.0、相关报告和特别主题、术语、使用举例。数据字典定义了核心元素和数据模型,提供了实施、使用和管理保存元数据的指南。该报告的发布提高了保存机构编码、封装、存储、管理和应用保存元数据的可行性。
2007年6月,PREMIS发布了《PREMIS数据字典的应用——一个实施方法的调查》。报告提供了PREMIS数据字典应用的最佳实例分析,探讨了与PREMIS相符的要求,介绍了数据字典的最佳实践、数据模型和语义单元集的应用,以及元数据生成与抽取的实际工具,为数字保存工作界提供了将保存元数据应用于实践的参考。
- PREMIS数据字典2.0发布
2008年3月,工作组发布了《PREMIS保存元数据之数据字典 2.0》(“PREMIS Data Dictionary for Preservation Metadata version 2.0”)。从2007年开始,委员会收集保存界正在讨论的问题,征求意见并请教其他领域专家,最终形成了PREMIS 保存元数据数据字典 2.0。与1.0相比,它在数据模型定义、实体关系分析、语义单元集优化等方面做了很多工作。
- PREMIS数据字典3.0发布
2015年6月,工作组发布了最新的PREMIS 3.0数据字典,这次修订包括一些重大的修改和补充:
将知识实体重新定位为对象类别,以便在PREMIS中进行其他描述并链接到相关的PREMIS实体。
重新定位环境(即使用数字对象所需的硬件和软件),以便可以重复使用对象实体来描述和保留它们。也就是说,它们可以被描述为知识实体,并保留为表示、文件或比特流对象。
将物理对象添加到PREMIS的范围内,以便可以描述它们并将其与数字对象相关联。
分别向对象实体、代理实体和事件实体添加了新的语义单元。
2017年8月,PREMIS编委会对事件实体的控制词汇进行了必要的修订。至此,最新的PREMIS 3.0涵盖了包括数据字典、XML Schema以及相应的支持文档在内的全面内容。(公众号后台回复“数据字典”可以下载最新的PREMIS 3.0文档。)
PREMIS数据字典版本更新记录
PART 02
PREMIS 3.0保存元数据定义
保存元数据暂无统一的定义,但普遍认为,为实现数字资源的长期保存与有效获取,需通过结构化的手段来详细描述和记录与数字资源管理相关的信息,这种描述和记录的方法被称作保存元数据。
PREMIS定义的保存元数据是支持数字保存处理过程的信息框架,是为了实现对数字对象进行长期保存,维持数字资源的长期可生存能力(Viability)、可呈现能力(Renderability)和可理解能力(Understandability)所必需的信息。PREMIS 认为保存元数据应该具备以下特征:
支持数字对象在保存环境中的可行性、可渲染性、可理解性和真实性;
代表了大多数保存仓储库需要了解的信息,以便长期保存数字资源;
强调“可实施的元数据”:严格定义,由创建、管理和使用指南支持,并面向自动化工作流程;
体现技术中立性:不对保存技术、策略、元数据存储和管理等做出任何假。
因此,保存元数据兼有管理(包括权利和权限)元数据、技术元数据和结构元数据的功能。在保存元数据中,特别需要关注的是记录下数字对象历史的来源信息以及在保存仓储之中数字对象之间的关系信息。
PART 03
PREMIS 3.0保存元数据模型
PREMIS数据字典基于OAIS参考模型(有关OAIS参考模型的详细介绍参见本号文章《OAIS模型及其数字资源长期保存要求》),它通过将保存元数据映射在OAIS信息模型的概念框架之上进行说明,并将这一框架转换为一系列更具可操作性的语义单元。值得注意的是,PREMIS和OAIS利用不同的术语体系,PREMIS的元数据元素要比OAIS提供的信息类型更为具体。
PREMIS工作组研究出一个简单的数据模型来组织在数据字典中定义的语义单元。该模型包括四个与数字保存活动相关的重要实体:对象(Object)、事件(Event)、代理(Agent)和权利(Right)。
PREMIS 3.0的数据模型图
图中,实体由方框表示,实体之间的关系由箭头表示。当箭头是双向时,每个实体类型都包含一个语义单元,允许它链接到另一个实体。例如,Right实体包括一个语义单元,用于记录有关与Agent的关系信息,反之亦然。从Object实体指向自身的箭头表示数据字典中定义的语义单元支持记录 Object之间的关系,数据模型中没有其他实体支持此种类型的关系。
PREMIS数据模型中的实体定义如下:
对象(或数字对象):
数字形式的信息离散单元。将1.0和2.0版本的智能实体作为对象实体的一个类别。对象实体包括比特流实体、文件实体、表现实体和智能实体四个层次类别,并且这些实体产生于特定的环境中。
事件:
涉及或影响至少一个与保存仓储库关联或已知的对象或代理的操作。
代理:
与对象生命周期中的事件相关的个人、组织或软件程序/系统。
权利:
与对象或代理相关的一项或多项权利或许可声明。
PART 04
保存元数据功能实现流程
PREMIS保存元数据功能实现流程大致包括五个步骤,是一个循环往复、持续优化的过程。
保存元数据记录下了为实现长期保存目的而必须记录下的技术、权利、管理等信息,这些信息之间是有规律、有逻辑的。
PREMIS工作组建立一个数据模型来对其进行有效组织,在这个模型里定义各种实体、为实体定义了语义单元、为实体间定义了关系。
第三步
通过运用专门的元数据抽取工具,保存机构可以从仓储库的数字资源中提取保存元数据,并将其纳入此模型中。
第四步
通过引入XML Schema,封装在XML文档中的保存元数据得以高效存储、管理和利用,从而实现了数据模型在XML中的实际应用。
第五步
随着保存元数据的应用,还可以根据实际情况对其进行持续优化,进而在保存元数据和数字资源的长期保存之间形成良性循环。
PREMIS保存元数据模型及其数据字典为数字资源的长期保存提供了强大的支持,让我们能够透过抽象的 OAIS 信息模型,比较清晰地看到数字保存系统中的保存元数据体系。PREMIS对于什么是保存元数据,保存元数据的重点是什么,怎样进行具体实施都有一个比较明确的回答。这一模型不仅为保存元数据提供了结构化的组织方式,还促进了元数据与实际数字资源之间的关联和交互,有助于推动数字保存领域的规范化、标准化和可持续发展。随着数字资源数量的不断增加以及保存需求的不断提高,预计PREMIS将在未来的数字保存工作中发挥更加重要的作用。
数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!
关注我们 -数字罗塞塔计划-
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.