网易首页 > 网易号 > 正文 申请入驻

AIP的逻辑结构与物理结构设计

0
分享至

前言
根据ISO 14721开放档案信息系统(OAIS)中的定义,AIP(Archival Information Package)是指保存信息包,即保存机构在电子档案长期保存时按照要求对内容数据及相关信息进行组织形成的信息包。AIP与SIP(Submission Information Package,提交信息包)、DIP(Dissemination Information Package,分发信息包)并称三大信息包。有关信息包的详细介绍参见文章《电子文件生命周期中的四大信息包》(以下简称“《信息包》”)。

《信息包》一文中分别给出了SIP(分为ASIP和TSIP)、AIP和DIP的参考结构,实际上只给出了逻辑结构,基本不涉及与封装、固化、存储相关的物理结构。今天咱们就来聊聊AIP的逻辑结构、物理结构以及其中的关键点。

AIP的不同之处

那为什么不聊SIP和DIP呢?这是因为SIP和DIP只是过渡性的信息包,主要用于系统之间的数据交换(比如前端OA系统和档案管理系统之间的SIP交换,或者馆藏资源管理系统和利用服务平台之间的DIP交换),一旦交换完成,一般会将信息包中的目录数据导入关系型数据库,将内容数据(电子文件)置于文件系统对应的目录结构下,便于后续处理和访问,信息包本身无需保留。因此,对于SIP和DIP而言,实际上只需要逻辑包,物理上采用哪种封装、固化和存储方式不是那么重要。

但是AIP不一样,AIP信息包一旦形成就会进入电子档案长期保存系统进行管理,并采用磁光电胶等多种载体进行多套备份,以确保档案数据长期安全保存。

出于方便管理的需要,AIP在进入电子档案长期保存系统之后,一般也会进行解包操作,并将目录数据导入关系型数据库便于日后查询,但没有必要抽取电子文件,而是以AIP物理信息包的方式进行存储。这就使AIP信息包不但与其封装方式、固化手段有关,与存储载体、存储方式也紧密相关。

AIP的逻辑结构

截止到目前,相关标准和文件中并没有给出明确的AIP结构示例,笔者根据自己的经验设计了以下AIP逻辑结构:

说明如下:

说明文件命名为“说明文件.TXT”

一个信息包只有一个说明文件,存放本信息包有关信息,包括信息包编号、制作者、制作时间、读取本信息包内档案数据所需要的软硬件环境及其他各种有助于说明本信息包的信息。

目录文件命名为“目录文件.XML”

存放电子档案的目录信息,目录文件中的每条记录与每份电子档案相对应,根据文件整理方式进行文件级描述或案卷级描述,每条记录中包括信息包内档案顺序号、档号、责任者、题名、日期、密级、主题词、附注等信息。

其他文件夹

存放各种与此次AIP制作相关的文件,包括但不限于电子档案入库交接单、元数据规范、数据封装规范、分类编号规则、内容数据命名规则、固化验证信息等。

电子档案文件夹

由多个全宗文件夹组成,以全宗号命名,其中存放电子档案内容及其元数据,一般按年度-类别-文件的层次设置文件夹。各保存机构可根据实际情况对存储结构中的类别、案卷、文件等层级进行调整或取舍。

“电子档案n.AIP”

每份电子档案都应以某种封装方式形成“电子档案n.AIP”,将其包含的电子文件内容及其元数据进行封装,并采用数字摘要等技术手段进行固化,实现电子档案的自包含、自描述、自证明。对于封装包中各类电子文件的格式,应采用符合GB/T 18894、GB/T 33190、DA/T 47等相关规范规定的长期保存格式,对于尚未明确长期保存格式的文件类型,应尽量选择主流、开放、通用的格式。

那么问题来了,AIP究竟应该采用什么封装格式进行封装?

AIP的物理结构

在《信息包》一文中,笔者曾经建议采用ZIP方式对AIP进行封装,如下图所示:

并给出建议:“为了确保档案数据安全,保存库中的电子档案会制作多套异质、异地备份,一般以电子档案为单位封装成ZIP包,便于复制、备份、检测、迁移等操作。”

这一做法最近在一个档案馆长期保存项目(电子档案库房)实施过程中碰到了问题,事实证明我们想简单了。

该项目长期保存库AIP入库流程示意如下图所示:

四个步骤中①封装、②初次入库(全量)、④制作多套备份都没有什么问题,问题出在③后续每月入库(增量)上。

我们假设一开始将管理库总量为50TB的长期保存数据封装成ZIP包导入长期保存库,并且制作了4套备份数据:磁盘阵列1套、蓝光光盘2套、数字胶片(部分数据)1套。一段时间以后,管理库中有一批档案数据进行了开放审核,全文数据没有任何变化但是目录数据发生了变化,这时候就会触发增量AIP包的生成,假设涉及到其中10TB数据的更新,也就是需要生成10TB的ZIP包导入长期保存库,并重新制作4套备份数据。为了确保档案数据安全,长期保存时采用的蓝光光盘和数字胶片都是WORM(Write Once Read Many,一次写入多次读)介质,那也就是4套数据中,磁盘阵列上的对应数据包可以覆盖,原先蓝光光盘和数字胶片上的数据包连同存储载体则只能全部作废,需要重新制作。

如果这种情况发生的概率很低,那工作量和成本在可控范围之内,还不算什么大问题。但事实上,类似开放审核、档案鉴定、补充著录这一类涉及到目录数据变化但不涉及全文数据变化的业务操作并不少,确实有一定的发生频率,在这种情况下,工作量和成本就成为档案保存机构的无法承受之重。

既然ZIP封装不行,EEP封装显然更不行,那应该采用什么封装方式呢?会是METS封装吗?

在《EEP封装?METS封装?还是ZIP封装?》一文中,笔者曾经介绍过METS封装。

METS封装是一种“模块式”的封装方式:所有元数据统一记录在描述元数据块和管理元数据块中;所有电子文件内容统一封装在文件列表块中;文件的结构信息记录在结构图块中;采用链接的方式将描述元数据块和管理元数据块中的元数据链接到文件列表块和结构图块中对应的文件上。如下图所示(以一份党委会议文件为例):

METS封装采用独立的模块来描述电子文件的元数据、文件内容和层次关系,模块之间互不影响,相互之间采用“指针”的方式链接。另外,METS封装还可以设计成“分体式”结构,也就是将电子文件内容以外部文件的形式独立保存,而METS封装包中只封装元数据及指向外部电子文件的链接,这样处理就可以大大降低封装包的大小,并很好地解决上述长期保存库AIP包增量更新的问题。

笔者想说的是,采用“分体式”METS封装解决了长期保存库AIP包增量更新的问题,其关键并不在于“METS封装”,而在于“分体式”设计!采用“分体式”ZIP封装一样可以解决上述问题。其AIP结构设计如下图所示:

说明如下:

1、将同一批AIP包拆分成两部分分别打包,一部分保存元数据,另一部分保存内容,分别存储并制作各自的多套备份,可以借鉴METS封装的思路,相互之间采用“指针”的方式链接;

2、后续需要更新元数据AIP的时候,只需要找到对应的存储备份载体,重新制作即可,内容AIP不需要任何操作。由于元数据AIP通常很小,可以累积到一定的量之后再更新替换,以节约工作量和成本;

3、上述内容AIP的目录结构(全宗-年度-类别)仅作示意,元数据和内容之间的关联可以通过档号等关键字段命名的方式,并不一定通过设置相同的目录结构来查找。极端情况下,所有的内容AIP全部放在同一个文件目录下都可以。内容AIP目录结构的设计需要在尽量固化(长期不变)与尽可能降低环境依赖性(脱离系统依然便于查找识别)之间找到平衡点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网传央企申报表增设“情夫(妇)”,网友:直钩钓鱼?

网传央企申报表增设“情夫(妇)”,网友:直钩钓鱼?

记录刘杰
2026-06-20 16:34:39
三箭齐发!博士实名举报母校北航多名教师学术造假,深陷学术危机

三箭齐发!博士实名举报母校北航多名教师学术造假,深陷学术危机

老猫观点
2026-06-20 10:28:44
端午10个粽子引发“血案”:丈夫砸家网友站队!到底缺的是什么?

端午10个粽子引发“血案”:丈夫砸家网友站队!到底缺的是什么?

椰青美食分享
2026-06-21 09:55:33
为啥一吃蛋白就掉秤?早餐2个蛋1杯奶,我35天瘦了15斤!

为啥一吃蛋白就掉秤?早餐2个蛋1杯奶,我35天瘦了15斤!

华庭讲美食
2026-06-20 02:29:04
特奥多罗以为全家被制裁已是封顶,没想到中方的反制,才刚刚开始

特奥多罗以为全家被制裁已是封顶,没想到中方的反制,才刚刚开始

无悔的灿烂人生
2026-06-21 11:35:30
“热不热,看夏至”,今日夏至,今年三伏会很热吗?看农谚怎么说

“热不热,看夏至”,今日夏至,今年三伏会很热吗?看农谚怎么说

阿龙美食记
2026-06-21 08:41:26
也曾授予普京:三位乌克兰前总统力挺泽连斯基,一道退还白鹰勋章

也曾授予普京:三位乌克兰前总统力挺泽连斯基,一道退还白鹰勋章

鹰眼Defence
2026-06-21 17:01:36
98年,东北一老板买下5千吨钢材后价格暴涨,他反手一个惊人操作

98年,东北一老板买下5千吨钢材后价格暴涨,他反手一个惊人操作

青青会讲故事
2025-11-07 16:36:01
2026世界杯最残酷真相:传统黑马已死,我们再也等不到奇迹了

2026世界杯最残酷真相:传统黑马已死,我们再也等不到奇迹了

老糿尾声体育解说
2026-06-20 23:41:01
美国人发问:中国为何“畏惧”战争?海外神回复让老美集体沉默!

美国人发问:中国为何“畏惧”战争?海外神回复让老美集体沉默!

解锁世界风云
2026-06-20 20:24:41
断一条腿赔多少钱?世界杯球员的工伤账单,比你想的贵多了

断一条腿赔多少钱?世界杯球员的工伤账单,比你想的贵多了

复转这些年
2026-06-20 16:41:26
山西肉铺伤人后续:又杀害两名顾客,3人当场死亡,家属曝隐情

山西肉铺伤人后续:又杀害两名顾客,3人当场死亡,家属曝隐情

离离言几许
2026-06-16 20:59:36
共和党彻底内讧!万斯怒斥以色列不知感恩,犹太裔议员硬核回怼

共和党彻底内讧!万斯怒斥以色列不知感恩,犹太裔议员硬核回怼

小陆搞笑日常
2026-06-20 16:22:23
表面老艺术家,私下贪财又好色,这几位晚节不保一点都不冤

表面老艺术家,私下贪财又好色,这几位晚节不保一点都不冤

梦史
2026-06-20 17:12:58
孙科一辈子没叫过宋庆龄一声妈,却在1949年替她挡了蒋介石一刀

孙科一辈子没叫过宋庆龄一声妈,却在1949年替她挡了蒋介石一刀

近史谈
2026-06-21 15:36:49
胡锡进:日本真没什么好玩的,大家干嘛要去日本旅游呢?

胡锡进:日本真没什么好玩的,大家干嘛要去日本旅游呢?

映射生活的身影
2026-06-21 19:30:48
打死也不能进冰箱的3种菜,回家立刻拿出来别再拿家人健康开玩笑

打死也不能进冰箱的3种菜,回家立刻拿出来别再拿家人健康开玩笑

小柱解说游戏
2026-06-21 11:39:50
欧洲车企要哭了!中国电动重卡杀疯了,670公里续航碾压一切!

欧洲车企要哭了!中国电动重卡杀疯了,670公里续航碾压一切!

沙雕小琳琳
2026-06-21 09:07:07
吸烟40年,肺部依旧干净无结节,医生:他坚持4个习惯,值得借鉴

吸烟40年,肺部依旧干净无结节,医生:他坚持4个习惯,值得借鉴

鬼菜生活
2026-06-20 11:13:44
嫁李铁不后悔!张泉灵卸下伪装,自曝在央视受排挤,她没法说谎

嫁李铁不后悔!张泉灵卸下伪装,自曝在央视受排挤,她没法说谎

麦芽是个小趴菜
2026-06-21 10:37:56
2026-06-21 20:48:49
数字罗塞塔计划
数字罗塞塔计划
保存社会记忆、传承人类文明!致力于成为全国领先的档案“两化”新媒体平台。
319文章数 6关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

两年前"震惊世界"的洲际弹道导弹发射 细节披露

头条要闻

两年前"震惊世界"的洲际弹道导弹发射 细节披露

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

原来她就是张颂文老婆

财经要闻

蔚来的“暗战”时刻

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

房产
时尚
数码
健康
军事航空

房产要闻

商业清零式退潮,大量住宅登场!三亚又要大规模调规!

邮报盘点哈兰德奢侈品收藏:33万镑爱马仕包、28万豪华腕表

数码要闻

英特尔与AMD推出ACE扩展:为x86架构加入AI指令集

吃粽子的3条保胃法则,消化科医生推荐

军事要闻

时隔44年试射洲际导弹 现场照片传递三个重磅信息

无障碍浏览 进入关怀版