关注我们 - 数字罗塞塔计划 -
《OFD档案应用指南》目前正在征求意见,如果拿这个即将出台的标准和PDF/A对标的话,就相当于是OFD/A,这个标准一旦颁布对于长期以来缺少可参考归档保存版式电子文件格式标准的国内档案部门而言无疑是一个巨大的福音,详见笔者的另一篇公众号文章《我们需要什么样的电子文件格式标准?》
0 1
从一般意义上讲,对于归档保存版式电子文件格式的需求应当满足DA/T 47-2009《版式电子文件长期保存格式需求》的通用要求,OFD/A自然也不能例外。DA/T 47-2009给出了遴选归档保存版式电子文件格式的需求,一共11大项:格式开放、不绑定软硬件、文件自包含、格式自描述、显示一致性、持续可解释、稳健、可转换、利于存储、支持技术认证机制、易于利用。另外还有44小项,详细的需求可查阅DA/T 47-2009标准。
0 2
但这些通用的需求比较笼统,有没有具体一点的实例,能够让人一看就明白的呢?还真有!GB/T 39362-2020《党政机关电子公文归档规范》附录E中对于“单个OFD格式电子档案表现形式示意”说明如下(为了尊重原文,以下描述中采用了OFD,实际指的就是OFD/A):
以发文为例,包含多个件内文件(正本、文件处理单、定稿、历次修改稿等)的电子档案可合并成一个OFD文件,其呈现形式如下:
每一份电子档案包含的件内文件按照DA/T 22-2015《归档文件整理规则》的要求排序,正本放在最上面,依次为文件处理单、定稿、历次修改稿等,将组成一份电子档案的多个文件统一转换并合并成一个OFD文件;对于扫描形成的电子公文内容图像,通过OCR技术提取全文内容数据和扫描图像合并成双层OFD文件;对于电子档案的元数据,可嵌入到OFD文件中。
如上所述,组成一份电子档案的每一个OFD文件可包含形式、内容、元数据三个层次,如下图所示:
三个层次说明如下:
形式层
图像格式或者版式格式,保持原件的真实性,用于将来调阅、利用时的显示。
内容层
文本格式,抽取文件中的内容,用于将来对电子档案的全文检索。
元数据层
XML格式,封装电子档案元数据,嵌入到OFD文件中,既可用于检索,也可使OFD文件作为完整电子档案格式不依赖于文件系统、数据库等运行环境独立存在。
0 3
以上描述实际上已经提到了很多OFD/A方面具体需求:比如双层OFD、多页合并、元数据嵌入等,这些都是在电子文件归档实际操作过程中会碰到的功能需求,将来的OFD/A肯定是需要满足的。当然,这仅仅是一个具体的例子,笔者将以前在档案软件开发过程中碰到的和电子文件版式相关的需求进行了整理,这些都是需要OFD相关厂商在自身的SDK(软件开发包)产品中实现的,便于档案软件的调用和集成。OFD SDK应当提供但不限于以下接口:
格式转换接口
各种文本、图像、图形、网页等文件格式转换成OFD格式,如果能够逆转换则更佳;
元数据获取接口
获取一份电子档案中单个OFD文件的元数据;
全文获取接口
OFD文件中的全文内容获取,用于对OFD文件建立全文索引;
关键字检索接口
对OFD文件中的文字进行检索,返回匹配检索词的页数和位置;
XML文件嵌入接口
用于嵌入电子档案的XML元数据文件;
XML文件获取接口
用于获取电子档案的XML元数据文件;
文件合并、拆分、插入、删除、页面顺序调整接口
多个OFD文件合并;一个OFD文件拆分成多页;在一个OFD文件中插入或删除某一页或者某几页;一个OFD文件中的页顺序调整;
文件局部涂黑接口
对OFD文件指定页局部区域或者整页区域进行涂黑(用色块前景覆盖)处理,用于遮挡敏感信息;
文件页旋转接口
对OFD文件指定页进行左旋、右旋处理;
文件线性化接口
对OFD文件进行线性化转换处理,用于在大文件浏览时边下载边打开;浏览之后客户机中不允许存在缓存文件;
文件附加接口
把其他格式文件作为附件挂接到OFD文件中,以及从OFD文件中获取附件;
双层OFD生成接口
针对扫描图像文件直接生成双层OFD文件,并支持文件合并;
固化信息校验接口
对OFD文件中的数字签名、电子印章等固化信息进行有效性校验;
去除固化信息接口
去掉OFD文件中的数字签名、可信时间戳、加密算法、特殊的压缩算法等信息;去掉电子印章中的签名和证书信息,只保留印章图像;
规范性校验接口
校验OFD文件是否为合法、规范、有效、符合标准的OFD文件;待OFD/A标准颁布之后,还需要进一步提供OFD/A的校验接口;
文件保护接口
给OFD文件设置打开、打印、内容提取、增删页面等操作的保护功能。
当然,以上需求只是从档案软件开发商的角度总结的,有些可能在现有OFD标准中已经提供;其中哪些可以被OFD/A标准纳入成为通用需求,哪些只是用户单位的个性需求而不适合被OFD/A标准采纳,这些还需要OFD/A标准起草组的慎重甄别和遴选。
笔者还是这个观点,标准应该从业务中来,到业务中去,来源于业务实践的标准在将来推广应用过程中会省去很多麻烦,也不会飘在空中落不了地。
数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!
关注我们 - 数字罗塞塔计划 -
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.