数据的无序性与难以利用成为传统工程建设资料管理方式面临的挑战。工程电子档案语境下的结构化数据表格应运而生,将信息颗粒度从宽泛的“页面”精细到具体的“数据项”。
《微柏数智说》通过对比纸质扫描件、原生电子文件以及XML层级数据集等不同方式,探索结构化数据表格如何为工程资料管理开启数智时代的全新篇章。
了解更多文章,可搜索“微柏数智说”
概念认知
工程电子档案语境下的结构化数据表格,其中的“结构化数据”≠“关系型数据库数据”,而是为了区分“纸质扫描件”和“原生电子文件”,增强工程数据管理而衍生的概念,其主要对象为:内容以复杂表格文档呈现的工程资料。
传统情况下,这些资料主要是纸质原件,制作扫描件后进行“线上+线下”同步管理,这种方式使数据管理和档案管理存在诸多不便。
基于此,Weepal 微柏软件®倡导应用电子签名,直接形成“原生电子文件”。还可进一步的,在形成“原生电子文件”的同时,形成完全包含该复杂表格文档颗粒化信息的XML、关系型数据库表等数据集,为数智时代的数据管理和档案管理开放更多可能性。
工程电子档案语境下的结构化数据表格,目的是让工程资料中的数据变得更加有序、关联性更强、字段含义更明确,便于机器读取和搜索。
对照组1
纸质扫描件+OCR
*(OCR:光学字符识别)
主要应用场景如下:
● 借助特定工具(如KIMI),识别并提取文字。
● 借助特定工具(如WPS会员功能),识别文字并附加于原图位置,辅助单个文件范围内的字符查找;转为可编辑文档,辅助形成新的工程资料。
● 定制软件功能,实现跨文件字符查找。
受表格复杂程度、扫描平整度、扫描清晰度等因素影响,综合识别准确率约为75%~99%。
百万页面的OCR,一次性费用约增加20万元,含GPU集群、图像降噪、OCR调优开发、图像预处理等;年运行费用约增加10万元,含电费、存储、算力资源等。
★ 预设信息利用难度=100%,结构化程度=0%。
对照组2
原生电子文件
主要应用场景如下:
● 使用通用工具(如网页浏览器),单个文件范围内的字符查找。
● 借助特定工具(如Adobe Acrobat),转为可编辑文档,辅助形成新的工程资料。
● 定制软件功能,实现跨文件字符查找。
● 定制软件系统,预设数据关联引用,辅助形成新的工程资料,实现工程资料及其数据和流程的自动化协同操作、统计、利用和分析。
假设:
●场景A:9百万页纸质扫描件+1百万页原生电子文件查询利用
●场景B:1百万页纸质扫描件+9百万页原生电子文件查询利用
由于OCR处理、硬件、系统开发方面的差异,场景A的一次性费用较场景B高约80万元。
由于存储、计算资源、维护与纠错方面的差异,场景A的年运行费用较场景B高约10万元。
★★ 预估信息利用难度=50%,结构化程度=50%。
对照组3
原生电子文件
+XML层级数据集
主要应用场景如下:
● 与对照组2相同。
● 定制软件功能,实现层级化、颗粒化的数据识别和提取。
XML层级数据集,便于集中管理和查询,以及异构系统的对接,可更直接地支持数据仓库建设和Web数据实时交互,数据利用方面潜力巨大。
★★★ 预估信息利用难度=20%,结构化程度=80%。
核心要点
●工程资料主要是包含复杂表格的“页面”型文档。
●数据结构化程度:纸质扫描件<原生电子文件<XML数据集<关系表格数据集。
●纸质文件或原生电子文件是必要的。
●XML数据集以树状层级结构组织数据,能够清晰地展示数据的从属和关联,使得复杂的数据关系得以直观呈现,可用于聚集单份文档内部“颗粒化”数据,为文档本体提供可解析的语义框架。
●关系表格数据集以二维表格的形式组织数据,行列结构直接适配SQL查询接口,能够快速定位和操作数据。可用于聚集海量文档中的高频利用数据,支持业务网络的数据关联引用和统计分析。
《微柏数智说》是Weepal 微柏软件®特别推出的行业研究栏目,理论解析、趋势洞察,持续关注系列文章,一同解锁更多行业精彩!期待您在评论区分享工程电子档案结构化数据表格应用的经验与见解!
本文仅代表作者观点,不代表平台立场
转载请注明来源于公众号“微柏软件”
作者 | 卢贵英
编辑 | 梁玮滢
统筹 | 梁婷儒
排版 | 梁婷儒
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.