网易首页 > 网易号 > 正文 申请入驻

观点丨徐拥军 成徐慧:如何建设面向人工智能的高质量档案数据集?

0
分享至


徐拥军

中国人民大学国家发展与战略研究院研究员

信息资源管理学院教授

成徐慧

中国人民大学信息资源管理学院硕士生

在数智时代,高质量数据集作为人工智能模型训练与应用的基石,已成为国家科技发展与战略安全的核心稀缺要素。《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》要求:“强化算力、算法、数据等高效供给。”《国务院关于深入实施“人工智能+”行动的意见》提出:“加强数据供给创新。以应用为导向,持续加强人工智能高质量数据集建设。”在此背景下,加强优质数据供给,以高质量数据集驱动人工智能创新发展变得愈发关键。

档案作为人类社会活动的原始记录,在高质量数据集建设方面具有突出优势。目前,已有电子疾病档案(EDR)数据集、公共信用档案数据集等入选国家数据局高质量数据集典型案例,初步展现了档案资源向高质量语料转化的可行路径。档案部门应该面向人工智能积极行动,将档案信息化建设重心转向高质量档案数据集建设。

面向场景开展数据需求识别与规划设计

建设高质量档案数据集,首要前提是弄清楚“数据要用来干什么”,将数据需求与具体应用场景紧密耦合。具体而言,高质量档案数据集的建设需求应当从三个方面入手加以系统梳理:一是面向外部模型的通用需求,如支持人工智能模型的价值对齐。二是面向数据要素市场的开发需求,如档案资源在医疗健康、城市治理、文化创意、金融风控等领域的深度利用。三是面向档案业务的内部应用需求,如档案鉴定、开放审核、利用服务、编研选题等环节的智能辅助。在此基础上,围绕不同应用场景,开展系统化的数据规划设计,界定所需档案数据的来源、属性与范围,并制定涵盖全流程的实施计划,明确数据采集、预处理、标注、模型验证等环节的责任分工、时间安排与质量控制要求,形成可执行的路线图。

为提高高质量档案数据集的建设效率,建议在数据集规划设计阶段统筹考虑既有档案数字化成果、档案数据库,有效整合分散资源,避免重复采集与处理。因此,高质量档案数据集对档案信息化建设也提出了更高要求。例如,在档案数据化阶段,应同步考虑样本切分、语义标注和脱敏处理等需求,使数据化成果成为数据集建设的前期基础。在档案数据库建模时,既要满足管理需要,也要尽量保留有助于数据集构建的结构信息与语义线索,避免因过度简化而削弱后续数据集建设空间。

统筹推进数据采集与预处理

对既有档案数据库和数字化成果开展资源盘点和可用性评估,识别其中可通过格式转换、字段映射、批量抽取等方式直接转化为训练样本的部分,将其作为数据集建设的“优先利用层”;对尚未数字化或数字化质量难以满足要求的档案,则纳入增量采集范围,通过补扫、重扫、补录等方式完善数据来源。在此基础上,对档案数据进行预处理。针对扫描件、版式文件、结构化元数据和自由文本等不同形态的档案数据,通过版面分析、OCR、版式还原、字段解析等过程,完成结构转换。进而根据不同任务需求,将文本拆分为文件级、段落级、句子级或字段级等多粒度样本,并继承保留全宗号、案卷号、时间节点、责任主体等既有元数据字段,维持必要的上下文关联,使模型既能学习局部特征,又能把握档案形成过程和业务逻辑。

围绕完整性、准确性、一致性等关键质量特征,构建自动检测与人工抽查相结合的质检机制,重点识别并修正OCR误识、字段错位、时间格式混乱、重复记录、缺页漏页等问题,对严重影响使用的数据予以标记或剔除,避免“脏数据”在下游应用环节被放大。针对含有个人隐私、国家秘密等敏感信息的档案数据,按照相关法律法规要求,采用匿名化、去标识化、模糊化、分级展示等方式进行脱敏,并明确可用范围和使用限制,确保在不损害档案真实性和研究价值的前提下,将数据使用风险控制在可接受水平。

构建面向语义的数据标注体系

数据标注是对初级数据进行加工处理,并转换为机器可识别信息的过程。在数据预处理阶段保留的全宗号等基础管理元数据主要服务于档案管理,对档案内容所包含的事件结构、语义关系和制度语境缺乏刻画能力,难以满足人工智能模型在实体识别、关系抽取、因果推理等方面的训练需求。因此,有必要在现有元数据之上叠加一层面向语义的数据标注体系,将档案知识结构和业务规则显性化为模型可学习的目标变量。

以应用场景和任务需求为牵引,形成场景任务标签。例如,对于医疗健康等专业档案,可增加疾病分类、诊疗过程节点、干预措施与结果指标等标签;在开放审核场景中则增加涉密信息类型、个人隐私敏感度、公开风险等级等标签。

在具体标注过程中,根据不同任务的复杂程度和专业要求,合理配置领域专家、档案工作人员和数据标注人员,将业务规章和专业经验固化为标注指南,通过试标、示例库建设和标注培训,减少标注者之间的理解差异。在流程设计上,可采用“初标—复核—抽检”相结合的方式,对关键任务或高风险标签(如开放属性、风险类别等)实施更高强度的复核比例。同时,运用一致性指标和错误分析报告,对易混淆标签、模糊规则进行针对性修订,使标签体系和标注规程在实践中不断迭代。

建立闭环反馈的模型验证机制

数据标注完成后,需通过模型验证环节检验高质量数据集对人工智能任务的支持能力。模型验证的核心目标,在于判断数据集是否具备支撑语义理解与知识推理等任务的能力、是否能够有效提升下游模型性能。为此,应围绕具体应用场景,设定具有代表性的基准任务和评估指标,对结构识别、术语抽取、情境判断等典型任务进行系统测试,以综合判断数据集的训练有效性与场景适配性。

当模型在相应任务上的表现达到预期,说明数据集在样本覆盖、标签体系与语义深度等方面具备较高的匹配度;反之,则需启动“诊断—反馈—优化”的闭环机制。具体而言,一方面,要首先厘清问题是否主要源于数据质量,而非算法设计;另一方面,应对训练与验证过程中暴露出的错误样本和系统性偏差进行归纳,据此优化样本构成、调整结构转换规则、细化标注规范或修订标签体系。

综上,推动档案高质量数据集建设,关键在于打破组织与资源壁垒,实现跨领域的系统规划与多元协同。一方面,应坚持试点先行、示范带动的推进思路,依托国家高水平数字档案馆(室)、重点科研项目或区域性平台率先布局数据集建设与模型测试任务,探索形成可复制、可推广的技术方案和经验模式。另一方面,要推动协同共建,构建良好生态。既要鼓励档案馆、高校、科研机构与技术企业等多元主体深度参与,在档案本体构建、语义标注与模型评估等关键环节协同攻关,也要秉持长期主义理念,推动档案数据的持续治理与动态更新,构建可滚动优化的档案数据资产体系。

档案高质量数据集的建设是一项复杂的系统工程,涉及法规标准、数据治理、技术研发、平台建设与场景应用等多个环节,需要多方共建、协同推进,以充分释放档案作为数据要素的潜力,将静态资源转化为驱动人工智能创新的智慧动能。

文章来源:《中国档案》

微信编辑:张菁菁


人大国发院是中国人民大学集全校之力重点打造的中国特色新型高校智库,现任理事长为学校党委书记张东刚,现任院长为林尚立教授。2015年入选全国首批“国家高端智库”建设试点单位,并入选全球智库百强,2018年初在“中国大学智库机构百强排行榜”中名列第一。2019年在国家高端智库综合评估中入选第一档次梯队,是唯一入选第一档次梯队的高校智库。

人大国发院积极打造“新平台、大网络,跨学科、重交叉,促创新、高产出”的高端智库平台。围绕经济治理与经济发展、政治治理与法治建设、社会治理与社会创新、公共外交与国际关系四大研究领域,汇聚全校一流学科优质资源,在基础建设、决策咨询、公共外交、理论创新、舆论引导和内部治理等方面取得了显著成效。人大国发院以“中国特色新型高校智库的引领者”为目标,扎根中国大地,坚守国家战略,秉承时代使命,致力于建设成为具有全球影响力的世界一流大学智库。

微信二维码

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华晨宇抚仙湖演唱会取消,舞台已开始拆除,抚仙湖居民发声

华晨宇抚仙湖演唱会取消,舞台已开始拆除,抚仙湖居民发声

洞见小能手
2026-04-26 17:17:22
难怪美国丝毫不慌,原来真有内鬼输血!1200吨战略物资被悄悄贱卖

难怪美国丝毫不慌,原来真有内鬼输血!1200吨战略物资被悄悄贱卖

史智文道
2026-04-27 11:51:20
27日世锦赛战报:吴宜泽领先,世界前二优势明显

27日世锦赛战报:吴宜泽领先,世界前二优势明显

踏青云看世界
2026-04-27 12:02:30
特朗普:美国将不再派代表团前往巴基斯坦与伊朗谈判

特朗普:美国将不再派代表团前往巴基斯坦与伊朗谈判

中国网
2026-04-27 08:35:02
马齿苋立功!研究发现:其天然成分4周降脂33%,还能减少血管斑块

马齿苋立功!研究发现:其天然成分4周降脂33%,还能减少血管斑块

思思夜话
2026-04-25 11:16:17
世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

世上最失败4大工程:损失惨重,中国占俩!却说有意料之外效果?

三毛看世界
2026-04-17 16:43:17
快讯!菲律宾新消息!

快讯!菲律宾新消息!

达文西看世界
2026-04-27 07:08:59
扎心!浙大学生想去广东发展,希望年薪15万,双休,网友却泼冷水

扎心!浙大学生想去广东发展,希望年薪15万,双休,网友却泼冷水

一口娱乐
2026-04-27 12:52:26
林志玲一家三口用餐,穿着拖鞋抱着孩子妈味拉满,4岁儿子好黏她

林志玲一家三口用餐,穿着拖鞋抱着孩子妈味拉满,4岁儿子好黏她

八怪娱
2026-04-27 09:50:34
日本网友疯换中文手机界面,直呼清爽十倍,中国文化悄悄出圈!

日本网友疯换中文手机界面,直呼清爽十倍,中国文化悄悄出圈!

行者聊官
2026-04-24 20:48:30
袁咏仪宣布不再买包,搬家发现爱马仕奢侈品令儿子换卫衣逛宜家,张智霖意外慌张

袁咏仪宣布不再买包,搬家发现爱马仕奢侈品令儿子换卫衣逛宜家,张智霖意外慌张

科学发掘
2026-04-26 19:59:24
火箭大胜!阿门23+4+7,杜兰特笑容满面,赛后申京接受记者采访

火箭大胜!阿门23+4+7,杜兰特笑容满面,赛后申京接受记者采访

担酒
2026-04-27 12:22:10
中国民间向乌克兰捐款至少6530万美元

中国民间向乌克兰捐款至少6530万美元

紫京讲谈
2026-04-26 16:22:17
别克正式确认:7座MPV,明天上市!

别克正式确认:7座MPV,明天上市!

手机评测室
2026-04-27 12:00:54
浙江绍兴一空载列车撞上保洁员,致3人死亡1人重伤,绍兴轨道交通集团被罚115万元

浙江绍兴一空载列车撞上保洁员,致3人死亡1人重伤,绍兴轨道交通集团被罚115万元

大风新闻
2026-04-27 14:34:07
陆毅被网友提醒 “嘴唇发紫” 后去体检,嘴唇发紫是心脏在“求救”吗?

陆毅被网友提醒 “嘴唇发紫” 后去体检,嘴唇发紫是心脏在“求救”吗?

BRTV新闻
2026-04-27 11:55:41
就在今天!NBA过去80年季后赛历史记录,被22岁的文班轻松达成了

就在今天!NBA过去80年季后赛历史记录,被22岁的文班轻松达成了

秋姐居
2026-04-27 14:36:49
国家电网第二批录了10500人,清华才7个,一所你没听过的学校进了444人

国家电网第二批录了10500人,清华才7个,一所你没听过的学校进了444人

老满说高考
2026-04-24 20:13:49
王耀武女儿在斯坦福设“王耀武奖学金”,唯一要求:大陆学生优先

王耀武女儿在斯坦福设“王耀武奖学金”,唯一要求:大陆学生优先

史之铭
2026-04-27 02:02:22
上海地铁32岁女子与66岁老太互殴:央媒发声,拘留只是开始

上海地铁32岁女子与66岁老太互殴:央媒发声,拘留只是开始

晓銊就是我
2026-04-27 09:38:58
2026-04-27 15:03:00
人大国发院 incentive-icons
人大国发院
首批25家国家高端智库
4173文章数 1835关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

美海军考虑从外国购买军舰和零部件:日韩成潜在选择

头条要闻

美海军考虑从外国购买军舰和零部件:日韩成潜在选择

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

《奔跑吧14》刚播就把一手好牌打稀烂

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

在不确定中寻找确定性:大众汽车的中国解法

态度原创

健康
本地
手机
旅游
公开课

干细胞如何让烧烫伤皮肤"再生"?

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

手机要闻

苹果用户请注意!新款iPhone电量耗尽后可能无法开机 多款机型受影响

旅游要闻

春日畅游抱犊崮 山水漂流乐享惬意春光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版