网易首页 > 网易号 > 正文 申请入驻

【大比武10】行业垂直大模型应用在档案管理中的探索

0
分享至

关注我们 - 数字罗塞塔计划 -

# 大比武2024

本篇是参加“华夏伟业”杯第二届档案信息化公司业务与技术实力大比武(简称“大比武 2024”)的投稿文章,来自广州龙建达电子股份有限公司,作者:陶宣任

在这个人工智能技术飞速发展的时代,随着大模型的技术能力逐渐成熟,面向行业的垂直大模型开始在各行各业得到应用,比如在档案的收、管、存、用过程中尝试借助行业垂直大模型来辅助管理者实现高效管理。本文通过分析行业垂直大模型的能力与档案管理需求之间的结合方式,探索行业垂直大模型如何提高档案管理效率。

一.何行业垂直大模型?

通用大模型通常指的是能够处理各种领域和主题的大型语言模型,例如ChatGPT和Llama 3。通用大模型在多个领域具有广泛的知识和能力,具备能够回答各种问题、提供多领域的信息与支持、自动编程等能力。而行业垂直大模型是指针对特定行业或领域进行微调训练的大型语言模型,这些模型会基于特定行业的数据和应用场景进行微调,以提供更专业和精确的信息和支持。例如在档案行业中,可以构建一个专门针对档案收集、整理、检索、利用等场景进行微调的档案行业垂直大模型(以下简称“档案大模型”)。

二.档案管理过程中的创新应用场景

在传统档案管理过程中,随着文件类型、档案数量的增加,对于档案工作者而言,无疑大幅度增加了他们的日常工作压力,从档案的接收、整理、保管,再到检索利用,每份档案的生命周期都需要工作者干预。为此,根据档案管理流程,结合实际业务情况,总结出档案管理过程中可以进行创新建设的应用场景:

01 档案自动化整理

档案整理工作往往是重复而又繁琐,需要对大量待归档的电子文件进行元数据收集、分类、组件、编号、编目、归档等人工操作,希望可以通过技术手段自动化处理档案整理中的一系列任务,人工只需审核整理结果而无需进行整理工作,从而将档案工作者从繁重的档案整理工作中解放出来。

02 构建档案信息“大脑”

在传统的档案检索过程中,由于检索引擎技术限制,且著录信息有限,常用的目录检索或是关键字检索等传统方式,往往只能对档案数据库中的结构化数据信息进行检索,查全率和查准率都不尽如人意。需要借助工具自动学习各类档案中的内容,构建档案信息“大脑”,利用者无需通过检索方式来获取所需信息,只需通过“自然语言交互方式”即可,快速实现有关档案的相关问题解答或是精准全面的档案查询利用。

03 档案智慧编研

传统档案编研受限于档案检索功能的不完善以及编研人员的个人知识结构,许多珍贵、有价值、和主题相关度高的档案无法进入编研范围,进而影响到编研成果。利用先进的AI技术对海量档案数字资源进行智能识别,自动完成档案信息的整理和归集,并智能根据编研主题类型和格式要求生成报告,输出各种格式的编研成果,实现档案编研的智能化。

三.构建档案行业垂直大模型

档案业务的主要工作有接收、整理、鉴定、保管、检索、利用、编研、统计等,事实上,每个业务过程都可以借助行业垂直大模型来辅助操作,进而实现档案管理的变革创新,提高档案管理效率。

档案大模型具体实现方式如下:

01 行业垂直大模型本地化

不同于通用大模型,行业垂直大模型具备本地化学习的能力。由于档案的特性,档案大模型不能采用互联网模式,需通过NLP等技术对本地档案数据进行不断训练和学习。档案大模型本地应用流程示意图如下:

02 支持“学习”各类文件

通用大模型一般只支持纯文本交流,而电子档案的文件格式多种多样,档案大模型本地化后必须做到“不挑食”。其具有强大的各类文件解析学习能力,可对档案库中的常见文件类型进行学习,如文书档案的PDF/OFD/XML格式、照片档案的JPEG格式、音频档案的MP3格式、视频档案的MP4格式等等,这样才能真正辅助管理档案。文件解析流程示意图如下:

03 理解“人话”

基于本地档案数据构建档案知识库,利用档案大模型的自然语言交互能力和理解能力,借助向量数据库的加持,搭建一个“AI智能问答系统”。实现能以自然语言问答方式进行档案的“问答式利用”,要求该系统能理解“人话”,能以人的方式进行思考,并能通过“人话”和管理员进行沟通。

四.使用行业垂直大模型赋能应用场景

依托档案大模型,就可以赋能档案自动整理、AI智能问答、智慧编研等创新应用场景了,从而实现档案高效管理。

01 档案自动高效整理

快速针对tif、jpg、ofd、pdf等常见格式的电子档案进行智能档案整理,实现自动分类和元数据信息自动捕获,智能提取电子文件内容中的有效信息,高效完成档案的智能分类、编号、排序等业务操作。比如提取文书类档案中的文号、发文时间、标题、发文单位、抄送、主题词等元数据信息,并对著录项进行自动赋值。档案整理人员只需上传档案到本地库,然后确认大模型输出的整理结果是否无误即可,无需进行繁琐的整理工作。下图是通过大模型对某份文件进行自动整理的系统页面,可以清晰看到这份文件上传后,大模型就能从文件内容中识别并提取出这份文件需要著录的元数据信息:

02 档案AI智能问答

在“AI智能问答系统”中只需输入相应任务要求,大模型会自动理解文本语义并基于AI的思考方式进行数据检索和整理,然后利用强大的自然语言表达能力输出易于理解且匹配任务要求的档案信息结果,从而为用户提供快速、准确、智能的回答和智能检索,提升档案资源的利用效率和管理效率。下图是人工提出两项任务要求后,大模型根据本地档案的实际情况显示智能回答结果的系统页面,且每个回答结果都注明来源,确保需人工确认的时候可以快速判断该结果是否准确。

03 档案智慧编研

选择合适的档案数据对大模型进行训练学习,使其具备一定深度的档案行业语言理解能力以及对话生成、文章创作等能力,编研人员只需要输入编研主题,智慧编研系统即可自动开展档案编研工作,自动生成档案编研成果。

由于编研成果(比如大事记、年鉴、主题展览等)对于内容归纳、总结、提炼的要求较高,现阶段档案大模型赋能智慧编研的效果尚不能达到行业专家的水平,但可以帮助编研人员进行相关材料的汇聚和整理。

五.总 结

总体而言,现阶段行业垂直大模型的应用已经能够在一定程度上提高档案管理的效率,比如实现档案自动整理、快速问答、便捷利用等任务,减轻档案工作者的压力,促进档案信息资源的开发和利用。然而,行业垂直大模型技术离成熟还有一段距离,人工的参与和监督仍是必要的,需对最终输出的结果进行验证和修正,以确保结果的准确性和合规性。未来,随着行业垂直大模型的能力越来越强,赋能档案管理中的应用场景也会越来越丰富,类似于上文中提到的难度相对较大的智慧编研任务,通过大规模、针对性档案数据的训练学习并不断优化模型之后,相信也能输出超越人工整理的优质编研成果。

数字罗塞塔计划公众号致力于成为全国领先的档案信息化知识分享与交流平台。独木难成林,众创力量大!作为中立的第三方平台,我们将努力为广大档案信息化从业企业提供一个展示自身业务与技术专业水平的舞台,共同推动档案行业的进步与发展。

关注我们 - 数字罗塞塔计划 -

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闫学晶案判了,结果大快人心,和搭档冯巩关系早就真相大白

闫学晶案判了,结果大快人心,和搭档冯巩关系早就真相大白

不似少年游
2026-06-23 16:46:05
年纪大了,性生活时“力不从心”怎么办?多数老夫妻可能都做错了

年纪大了,性生活时“力不从心”怎么办?多数老夫妻可能都做错了

开心美食白科
2026-06-23 02:06:15
突发:亚洲最大诈骗集团太子集团高层潜伏日本多年,准备混永住签证时被日本警方逮捕。

突发:亚洲最大诈骗集团太子集团高层潜伏日本多年,准备混永住签证时被日本警方逮捕。

日本物语
2026-06-24 00:28:09
有人捡漏,有人囤签!谁是2026选秀大会首轮的最大赢家?

有人捡漏,有人囤签!谁是2026选秀大会首轮的最大赢家?

砚底沉香
2026-06-24 17:20:54
男闺蜜约我去泡温泉,我谎称同学聚会,结果撞见老公朋友

男闺蜜约我去泡温泉,我谎称同学聚会,结果撞见老公朋友

荔子言
2026-06-23 17:07:29
泽连斯基发出最后通牒,莫斯科摆明要袖手旁观:卢卡申科大概药丸

泽连斯基发出最后通牒,莫斯科摆明要袖手旁观:卢卡申科大概药丸

鹰眼Defence
2026-06-23 17:02:51
震惊!某平台一句句“接父亲意外身亡换大额赔款”言论,引发公愤

震惊!某平台一句句“接父亲意外身亡换大额赔款”言论,引发公愤

火山詩话
2026-06-23 11:56:41
热火记者:成功签下字母哥后,热火将重点关注克莱-汤普森

热火记者:成功签下字母哥后,热火将重点关注克莱-汤普森

懂球帝
2026-06-24 00:10:27
今晚雷雨伴短时大风!明起持续高温注意防暑

今晚雷雨伴短时大风!明起持续高温注意防暑

新浪财经
2026-06-24 17:57:34
伊朗没有赢下一场全面战争,却替中国废掉了美国一张最狠的牌

伊朗没有赢下一场全面战争,却替中国废掉了美国一张最狠的牌

贱议你读史
2026-06-24 19:35:03
AJ-迪班萨:“后勒布朗时代”的联盟门面,再添一员!

AJ-迪班萨:“后勒布朗时代”的联盟门面,再添一员!

北青网-北京青年报
2026-06-24 20:59:15
498 元,苹果"三合一"新品上架!

498 元,苹果"三合一"新品上架!

科技堡垒
2026-06-23 10:14:48
上海交大发现:体内有恶性肿瘤的人,身体或会有6个表现

上海交大发现:体内有恶性肿瘤的人,身体或会有6个表现

芹姐说生活
2026-06-21 22:25:32
拒绝套娃敷衍 前法拉利设计师操刀小鹏MONA L03

拒绝套娃敷衍 前法拉利设计师操刀小鹏MONA L03

快科技
2026-06-24 09:54:19
立陶宛暂停与台当局合作

立陶宛暂停与台当局合作

环球时报国际
2026-06-24 09:15:24
印度遭遇极罕见高温!全球变暖:中国北方正迎千年来最温湿时代

印度遭遇极罕见高温!全球变暖:中国北方正迎千年来最温湿时代

安然有思
2026-05-24 03:41:22
如何解决真主党?特朗普向以色列支招,想法有点震撼

如何解决真主党?特朗普向以色列支招,想法有点震撼

晨枫老苑
2026-06-23 16:32:43
他爸是一国总统,他却不替父亲的国家踢球

他爸是一国总统,他却不替父亲的国家踢球

首席商业评论
2026-06-22 17:43:53
反华反得断了粮,被美台狠踹一脚,总统下死命令:给中国一个交代

反华反得断了粮,被美台狠踹一脚,总统下死命令:给中国一个交代

离离言几许
2026-06-24 18:09:49
6月汽油大跌0.84元/升后,新周期再降0.52元/升,下次7月3日调价

6月汽油大跌0.84元/升后,新周期再降0.52元/升,下次7月3日调价

猪友巴巴
2026-06-24 20:20:03
2026-06-24 21:56:49
数字罗塞塔计划
数字罗塞塔计划
保存社会记忆、传承人类文明!致力于成为全国领先的档案“两化”新媒体平台。
319文章数 6关注度
往期回顾 全部

头条要闻

"副院长出轨眼科主任"新进展:女方离职 男方恢复出诊

头条要闻

"副院长出轨眼科主任"新进展:女方离职 男方恢复出诊

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

科技要闻

豆包专业版上线:定价68-500元每月

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

艺术
本地
教育
时尚
公开课

艺术要闻

第三届“ART南京”当代艺术博览会圆满收官

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

教育要闻

QS2027发布后,为什么说南安掉出前百反而是好事?

适合7月的三种风格,照着穿

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版