关注我们 -数字罗塞塔计划-
文章来源:《浙江档案》杂志 2025年第 2 期
原文标题:《挑战与展望:DeepSeek对档案工作的影响及应用前景》
作者:刘越男 钱毅 王平 王玉珏 傅荣校 金波 王大众 胡文苑 林伟宏 梁凯 童邵恩 杨安荣 方巍森 陈亮 罗付军
—— 编者按 ——
作为新一代人工智能技术,DeepSeek凭借其独特的技术优势与创新模式,近期引起了国内外广泛关注和热烈讨论。围绕Deepseek可能给档案领域带来的发展机遇与重大挑战,本刊特邀来自高校、档案部门、企业共计15位档案专家,从多视角多维度笔谈DeepSeek对档案工作的影响及应用前景,希望专家探讨能启发和推动档案工作的智能化转型与发展。
刘越男
中国人民大学信息资源管理学院教授、院长,中国人民大学电子文件管理研究中心主任
DeepSeek R1和V3发布以来,以其低成本、高性能、强推理、开源策略赢得全球关注,已在全国多地、多机构中部署,多个服务企业宣布与DeepSeek合作推出新型智能产品,切实推动了行业普惠和AI生态的发展。可以预计,作为保管高质量、大规模数据的档案行业,围绕AI在档案管理和开发利用中的应用,其相关理论研究和实践探索将借助DeepSeek热潮进一步升温,至少表现在以下三方面。
第一、“大模型+档案”应用场景得到快速拓展和深化。
根据既有研究,AI已经在档案生命周期全过程得到应用,但由于大模型对于算力的高要求,“大模型+档案”的应用仅在个别项目中开始实验性探索。DeepSeek的横空出世使得资源相对较少、保密要求较高的档案部门能够突破算力瓶颈,极大提升档案部门应用人工智能的热情。“大模型+档案”的应用主要有两种类型:
一是管理效率导向的档案业务大模型开发与应用。归档、整理、著录、鉴定等重复性劳动将被档案管理智能体承担,或可在一定程度上缓解基层档案工作人员力量不足的问题,而以转录识别、增强描述为代表的档案数据化工作将成为应用重点。
二是知识激活导向的档案内容大模型(行业大模型)开发与应用。通过深入挖掘档案所承载的内容,完成决策分析、产品开发、文档写作等多场景任务。此类模型可能业已存在,档案数据作为大模型训练、微调的数据原料,可进一步增强行业大模型的能力。
第二、高质量档案数据集开发和数据治理将成为档案业务的新重点。
档案数据集的开发和开放,在国际范围内已有实践。训练高质量数据是DeepSeek取得成功的秘诀之一,这将极大地刺激人工智能对高质量数据集的需求。通过数据清洗、数据标注、数据集成等手段,可以将固化、封闭的档案信息转化为可分析、可利用的高质量数据集。这种转化也将成为档案数据要素化的新途径,不断推动“人工智能+档案数据”这一新兴产业业态的发展。实验表明,一方面,DeepSeek幻觉问题仍然存在;另一方面,若不加限制地将内部信息用于大模型训练,则可能出现内部用户获得超出授权范围信息的情况。随着档案数据规模和复杂性的不断增加,数据质量维护、价值对齐、隐私保护、信息防泄漏等治理问题也将日益复杂和突出。
第三、新一代AI背景下的计算档案学的研究和教育走向深入。
AI的应用拓展了档案学研究和教育的空间,在实践快速发展的同时,理论研究和人才培养亟需同步推进。在新一代AI发展浪潮下,计算档案学“整合档案与计算的理论、方法和资源”的任务演变为“整合档案与人工智能的理论、方法和资源”,档案理论的反思、发展与构建,人智共生的档案管理新模式,档案方法变革都将成为计算档案学研究的重点。需要注意的是,AI的应用也迫切需要档案学界和业界联手,共同探讨档案基础业务的科学性和规范化,而非单纯将希望寄托在AI上。没有人类的规则把关和方向指引,AI的应用可能会放大谬误,造成不可挽回的后果。与此同时,随着AI赋能高等教育的发展,面向AI的档案数据实践、实践导向的项目训练也将成为计算档案学教育的新内容。
钱毅
中国人民大学信息资源管理学院教授,中国人民大学电子文件研究管理中心执行主任
DeepSeek是大模型语言工程化的一次重大胜利,其开源、轻量化部署、低成本训练以及低算力消耗等特征,将促使AI技术普及,对档案行业的数智化转型而言,这无疑是一剂“强心针”。目前,前端业务领域正在形成智能驱动机制,特别是生成式人工智能已在科学研究、智能制造、内容创意等领域崭露头角,如2024年获得诺贝尔化学奖的AlphaFold塑造了新的知识生产环境。面对本轮由DeepSeek可能带来的技术环境变革,档案部门需要在资源建设、本地部署、场景创新等方面做好充分准备。
第一、充分发挥档案资源的“算据”优势。
作为可信资源部门,档案部门在算力、算法、算据三位一体的AI生态中具有独特优势,蕴含着巨大的发展潜力。同时也要清醒地认识到,在AI技术谱系中,DeepSeek目前仅处于弱人工智能阶段,从认识论角度来看,仍属于“经验主义”范畴,但它巧妙地结合了符号主义和连接主义的特点,通过一系列微创新,有效降低了训练成本,显著提高了推理效率。为此,我们需要有针对性地对档案资源体系进行优化,以更好地适应连接主义和符号主义AI的发展需求。在持续推进“存量档案数字化”工作,为训练提供充足算据的同时,也要加强开展档案数据化、语义化等数据工程和知识工程,为面向深度推理的强人工智能提供高质量的数据,为未来实现更高层次的通用人工智能奠定坚实基础。
第二、结合档案的特殊性进行针对性部署。
与云计算、区块链等技术应用一样,当AI技术,尤其是DeepSeek进入档案领域时,必须充分考虑档案的封闭性特征,进行针对性研究与安全部署,这类情形与医疗、法律等对数据安全和隐私保护的高标准要求类似。目前,众多国产硬件都支持DeepSeek部署,在此基础上,档案部门可探索与RAG(Retrieval-Augmented Generation)技术的结合使用。RAG技术可将档案数字资源作为外部知识库,在无需对大模型进行微调训练的前提下,即可增强大模型在档案领域的知识储备和性能表现,不仅能够无缝衔接与复用档案数据化与语义化成果,还能显著减少AI生成的幻觉现象,极大提升推理能力。
第三、开展“DeepSeek+档案场景”专题研究。
开展AI技术在档案领域各业务场景的适用性评估,积极创新AI的应用场景。目前,DeepSeek展现出的强大的二次创作能力,可应用于档案编研场景,其推理学习能力可应用于档案开放审核环节,这些均是传统信息化系统的功能短板。开展“DeepSeek+档案场景”专题研究,需要训练专属的大模型或知识库,并进行人工辅助提问训练,这是AI技术对档案人员提出的新技能要求。面对新要求的同时,也要看到AI技术可能催生新的就业机会,如AI伦理与合规审核、数据标注与治理、AI模型训练等。
王平
武汉大学信息管理学院教授、副院长,档案智能开发与服务国家档案局重点实验室执行主任
AI与当前档案工作的融合主要体现在以下四维度。
第一、档案管理的标准化与自动化。
在档案生命周期管理中,AI可应用于档案管理中的重复性和规则化任务,如归档、鉴定、借阅、修复和销毁等,有效提升工作效率和准确度,优化资源管理。如在归档环节,AI可以辅助判别档案类型、确定保管期限以及提取其他关键信息,从而实现自动化的档案信息著录。此外,借助大语言模型强大的文档解析和语义理解能力,可以实现大规模档案文件的自动化开放审核和密件识别,大幅提高鉴定工作效率。
第二、档案数据治理的精准化与知识化。
依托多模态大模型数据处理与语义对齐能力,AI能够对多种模态的档案文件进行高效、精准地处理,并实现档案内容层面的深度感知与分析。例如,光学字符识别(OCR)和机器学习技术能够高效地将纸质档案转化为数字格式,从而使档案内容具备可读性和可用性。多模态大语言模型则在此基础上进一步拓展,读取不同格式的数字档案,并将其转化为结构化的知识单元,为档案内容的深度开发与利用提供坚实的数据基础。
第三、档案服务的智能化与个性化。
基于知识图谱和语义搜索的智能档案检索与推荐系统,能够为用户提供个性化的知识服务,增强式检索和推理式内容生成则可以进一步提高档案检索的准确性,挖掘档案内容的潜在知识价值。此外,借助AI的虚拟现实(VR)与增强现实(AR)技术,可实现档案资源的数字化呈现与交互展示,显著增强档案的传播效果与吸引力。
第四、档案存储与保护的科学化与长效性。
在档案安全和数据保护领域,AI结合智能库房管理与物联网(IoT)技术,能够实时监控库房的温湿度、防火防盗设备状态,预测并预警潜在风险,如设备故障和虫蛀风险等。通过集成AI的智能安全管理体系,档案管理部门可以有效应对复杂的安全风险,确保档案资源的长期保存与安全利用。
王玉珏
武汉大学信息管理学院教授,档案智能开发与服务国家档案局重点实验室研究员
DeepSeek等生成式人工智能一经推出便被广泛应用于会议纪要、工作报告、工作日志等内容的撰写,深度参与人类社会记录的生成过程。然而,这些由生成式人工智能生成的内容,在底层逻辑上与人类生成的内容存在显著差异,其证据效力保障链条也更为复杂,导致传统的电子档案“四性”难以涵盖对此类合成内容的可信要求。因此,如何确保此类“人智协作”生成内容在法律、管理与技术层面的合法性、有效性与可信性,亟需在新的语境下进行深入研究。
01、真实性
在真实性检测方面,可信保障的链条需向前延伸至人工智能系统,其算法可解释性与团队中立性应被纳入来源真实的检测范畴,即通过专家咨询、技术测试等方式,对大模型的训练数据集、训练流程以及开发团队的背景进行综合评估。
02、完整性
在完整性检测方面,鉴于生成式人工智能合成内容涉及更为复杂的主体行为,需检测的元数据项目也有所增加。具体而言,档案著录内容不仅应记录参与人员的基本文件办理情况,还需详细反映所选用的算法模型、使用时间节点、参数设置及调整过程、具体指令与生成的输出内容等关键信息。
03、安全性
在安全性检测方面,档案移交管理过程中非法篡改的风险显著上升。例如,当用户输入的处理信息中含有第三方指令等隐藏内容时,输出结果可能会被操控并表现出倾向性。因此,需要重点监控是否存在未经授权调整人工智能系统核心参数等在内的间接篡改行为。
04、可用性
在可用性检测方面,除了常规软硬件环境要素外,人工智能系统的鲁棒性等关键特性亦应被纳入档案可用性的评估指标体系中,为后续的审计、验证与理解提供基础。同时,还需考虑到软件环境迭代对人工智能系统运行的影响,如版本的频繁更新是否影响人工智能系统兼容性。
傅荣校
浙江大学公共管理学院教授
继ChatGPT和Sora之后,DeepSeek再度引爆全球。AI实现了飞跃式进步,短短几年内就完成了从计算智能到语言智能、视频智能的跨越,甚至触及想象智能高地,致使各行业、各领域与各系统都不得不关注和研究。在档案工作领域,AI赋能也已经成为业界讨论的热点话题。近年来,以档案大数据开发应用、智慧应用场景构建等为核心的话题,最后都绕不开对AI技术的探讨和研究。
第一、关于档案部门的两个视角。
一是AI因变量视角,即哪些变量影响AI,如算力、底层算法、数据、投入资金、人才储备、政策支持、政产学研用协同机制、知识产权和专利保护、封闭或开源代码等,这些因变量共同构成了AI创新和持续发展的基石,通常需要长期的基础性研究作为支撑并专注原创性。尽管AI发展可能面临投入周期长、收益不确定性高等挑战,然而,一旦在该领域取得突破性进展,就能产生震撼世界的影响力。
二是AI自变量视角,即AI技术作为赋能因素如何重塑档案工作、档案行业乃至档案产业。将DeepSeek与档案相结合的应用主要体现在智能分类与编目方面,应用DeepSeek可进一步融合多模态深度学习算法与自适应知识图谱构建。在档案数字化处理方面,DeepSeek的OCR技术基于深度神经网络模型,具有更高的识别精度。同时,DeepSeek采用生成对抗网络(GAN)等前沿算法可对受损的档案图像进行修复。此外,DeepSeek的语义检索功能基于Transformer架构等先进模型,能够实现更深层次的语义理解,不仅能关注用户查询中的关键词,还能够理解查询背后的意图和上下文信息。DeepSeek在档案工作中的应用还包括档案开放审核、档案编研成果输出、档案展览方案制作、档案数据报表制作、档案服务问答咨询、档案政策解读、档案工作决策支撑等多个场景。从这两个视角来看,档案部门在前者中扮演配角,在后者中扮演主角,通过运用AI技术来提升档案工作的智能化水平。
第二、“AI+档案”中的“捕鲸船打捞秋刀鱼”现象的合理存在。
目前,不少科技企业纷纷涉足档案领域,与档案部门携手探索“AI+档案”的新模式。例如,通过大模型输出智力成果,甚至利用智能体(Agent)构建智慧应用场景,较为亮眼的应用场景有智能开放审核、智能检索、知识图谱构建、档案机器人借阅服务等,但这些应用的落地效果并不理想,大多停留在表面,有“捕鲸船打捞秋刀鱼”的大材小用之嫌。当前,AI与档案应用融合的重点并不在于AI技术本身,而在于档案部门业务应用是否遵循AI逻辑。事实上,许多档案行业或者档案产业并未充分实现数智化转型,如档案行业内的项目精细分类、业务协同、流程优化、数据融合、合规运作、统一平台等,但考虑到档案部门缺乏这些基础条件,一些小规模的尝试也在情理之中。因此,“AI+档案”不能仅仅依赖包括DeepSeek等在内的通用大模型,还需要尽快训练出适合赋能档案的档案行业大模型或者垂直大模型。
第三、警惕通用大模型的AI幻觉现象。
在讨论“AI大模型+档案”时,除了智能体的“AI+档案”场景,还应区分两种AI类型的话题,即决策式/专家式AI和生成式AI应用。决策式AI专注于学习数据中的条件概率分布,即一个样本归属于特定类别的概率,其应用领域广泛,包括图像识别、推荐系统、风控系统、智能决策系统、机器人、自动驾驶等。在档案领域,档案开放审核、公文合规审核、数字化档案OCR、图像档案识别、智能检索等都是典型的决策式AI应用。生成式AI专注于学习数据中的联合概率分布,即数据中多个变量组成的向量的概率分布,它能够对已有数据进行归纳总结,并在此基础上运用深度学习技术等创作出模仿式、缝合式的内容,如各类通用大模型能够输出文本、图片、视频、音频、代码、设计图与决策等。总之,能够进行内容创作、人机交互、产品设计等是生成式AI时代开启的标志。生成式AI的崛起给我们带来了巨大震撼,让人切实感受到一个智力被替代的时代已经来临。然而,与决策式AI相比,生成式AI最大的问题在于其可能产生看似合理实则荒谬的输出,这一现象在学界被称为“AI幻觉”。目前,通用大模型普遍存在这一问题,只要后台规则不加以禁止,它们就能回答并输出任何内容。这种无约束的输出不仅可能包含错误信息,还可能对用户产生误导。因此,档案界不应盲目迷信通用大模型,而应保持审慎态度,对其输出结果进行验证和筛选。
最后,勿因生成式AI看似全能,就期望“AI+档案”应用能解决一切问题。要真正深化应用并赋能具体场景,档案部门需要通过本地部署,结合数据融合机制进行优化,训练出适用于档案领域的专业大模型与垂直大模型。
金波
上海大学文化遗产与信息管理学院教授
2023年ChatGPT横空出世,2024年Sora惊艳亮相,2025年DeepSeek震撼登场,连续三个春节我们都在见证人工智能的飞速发展与变革。DeepSeek不仅让世界重新认识中国在人工智能领域的创新能力,还为全球人工智能的变革与发展提供中国方案,贡献中国智慧。作为新一轮科技革命的核心驱动力,人工智能正深刻重塑着人类的工作、学习及生活方式。人工智能技术的快速发展为档案事业的数据化、知识化、智慧化发展注入新动能,有力推动了档案信息化建设的提质增速与转型升级进程。
01、积极拥抱智能变革
“现代管理学之父”德鲁克曾说,“当前社会不是一场技术革命,也不是软件、速度革命,而是一场观念和思维方式的革命。”在“数化万物、智化生存”的数智时代,数字经济、数字政府、数字文化、智慧城市、智慧社会等新业态不断涌现,档案工作的管理对象、业务流程、技术方法正在经历全方位变革,加速推动档案资源从传统的“模拟态”向“数字态”“数据态”嬗变,倒逼档案管理模式与方法手段朝着数字化、数据化与智能化方向迈进。为适应档案数智化的新生态,需要勇于摆脱传统观念束缚、克服认知局限、打破思维定式,秉持开放意识、运用数据思维、树立智慧理念、弘扬创新精神,以积极主动的姿态迎接人工智能发展浪潮。同时,强化数据赋能、技术赋能和数智赋能,大力推动档案工作与人工智能技术深度融合,促进档案管理理念的数据化革新以及档案工作思维的智慧化转变,充分享用智能变革带来的红利。
02、大力开展智能应用
当前,全球人工智能发展正处于从弱人工智能向强人工智能发展的进阶阶段,人工智能已成为提升国家战略竞争力的重要引擎和动力支撑。人工智能的迭代发展拓展了人类的认知边界,也在重塑档案资源的业务形态和管理空间。随着文字、图像、音频、视频等多元数据处理需求激增,推动大语言模型技术不断创新,为档案管理数字化、数据化、智能化、智慧化发展提供了新的方法手段和应用平台,促进多模态档案数据整合集成、融合管理与知识共享。为实现档案管理的高效便捷、立体多元与精准感知,需加强算力算法、数据中心、智能中台等档案数智化基础设施改造升级,加大人工智能技术应用,借助大数据、云计算、区块链、数字孪生、AIGC等数智技术,构建全方位智慧决策、全流程智能控制、全链路数据治理、全领域知识管理的档案管理新模式,拓展档案智慧收集、智慧鉴定、智慧整理、智慧保护、智慧存储、智慧开发等应用场景,推动数字档案馆向智慧档案馆的转型升级。
03、主动推送智能服务
服务是档案工作的出发点和落脚点,DeepSeek掀起AI消费新热潮,也为档案服务创新提供新契机。应以用户需求为导向,开发档案领域垂直大模型,依托自然语言处理、计算机视觉、机器学习、知识图谱、数字人文、虚拟现实等技术,充分发挥档案数据高质量语料资源优势,强化档案数据的加工处理、深度挖掘、语义关联、聚类分析、智能计算、可视化展演,开展智能感知、智能问答、智能推送、智能编研等智慧服务,提供主动式、一站式、沉浸式、精准式、定制式档案利用,形成“大数据+大模型+大智慧”的档案新质生产力,激活档案数据要素价值潜能,满足社会日益增长的信息消费与知识需求。在开展档案智慧服务的同时,基于档案工作的政治性、保密性、安全性,需要秉持以人为本、智能向善的原则,强化人机共治与伦理管控,防范黑客攻击、网络病毒、产权模糊、数据泄露、算法歧视、隐私侵害、技术盲从等问题,确保档案数据实体安全与信息安全。
习近平总书记指出:“人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的‘头雁’效应”。面对数智化洪流,如何促进人工智能技术推动档案事业高质量发展已成为档案界迫切需要回答的问题。档案工作承载着记录历史、赋能当下、洞察未来的神圣使命,需要以开放包容的胸襟、勇于革新的气魄积极拥抱数智浪潮,强化人工智能应用,促进档案数据与人工智能双轮驱动,重塑档案业务管理体系与知识创新体系,构筑与时代脉搏同频共振的档案事业新生态。
王大众
中国档案学会副秘书长
在数字化浪潮迅猛推进的时代背景下,档案部门正以昂扬的姿态全力投身于数字化转型事业中。蓬勃发展的人工智能技术凭借强大的技术优势和创新能力,逐步崭露头角,成为档案管理数字化转型与智能化升级的关键引擎,源源不断地为档案事业的高质量发展注入活力。在人工智能赋能档案管理的诸多应用实践中,大语言模型凭借强大的自然语言处理能力和潜在的业务赋能价值,成为档案部门重点关注的对象之一。当前,专注于深度学习与知识图谱技术融合的DeepSeek研究团队推出的大语言模型,凭借独特的技术架构和多领域任务中的出色表现,在激烈的竞争中脱颖而出,受到广泛关注。
第一、DeepSeek在档案领域应用的价值。
深入研究DeepSeek在档案管理领域的应用,不仅能为档案管理理念和模式的发展开拓新思路,还会给档案工作带来新机遇,如提高数字化成果识别准确率、提升档案整理编目效率、优化档案数字资源开发利用水平、提高档案开放审核效能、提升档案信息安全防护能力等。
第二、DeepSeek在档案领域应用面临的挑战。
DeepSeek在档案领域的应用面临来自技术、数据、人才等多方面的挑战。在技术层面,处理海量档案数据和执行复杂任务时,该模型依赖强大的计算能力支撑高效运行,而持续的更新与优化则需要专业团队保驾护航,这些都亟需充足的资金和人力支撑。在数据层面,档案数据内容丰富、格式多元,标注难度大。档案数据常涉及个人隐私、商业机密以及国家机密等敏感信息,在遵循相关法律法规使用这些数据训练模型时,既要确保数据的可用性,又要保证数据的安全性,如何在两者之间找到平衡,也是档案部门必须面对的重大难题。在人才层面,既精通档案业务又掌握大语言模型技术的复合型人才稀缺,这在一定程度上限制了大语言模型在档案领域的应用和推广。
综上所述,DeepSeek为档案管理带来了智能化应用的新机遇,但要真正让这项技术在档案业务领域中得到合理应用并发挥实效,档案行业各方还需协同合作,深入剖析档案业务的具体需求,找到技术与业务的融合点,通过大量实践不断检验并调整应用方案,从而探索出适配档案业务场景的技术应用路径。
胡文苑
中共浙江省委办公厅档案监督管理处处长
数字技术和人工智能技术新突破,丰富档案事业发展新内涵。以杭州“六小龙”为代表的新一轮数字智能技术革新,引发社会各界的广泛关注与讨论。“世异则事异,事异则备变”,档案部门应积极适应、主动拥抱数智技术的新变化、新机遇,以数智技术新突破引领推动档案事业发展质效新提升。
当前,档案部门的突出短板主要有以下几点。
一是对档案数据工作规律认识不足;
二是对档案数据特性和作用 机理把握不准;
三是档案数据基础性制度框架尚未形成;
四是档案数据场景建设缺乏应用支撑;
五是档案数据基础 设施建设缺乏总体布局;
六是档案数据生态培育呈现分散 态势。
习近平总书记明确指出:“经验得以总结,规律得以认识,历史得以延续,各项事业得以发展,都离不开档案”。落实上述要求,亟须发挥好档案的基础资源作用和知识引擎作用,以档案数据要素提升其他生产要素组合效率,激发其他生产要素创新活力,从而提升全要素生产率。档案数据只有用得好,档案价值才能“显性化”。档案数据特性在于其量大、数真、逻辑自洽,是宝贵的高质量语料库,如上海发布的卫生健康语料库1.0版,核心语料就来自病历档案。档案数据作用机理发轫于档案数据治理,档案部门服务创新型社会的出发点和着力点在于档案数据治理,其主要任务是厚植创新型社会的信息底座。以往对档案数据化的理解过于狭隘,仅停留在“纸质档案+扫描+OCR识别”,未来需深化需求牵引,全面对标数据标注标准体系,加快形成档案反哺人工智能创新发展的有效供给。全社会应重视档案行业重点实验室建设,加强档案数据治理基础研究和前沿技术探索。同时,加快档案数据多模态标注、标注审查、质量评估及基于思维链的专家标注等智能化工具研发。此外,还要推进专业档案高质量语料库开发,实施“专题档案知识库+专业档案语料库”双库建设行动,为行业垂直大模型建设添砖加瓦。
习近平总书记对档案工作提出了“四个好”“两个服务”的要求,指明了未来档案部门打造现象级档案应用主战场的方向。资政层面,要打通专题档案向决策模型跃迁的通道,在应急处突、组织活动、会议保障等方面率先取得前期成果;社会层面,要积极探索档案数据资产入表的有效路径,更好地发挥市场调控作用,推动档案数据有效“供出来”,从而服务产业链、生态链上的市场主体,更好地赋能经济社会发展;自身层面,要创新方式方法,找准抓手和平台,开拓新的工作增量空间。同时,要立足长久,保存职能定位,积极探索海量档案数据安全和低成本存储策略,确保关键时候调得出、用得上,努力提升档案数据治理能力,形成满足业务需求的电子档案单套制管理解决方案。基于AI能力,加快数据档案化治理的模型算法定型,将解决方案产品化。
档案事业要创新发展,档案数据生态是重要的动力源。档案数据价值实现离不开市场主体的推进、转化与开发。未来,档案需主动与数据、经信、科技部门携手合作,力求在人工智能头部企业周边布局一批具有竞争力的档案数据产业集群。同时,积极探索DeepSeek等在档案馆(室)的本地化部署策略,通过“通用模型本地部署+档案行业语料库”模式,推动形成档案数据可信治理范式,打造具有核心竞争力和影响力的档案“数智”硬核科技产品。
林伟宏
浙江省档案馆电子档案管理处处长
DeepSeek作为一款开源的大模型横空出世,降低了各行各业应用大模型的门槛,加速了各行各业深度拥抱人工智能的进程,档案行业也在其中。在“AI+档案”的发展进程中,DeepSeek凭借高性能、低算力要求、开源、国产等独特优势,在档案部门备受瞩目。一些困扰档案行业多年的难题,有望借此迎刃而解,档案工作大变革或将到来。个人认为,至少可以从以下几个维度预见变化。
01、档案检索方式的变化
在DeepSeek的“视角”中,档案数字化成果绝非成千上万页的“图像纸堆”,而是标签化、向量化的数据,通过对这些数据的学习、理解、推理和交流,能够实现语义分析和智能检索,对于文本型的原生电子档案更是游刃有余。此外,它还可以提取图片、照片、音频、视频等多模态档案信息,进行跨模态理解和关联。这种智能检索方式极大地提高了档案的查全率、查准率,与传统基于目录数据、文本数据的字符检索相比,不可等量齐观。
02、业务管理方式的变化
DeepSeek致力于实现AGI通用人工智能,凭借RAG检索增强生成、行业模型训练与微调等技术,完全有可能打造出令人满意的AI辅助档案开放审核、档案智慧编研、档案数据检测、档案智能客服等能力和应用场景。届时,有关档案的许多工作将经历业务重塑和流程重组,一些工作环节和岗位可能会减少,甚至消失。此外,由于开源与广泛适配,DeepSeek极其适合档案部门在局域网内进行私有化部署,以避免档案数据传输到外部可能面临的安全风险。然而,在模型训练与微调、档案知识库构建等方面,档案部门需要了解AI模型能力、知识的边界和产权归属,在与技术公司合作时要提前明确约束要求,以确保档案信息安全。
03、从业技能要求的变化
将DeepSeek应用到档案行业,不仅关乎档案信息化部门系统集成、软件开发,一线人员和终端用户也将会感受到系统界面、功能模块、使用方式的变化。因此,从事档案管理服务的全体工作人员都需要普及DeepSeek基本原理、应用技巧等知识。档案信息化人员还需要进行知识更新、技术培训、业务交流、案例分享,以提高理论储备和实操能力,只有会使用、会连接、会微调、会训练DeepSeek,才能适应未来档案管理的发展趋势。
梁凯
杭州市档案馆资源建设处处长
第一、加速传统档案管理模式向数据化处理方向转变。
在大模型技术迅猛发展浪潮下,DeepSeek研究团队创新性地应用知识蒸馏(Knowledge Distillation)和PTX(Parallel Thread Execution)中间指令集架构,显著降低了大模型训练的应用成本,进一步缩小技术鸿沟,推动人工智能技术的普及。在档案管理领域,这种技术革新正在驱动传统实体档案管理模式向基于深度学习的结构化数据治理体系演变,客观上加速了档案管理的数据化转型进程。当前,基于目录索引和数字副本的传统档案管理模式在应对多模态资源整合与动态知识库构建等新需求时,呈现出明显的功能局限。大模型技术的深度应用将从以下三个维度系统推进档案管理模式的数据化转型。
一是技术解析与应用创新,通过智能化技术实现多模态档案资源的智能解析与语义重构。
二是数据治理与价值转化,以智能化数据标注为智慧转型的核心引擎,将传统静态档案转化为可计算、可分析的数据资产。
三是产业生态重构与范式转移,推动档案管理从劳动密集型向知识密集型转变,实现管理范式从“保真存储”到“认知计算”的跃进。
第二、数据标注将成为档案智慧化转型的核心环节。
DeepSeek在档案工作领域的应用,或将推动数据标注成为档案智慧化转型的核心环节。数据标注作为档案智慧化转型的关键要素,通过细颗粒度解析将静态档案资源转化为智慧资产,极大地丰富了档案的内涵与价值。新型编目体系的构建,重塑了档案管理的技术生态,促使档案管理系统从信息保管平台向决策支持平台转变,进而在数字人文、社会治理等多个领域释放独特价值。随着智慧档案馆建设的大力推进,数据标注正逐步成为其核心环节,有力推动档案工作从实体管理向知识服务跨越。此外,档案数据化引发行业价值链重构,推动档案行业从劳动密集型向知识密集型转型,并逐步形成以数据资产为核心、智能技术为引擎、知识服务为形态的新生态。检索增强生成RAG为档案从数据到知识再到服务的价值转换提供了强大的技术支持,该技术通过“数据可用不可见”的模式,有效规避档案开放利用中的诸多问题,显著提升档案数据利用效能。高质量档案数据将成为供应商竞相争夺的对象,传统应用开发和数字化服务企业若不及时转型,终将在激烈的市场竞争中淘汰出局。
第三、生成式人工智能带来新的安全挑战。
数据化处理揭示了传统管理体系存在的不足,如数据孤岛、部门壁垒等。为了应对这些挑战,迫切需要构建出与数字资源相适应的新型治理体系,该体系应涵盖数据分级分类、标准制定与质量控制等内容。此外,数据化转型带来了新的安全风险,如敏感数据外泄、单点污染扩散等,现行安全体系存在制度失衡、技术代差等问题。因此,构建适应数据生态的新型安全治理框架显得尤为重要。
童邵恩
杭州市上城区档案局局长,档案馆馆长
第一、DeepSeek助推档案知识图谱构建。
在信息技术高速发展的时代,档案工作正迈入智能化转型的关键阶段,DeepSeek的兴起,为档案工作带来了前所未有的变革契机。DeepSeek凭借卓越的语义理解能力,能够深度剖析语义,精准把握用户的检索意图。同时,结合RAG技术,DeepSeek可以构建基于馆藏档案的专业知识图谱,并通过利用知识图谱中的结构化信息,显著提升深度推理能力,增强馆藏档案的检索能力和信息的准确性。同时,DeepSeek开源免费的特性,为档案资源的安全性提供了有力保障。
第二、知识图谱技术在档案工作中的应用场景。
档案的价值不仅在于单份文件,更在于文件之间的关联,基于AI大模型的知识图谱技术的引入,将促使档案从“孤立的资料”转变为“关联的知识网络”,其在档案工作中的应用场景主要有以下几点。
一是历史事件还原与验证。基于AI大模型的知识图谱能够将分散在多模态档案中的信息整合起来,有效还原历史事件的全貌。例如,通过分析多份档案中的人物关系与时间线,可以对某一历史事件的真实性予以验证,甚至还能发掘出被遗漏的细节,这一功能对于历史研究与学术考证而言意义重大。
二是人物关系网络构建。档案中的人物关系往往纷繁复杂,传统手段难以梳理。基于AI大模型的知识图谱借助语义分析,可自动构建人物关系网络。例如,通过分析某位历史人物的档案,可以迅速掌握其社会关系、政治背景与历史影响,为人物研究提供全方位支撑。
三是政策与决策支持。基于AI大模型的知识图谱能够将历史档案与现实问题紧密关联,为政策制定提供有力参考。例如,通过分析历史档案,可以总结出规律与经验,为当前的政策决策筑牢数据根基。这种“以史为鉴”的效能,能够使档案的价值突破历史局限,延伸至现实层面。
杨安荣
上海阿吉必信息技术有限公司创始人,数字罗塞塔计划公众号创始人
2025年初,DeepSeek爆火使我国在AI领域第一次从跟跑者转变为引领者,这一转变具有重大意义。将AI技术的发展与手机进行类比,AlphaGo如同采用模拟信号的移动电话,虽具有划时代意义,但受各方面条件限制只能应用于特定领域,尚未进入民用市场;ChatGPT如同采用数字信号的大哥大,性能显著提升,但价格昂贵,难以普及;DeepSeek恰似早期的功能机,设计小巧、价格实惠且性价比高,有望迅速走进千家万户。
档案行业是典型的资源密集型应用行业,DeepSeek作为新一代AI技术的代表,有望推动档案行业向智能化方向快速迈进。AI在档案行业的应用场景丰富多样,包括但不限于手写体OCR识别、多模态数据一体化处理、数据质量检查、语义检索、智能问答、智能开放审核、智慧编研、档案知识图谱等。
第一、AI技术在档案行业中应用的制约因素。
自2016年起,业界便不断探索和尝试,近年来与AI相关的档案科技项目立项和论文发表数量也在不断增加。客观而言,相关成果大多停留在理论研究和原型演示阶段,实际应用效果不太理想。出现这种局面主要有以下几方面制约因素:
一是成本或性价比因素。“AI+档案”的应用场景虽有一定价值,但投入成本相对较高,工作效率的提升不足以弥补成本支出,过于激进地推进AI赋能可能得不偿失。
二是网络和信息安全因素。档案数据的敏感性特征和安全性要求导致许多应用场景只能在局域网中开展,档案部门之间无法实现资源共享,本地部署算力资源投入过大,使其只能开展一些尝试性、测试性应用。
三是AI技术因素。既存在技术路线不够成熟问题,又存在技术迭代速度过快问题,这些都会导致档案部门在推进AI应用上犹豫不决。
第二、DeepSeek在档案行业中应用的优势。
DeepSeek的出现在很大程度上解决了上述几方面制约因素。首先,DeepSeek使AI应用的性价比至少提升一个数量级,甚至可以说其采用的强化学习模型是对以往学习模型的降维打击。其次,尽管网络和信息安全因素依然存在,但局域网部署的成本大幅降低。最后,DeepSeek当前展现出的强大实力足以证明其将在AI领域发挥重要作用,值得档案行业积极拥抱。
总之,人工智能时代已经来临,必将给档案管理工作带来巨大影响,面临的机遇与挑战并存。档案工作者既不能过分焦虑,应保持“技术都是为业务服务”的平常心,也不能闭关自守,要有顺势而上的魄力和勇气,在智能化时代开创档案工作新局面。
方巍森
光典信息发展有限公司总经理
在AI浪潮的推动下,大模型技术已成为推动产业变革的重要力量。2023年7月,国家互联网信息办公室等七个中央部门联合发布了《生成式人工智能服务管理暂行办法》,该文件大力倡导各行业、各领域创新应用生成式人工智能技术,深入探索并优化应用场景,以构建完善的应用生态体系。以DeepSeek为代表的深度推理大模型,展现出了远超普通大模型的语义理解、知识关联与逻辑推理能 力,为档案信息化管理带来了新的发展机遇与挑战,有望推动档案信息化管理各项业务进一步向智能化、自动化方向转变。未来应积极引入深度推理大模型,将其集成到档案信息化产品和解决方案中,全力打造各类智能化档案应用场景,推动档案信息化管理的创新发展。
第一、深度推理大模型在档案管理中应用的成效。
一是提升档案业务效率与准确性。应用深度推理大模型有望显著提升档案收集、整理等业务环节的效率与准确性。借助深度推理大模型的自然语言处理和数据处理能力,可以辅助工作人员迅速完成档案的分类和鉴定工作,提高档案管理的效率和安全性。自动化内容分析可以快速识别档案关键信息,实现智能分类,提高档案整理效率和准确率。同时,利用语义理解和关联能力,可自动识别和标注敏感信息,辅助档案安全脱敏和划控,保障档案信息的安全。
二是助力档案知识发现与关联分析。应用深度推理大模型有助于推动档案内容知识发现与关联分析。深度推理大模型可综合处理档案中的文本、图像、音视频等信息,自动提取关键信息并建立信息之间的关联,将分散的档案信息整合为有机知识体系,并通过构建知识图谱以揭示档案资源的深层含义和潜在价值,还可以基于此进行加工、创作。例如,可以应用深度推理大模型挖掘和分析近代某企业不同来源、不同门类的档案内容,构建包含实体、关系、属性的三维知识网络,自动识别潜在关联,进而构建企业变迁发展大事记、知识图谱、时空地图等。
三是优化档案智能问答服务。应用深度推理大模型可以为用户提供更流畅且个性化的档案智能问答服务。深度推理大模型能够精准理解并推测用户意图,用户无需使用复杂的检索语法,只需简洁的语言与系统交互,就能够得到精准、智能的检索结果,快速获取所需的档案信息,显著提升检索的便捷性和用户体验。此外,深度推理大模型还能根据用户的兴趣、需求和行为模式,预测用户可能感兴趣的档案信息,主动推送相关内容,并提供个性化的档案信息服务,提升用户的满意度。
第二、档案管理领域应用深度推理大模型面临的挑战。
一方面,有效应用深度推理大模型依赖大量高质量的档案数据,但现有档案数据存在质量参差不齐、高质量数据较少等问题。为解决这一问题,需要加强档案数据的生成和治理,在档案数字化基础上进一步推动档案数据化,增加档案数据供给数量并提升质量。由于档案包含大量敏感信息,深度推理大模型的应用可能会带来信息安全和隐私风险,为确保档案信息的安全性,需加强信息加密、访问控制和隐私保护技术的应用。
另一方面,深度推理大模型的广泛应用或将对档案管理提出新的要求。例如,深度推理大模型的伪造能力对数字时代档案防伪验真能力提出了更高要求。此外,深度推理大模型的应用还对档案工作者提出从“保管员”向“分析员”“AI训导员”转变的职业能力强化要求。
陈亮
上海涵妍档案信息技术有限公司CTO
人工智能技术的突破性进展正在重塑档案行业的底层逻辑,为更好地顺应这一趋势,以DeepSeek大模型为技术锚点,从DeepSeek赋能档案工作的价值内涵出发,揭示技术应用面临的现实困境。
第一、DeepSeek赋能档案工作的价值意蕴。
一是DeepSeek助推智能化档案编研。DeepSeek正掀起人工智能技术在档案工作中应用的浪潮,通过对海量档案的快速整合与深度挖掘,促进档案编研智能化发展。在语义理解方面,利用多头潜在注意力(MLA)和强大的语义理解能力,DeepSeek能够构建档案内容的深度语义索引,不仅支持模糊查询,还能实现上下文关联检索,如跨年份事件关键词检索,可直接定位相关档案,减少对关键词的依赖。在素材聚合方面,DualPipe算法显著提升数据处理效率,并能深入挖掘档案中隐藏的关联信息,如政策变迁趋势、社会事件影响链等。同时,系统会自动提取人物、地点、时间等元数据,构建知识图谱,基于知识图谱自动关联相关档案,如历史人物与时间线的关联以及多部门档案的时空叙事链构建。
二是DeepSeek赋能档案开放审核智能化升级。DeepSeek能够促进档案开放审核的智能化升级,DeepSeek的AI初筛覆盖了常规内容和专家复核,确保敏感信息识别,有效减少人工复核的工作量。同时,MLA语义增强技术可对初筛标记的疑似内容进行深度解析,识别包括谐音、隐喻、跨模态关联等在内的隐晦表达。
第二、DeepSeek赋能档案工作的现实困境。
一是非结构化数据治理困境。一方面,非结构化数据浪潮下,影像档案激增,大大超出传统系统处理能力。另一方面,档案企业各自独立的系统形成了“系统孤岛”,重复归档现象严重,资源浪费与效率低下并存。
二是数据隐私与安全风险。DeepSeek的数据收集机制可能触及敏感信息,档案行业需建立严格的数据分级保护制度,结合加密技术与访问权限控制,规避数据泄漏风险,最大程度地保障档案数据的安全性。
三是服务效能的天花板效应。在档案检索环节,传统关键词检索进入瓶颈期,复杂查询力不从心,用户精准检索需求受限。同时,大量企业档案缺乏有效的二次利用机制,形成“数字坟墓”,不仅造成资源浪费,还限制了档案潜在价值的释放。为打破这一僵局,亟需引入先进的检索技术,完善档案再利用体系,以激活档案资源,提升服务效能。
四是政策与标准制定的紧迫性。档案智能化缺乏统一标准,易导致技术多样化。为解决这一困境,需加快技术接口标准化,制定AI伦理指南,引导技术健康发展。同时,加强行业培训,提升从业者的技术适应能力,推动档案工作向更高水平迈进。
五是技术应用断层难题。在档案行业,中小机构因数字化率不足与技术领先的头部机构形成数字鸿沟,导致资源分配不均衡,限制行业整体的创新能力。同时,从业人员AI技能达标率低,形成另一层的技能断层。为破解这一难题,需加大扶持力度,提升数字化水平,加强AI技能培训,促进行业均衡发展。
六是技术依赖与人文价值失衡。过度依赖AI技术导致档案工作“去人文化”,自动化标签虽提高了处理效率,却忽视了档案背后丰富的历史语境和人文内涵。为确保档案的原始价值不被稀释,需在技术应用中融入人工审核环节,保留人文元素,平衡技术与人文,守护档案所承载的历史记忆与文化价值。
罗付军
上海泰宇信息技术股份有限公司副总经理兼大数据事业群总经理
当前,人工智能技术正推动档案管理领域的深刻变革,国产大模型DeepSeek凭借动态推理架构、多模态认知引擎等技术,突破传统AI模型的序列化处理瓶颈,为档案数智化管理开创新格局。
第一、以技术革新多维驱动档案管理智能转型。
DeepSeek通过算法优化与技术革新,依托国产化生态体系,构建自主可控的档案管理智能底座,推动创新发展。
一是思维链技术,破解档案AI应用中的“黑箱”难题。在档案编研、开放审核等场景中,传统AI模型常因推理过程不透明引发信任危机。而DeepSeek通过思维链技术将难以阐释的推理思考过程转化为可视化逻辑序列,以构建起由经验驱动转向逻辑验证驱动的人机协同认知基础。
二是国产化突破,构建自主可控的智慧AI档案基座。DeepSeek通过技术适配与生态合作,打造“模型+芯片+系统”的全栈国产化生态。从底层硬件来看,DeepSeek改用由国产芯片支持的底层计算框架,目前已与华为昇腾、沐曦等多家国产芯片企业完成适配。
从上层服务来看,开源策略带来的技术普惠性更适用于垂直领域应用开发,从而深度激发档案行业创新活力。
第二、以场景赋能全面重塑档案管理创新范式。
依托DeepSeek R1模型,可完成档案开放审核、档案编研、智能问答、专题聚类、档案著录、数据安全筛查等多核心场景适配与调优工作,为上层馆藏、馆室一体化、数据治理服务等方面提供智慧支撑,实现AI模型泛化与跨域适配能力的跃升。
一是编研分步推理路径可视化实现。以档案编研场景为例,DeepSeek R1模型所具备的自我迭代优化机制能够逐层分解复杂任务,辅助AI编研系统生成涵盖档案筛选、主题关联分析、编目逻辑构建、编研成果生成的完整推理链,并清晰阐明各步骤的决策依据,在提高编研成果可信度的同时,也为后续的修改与优化奠定坚实基础。
二是可解释性驱动审核优化机制构建。以档案开放审核场景为例,DeepSeek模型的CoT输出可支持逻辑复盘。在审核过程中,该模型基于预设的审核规则与上下文关联分析生成审核结论,并同步生成思维链报告,使得审核人员可直观验证模型逻辑,分析推理缺陷,从而构建出“应用-验证-优化”的闭环迭代体系。
第三、多元协同展望未来发展路径。
数智时代正赋予档案管理新的使命与价值,为把握发展机遇,可借助DeepSeek构建“1+N”区域档案算力中心,依托档案资源与算力网络深化训练档案垂直大模型,最终突破中小型档案机构算力壁垒,实现模型算力共享。通过构建“档案+X”协同创新模式,对接相关应用场景推出档案数字产品,拓宽档案资源服务边界,实现从“故纸堆”到“数据金矿”的价值跃升。
数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!
关注我们 -数字罗塞塔计划-
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.