网易首页 > 网易号 > 正文 申请入驻

【大比武08】利用RAG技术构建档案智能问答系统

0
分享至

关注我们 - 数字罗塞塔计划 -

# 大比武2024

本篇是参加“华夏伟业”杯第二届档案信息化公司业务与技术实力大比武(简称“大比武 2024”)的投稿文章,来自燕山大学档案馆(校史馆)的实际项目,由河北科怡科技开发有限公司联合南京兰征信息科技有限公司燕山大学共同研究实施。除了河北科怡的宁飞之外,燕山大学档案馆的柯铁军对本文也有重要贡献。

在数字化时代背景下,随着ChatGPT的出现,档案管理正经历着一场由数字化到智能化的革命。RAG(Retrieval-Augmented Generation,检索增强生成)技术和LLM(Large Language Model,大语言模型)的结合,为档案领域的智慧应用场景开拓提供了新的动力。

一、RAG技术概述

Retrieval-Augmented Generation

RAG技术的提出是为了解决预训练语言模型在处理知识密集型NLP(Natural Language Processing,自然语言处理)任务时面临的几个关键挑战:

1、知识存储有限

尽管LLM能够存储大量知识,但毕竟样本数据依然有限,只能记住训练数据中的信息。如果遇到模型训练时未见过的知识点,模型可能无法准确回答。

2、知识更新困难

随着时间推移,外部知识在不断更新和变化。但预训练模型完成训练,它的知识就固定了,无法轻易更新。要更新这些模型的知识,通常需要重新进行大规模的预训练,既耗时又耗资源。

3、事实性和准确度

在生成式任务中,如问答或文章生成,模型可能会生成看似流畅但实际上不准确或不真实的内容即幻觉问题,因为它们缺乏对特定事实的直接访问。

4、解释性和透明度

用户通常希望理解模型的决策过程,特别是在涉及事实信息时。纯粹的预训练模型通常很难提供生成决策的依据或解释。

RAG+LLM的核心思想是将LLM的生成能力与信息检索技术相结合,以此提高模型在处理各种问答任务时的准确性和可靠性。其核心组成通常包括三个阶段:检索(Retrieval)、生成(Generation)和增强(Augmentation),具体包括:

检索(Retrieval)

在用户提出问题或执行任务时,RAG系统首先从一个外部的知识库中检索与问题相关的信息。这一步骤涉及到将问题转化为查询,然后使用一个检索模型(如向量空间模型)来查找最相关的文档或信息片段。

生成(Generation)

检索到的信息会与原始问题一起作为输入提供给LLM。这些信息为LLM提供了额外的上下文,帮助模型更好地理解问题,并生成更准确、更丰富的回答或内容。

增强(Augmentation)

RAG框架还包括对检索和生成过程的优化和调整,以提高整个系统的性能。这可能包括对检索结果的重排序、上下文的压缩、模型的微调等。

总的来说,RAG利用外部知识库来补充和增强LLM的内在知识,使模型能够处理那些超出其训练数据范围或需要最新信息的任务。

以上可视作基于端到端训练方法的朴素RAG,后续又发展出高级RAG,以及基于模块化架构的模块化RAG

朴素RAG由于检索源与知识库文本信息不匹配以及检索结果中含有无关知识等问题,在知识密集型任务上的表现不佳;为此,学界提出了包括检索预处理、检索、检索后处理和生成的四阶段高级RAG,通过信息对齐和过滤两个维度改进检索增强架构;模块化RAG将整个RAG流程分解为多个独立的模块,包括但不限于检索、生成、增强和适配器等模块,每个模块负责处理特定的子任务。

LLM通过RAG得到了领域知识扩展,提高了在特定领域的任务表现,领域化落地难度和成本也进一步降低,这也为档案领域落地LLM应用提供了契机。

二、档案智能问答系统的构建

Composition

RAG技术可以帮助LLM更好地理解和回应查档用户的问询,提供更加准确和相关的信息,使得用户既能享用LLM的生成能力,又能保证档案知识的本地安全。

基于RAG+LLM来构建档案智能问答系统是档案智能化应用的重要方向之一。基于RAG+LLM的档案智能问答系统原理图如下所示:

上述原理图可以分为三大模块,一共15个步骤(step1-step15)。

1、档案知识库的构建(step1-step6)

数据收集

数据收集是构建档案知识库的第一步。在收集数据阶段,RAG系统需要注意以下问题:确保收集的数据是高质量的,没有错误、偏见或不准确的信息。数据质量直接影响系统生成答案结果的准确性。

数据预处理

收集到的原始数据往往包含噪声和不规范性,需要进行预处理以提高数据质量。数据清洗工作量大,需要借助数据处理工具和大量人工参与。同样,数据预处理质量非常关键,严重影响后续大模型的问答效果。

文本切分

将档案长文本切分成适合模型处理的小块,同时保证每个文本块的语义独立性和完整性。在处理档案数据时,根据文本的结构和内容特性来制定切分规则尤为重要。切分点应当尽可能地尊重自然语言中的语义单位,如句子、段落或意群。确保每个片段在语义上是完整的,避免将一个意群切割成两个部分,造成档案信息的丢失或不连贯。

2、检索模块的构建(step7-step11)

检索模块是连接档案知识库与用户查询的关键环节。向量数据库的构建、检索算法的选择和优化是确保高效准确检索的核心技术。

向量数据库构建

向量数据库的构建是检索模块的基础。在这个过程中,我们需要将档案知识库中的所有文本块转换为向量表示。这一步通常需要选择一个合适的向量化模型,例如bge-large、bce或text2vec等,用来将文本块转换为固定维度的向量表示,再将其存储在向量数据库中,以便后续的检索操作。

检索算法选择

检索算法的选择是决定检索模块性能的关键。常见的检索算法包括BM25、TF-IDF和混合检索算法等。这些算法各有特点,例如BM25算法能够根据文档的长度对检索结果进行加权,TF-IDF算法则能够根据词频和文档频率对检索结果进行加权。

3、生成答案(step13-step15)

生成答案模块负责将检索到的档案信息整合成用户可理解的回答。查询重构、结果重排序和语义理解是生成答案的关键步骤。

查询重构

查询重构旨在提升检索效果。用户提出的原始查询可能包含一些模糊或不精确的信息,查询重构的目的就是通过扩展用户问题的语义,使其更加精确,或者与知识库中切分的文本长度对齐,从而提高检索的相关性。

结果重排序

向量数据库与向量化的查询文本进行相似度计算匹配,可能会返回多个候选答案,需要将这些候选答案按照相似度进行重排序,以选出最靠前的几个答案。

内容生成

将排序后最靠前的几个结果输入给LLM,让其利用生成能力根据用户问题生成答案。可能涉及多种优化方法,如端到端微调或对比学习等。

除了上述三大模块,特别要提一下的是安全访问控制。在档案系统设计过程中,需要根据用户角色分配不同的访问权限,并通过身份认证确保数据访问安全。同样,在档案智能问答系统构建过程中,我们利用RAG技术结合原有的档案系统角色权限,限定某个角色所能访问的知识库范围,从而实现了基于角色权限访问控制的RAG+LLM技术应用。

三、实施效果

Effects

在燕山大学档案馆(校史馆)的实际项目开发过程中,我们构建了基于RAG+LLM的档案智能问答系统,取得了良好的应用效果。

硬件配置

CPU:Intel Xeon Gold 6271C *2

GPU:Nvidia Geforce RTX 4090*4

内存:256G

软件配置

基座大模型:零一万物Yi-34b-chat

向量化模型:bge-large

开发框架:LangChain

系统测试结果(3倍速录屏):

请在公众号中观看

四、结语

Epilogue

档案智能问答系统是我们尝试大模型融入档案智能化应用的一次初步尝试,它涉及档案知识库的构建、检索模块的开发、答案的生成以及安全访问控制等多个方面。从实际测试的效果来看,RAG技术和大模型的结合为档案问答系统的智能化提供了强大的支持。由于文章篇幅所限,我们只能对一些基本原理和系统框架进行粗浅的介绍,实际开发过程中碰到的困难和挑战远远不止这些,希望以后有机会再分享给大家。同时我们也在不断探索和优化解决方案,以期实现更好的应用效果。

数字罗塞塔计划公众号致力于成为全国领先的档案信息化知识分享与交流平台。独木难成林,众创力量大!作为中立的第三方平台,我们将努力为广大档案信息化从业企业提供一个展示自身业务与技术专业水平的舞台,共同推动档案行业的进步与发展。

关注我们 - 数字罗塞塔计划 -

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

蝴蝶花雨话教育
2026-02-08 12:47:42
2026喜事最多的星座,是你吗?

2026喜事最多的星座,是你吗?

同道大叔
2026-02-20 22:02:00
无论什么手机,切记不要这样充电,不然手机电池不耐用,涨知识了

无论什么手机,切记不要这样充电,不然手机电池不耐用,涨知识了

妙招酷
2026-02-17 23:47:03
韩媒:韩国冰联轻率处罚导致林孝埈换国籍 曾有女队友大胆为他作证

韩媒:韩国冰联轻率处罚导致林孝埈换国籍 曾有女队友大胆为他作证

劲爆体坛
2026-02-20 09:26:02
赵今麦,每个男人都想拥有的女孩样板。

赵今麦,每个男人都想拥有的女孩样板。

野狐馋师
2026-02-17 08:50:46
在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

解读热点事件
2026-02-04 00:05:07
不到20小时夺2金!金牌榜中国队甩开澳英韩!反超日本有2大夺金点

不到20小时夺2金!金牌榜中国队甩开澳英韩!反超日本有2大夺金点

老吴说体育
2026-02-20 22:25:31
曹丕见两头牛打架,让曹植作诗,不能有牛字,成千古名典

曹丕见两头牛打架,让曹植作诗,不能有牛字,成千古名典

长风文史
2026-02-14 20:37:27
高云翔大年初四去逛街,花80元买3件二手衣服,二婚生活拮据落魄

高云翔大年初四去逛街,花80元买3件二手衣服,二婚生活拮据落魄

离离言几许
2026-02-20 14:00:30
破纪录?《镖人》逆跌,票房冲15亿,吴京保住了武侠片的遮羞布

破纪录?《镖人》逆跌,票房冲15亿,吴京保住了武侠片的遮羞布

靠谱电影君
2026-02-19 21:28:54
全新奔驰新车曝光:3月10日,正式发布

全新奔驰新车曝光:3月10日,正式发布

高科技爱好者
2026-02-20 22:59:20
“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

卷史
2025-09-15 11:50:59
iPhone17ProMax突然大量变二手,把我彻底看傻了

iPhone17ProMax突然大量变二手,把我彻底看傻了

3C毒物
2026-02-19 20:27:09
朱珠一家给100岁奶奶拜年,香奈儿随手扔地上,四代同框真的好暖

朱珠一家给100岁奶奶拜年,香奈儿随手扔地上,四代同框真的好暖

乡野小珥
2026-02-20 09:19:49
太诡异,越南春联上已没有汉字!越南去汉字化确实很成功

太诡异,越南春联上已没有汉字!越南去汉字化确实很成功

魔都姐姐杂谈
2026-02-18 13:09:07
“富养”谷爱凌、苏翊鸣的真实成本:看他们的家庭才懂,父母是高人……

“富养”谷爱凌、苏翊鸣的真实成本:看他们的家庭才懂,父母是高人……

阅读第一
2026-02-13 08:35:15
怕老人走后钱成死钱?这个存钱方法,2026年照着做一分不浪费

怕老人走后钱成死钱?这个存钱方法,2026年照着做一分不浪费

蓝色海边
2026-02-19 05:53:47
刚刚,暴跌!直线跳水!

刚刚,暴跌!直线跳水!

中国基金报
2026-02-20 09:25:34
欧智库:中国想称霸、想统一台湾都可以,前提是“请先拯救世界”

欧智库:中国想称霸、想统一台湾都可以,前提是“请先拯救世界”

三石记
2026-02-20 20:07:36
全球只有5位领导人被永久保留遗体,他们都是谁

全球只有5位领导人被永久保留遗体,他们都是谁

扶苏聊历史
2026-01-29 16:13:42
2026-02-20 23:28:49
数字罗塞塔计划
数字罗塞塔计划
保存社会记忆、传承人类文明!致力于成为全国领先的档案“两化”新媒体平台。
319文章数 5关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

7名中国游客溺亡 目击者:司机强闯贝加尔湖冰面裂缝

头条要闻

7名中国游客溺亡 目击者:司机强闯贝加尔湖冰面裂缝

体育要闻

宁忠岩:我拿过那么多银牌和铜牌 现在终于赢了

娱乐要闻

苏翊鸣夺金朱易示爱,两人默契引热议

财经要闻

太疯狂!“顾客不问价直接出手”

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

游戏
房产
亲子
艺术
公开课

桌面陪伴治愈新体验!《仓鼠萌语》亮相Steam新品节,免费试玩今日开启

房产要闻

春节三亚楼市再放大招!千亿巨头,重磅推出超性价比海景现房

亲子要闻

婆婆向儿媳讨要孙女满月酒礼金,看儿媳如何霸气反击,结局真痛快

艺术要闻

开绿灯!特朗普心心念的白宫宴会厅设计方案,一致通过!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版