网易首页 > 网易号 > 正文 申请入驻

企鹅极客丨揭秘文档智能助手:大模型技术带来的智能体验!

0
分享至

随着信息化时代的推进,企业内部积累了大量的数字文档,这些文档中蕴含着丰富的信息。为了更好地管理和利用这些文档,通常会采用标签化的方式进行归类,同时使用搜索引擎进行内容检索。然而,传统的文档搜索方式往往仅限于关键字或短语查询,难以实现更高级别的语义检索,无法满足用户对深度理解文档内容的需求。

为了解决这一问题,现在大型语言模型(Large Language Model,简称LLM)在自然语言处理领域取得了显著进展,具备了语义理解、文档摘要、信息提取和逻辑推理等多项能力。通过与用户进行对话问答的交互方式,LLM能够更准确地理解用户需求,提高搜索相关文档的效率和准确性。

本文将通过方案的详细拆解与实验展示,指导企业如何构建基于LLM的文档语义搜索系统,实现更加智能化和高效的搜索体验。因此,我们首先需要了解LLM的基本原理和结构,掌握LLM在文档处理方面的应用技术和方法,然后根据企业实际情况制定相应的搜索方案,并进行实验验证和优化。最终,我们将能够构建出适合企业自身的智能化搜索系统,提高文档搜索的准确性和效率,为用户带来全新的搜索体验。

总体来说,文档智能搜索大致可分为四个主要部分:文档分片与向量化、向量存储、向量搜索、大模型语义融合。划分以上四部分的原则要从LLM的特性说起。

首先,由于检索任务的特殊性与时效性,对于百亿乃至千亿级参数的大模型很少被直接应用于信息检索,而经常用于数据的辅助处理以获得更好的粗排、精排模型。

其次,LLM在预训练阶段也难以囊括众多垂直领域的知识,但其对自然语言的综合运用能力很强,特别适合根据相关背景信息对问题进行总结和归纳,然后再以人们容易接受的方式进行语义的表达。

还有,使用大语言模型进行量化推理时为了控制计算量,会限制单次输入的文本数量,因此需要对较长的原始文本内容进行分割,以满足最大的token数量限制,也称为文本分片。而当文档被分割处理之后,就需要针对问题进行有效的语义级别的关联查找,这个过程借助语言模型预训练阶段对文本信息的前期处理,即向量化。一段自然语言的文字信息经过向量化计算后会被映射进表征语义的高维空间,在空间内做相似度计算可以找到语义相近的内容。

所以,为了加速整个检索过程,先对被检索的文本进行分片与向量化存储,在检索时基于向量相似度筛选出相关内容的分片,再将相关内容与问题输入大模型进行推理。如下所示:

基于以上步骤可大致实现文档的语义级检索,但实际操作时还是会遇到一些性能优化问题。例如,当多文档内容存储在同一个向量数据库中时,问题的向量相似搜索会返回多个文档片段,尤其当企业内部文档出现较多关联的业务信息、通用性的实体概念、流程规范等,如何更准确的锁定文档范围变得尤为突出。

我们首先尝试逐级搜索策略来进行优化,可以利用大模型对文档做摘要预处理,概括出主要内容还可以附加提取文档的关键词列表,构造类似期刊文献的前置部分。在搜索前先将问题query与全部文档的摘要信息做一次相似计算,可保留top 1~n,并依据此对后续的文档分片搜索做策略性指导,以减少跨文档搜索的误差率。

还可以通过传统的机器学习方法提取文档的主旨信息如LSA、LDA等,接下来的处理过程与上面类似,将问题query与主题矩阵计算的文档相似性作为先验条件,进而影响后续文档片段的检索。

基于以上设计并利用OpenAI与百度文心提供的大模型推理接口,我们实现了智能文档助手,如下所示。

DDI采集业务问答样例:

企业规章制度问答样例:

以上实现方案还存在依赖平台级大模型接口的问题,需要连接互联网以获取大模型的数据处理能力,对信息安全要求较高的企业来说面临合规的风险。接下来我们将挑选优秀的开源模型如Alpaca、Vicuna、GLM等构建离线版文档助手,并提供模型测评、微调与部署的技术预研,敬请关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
LV总监空降成都,全身穿搭价值3000万,网友辣评:像农民工赶火车

LV总监空降成都,全身穿搭价值3000万,网友辣评:像农民工赶火车

动物的温情故事
2024-05-16 04:15:23
杭州一绿化带里竟有个古墓?和学校仅一墙之隔,清明过年都有人来祭扫

杭州一绿化带里竟有个古墓?和学校仅一墙之隔,清明过年都有人来祭扫

都市快报橙柿互动
2024-05-16 14:22:53
山东淄博经开区村集体三千多万征地补偿款悄然被“理财”

山东淄博经开区村集体三千多万征地补偿款悄然被“理财”

央广网
2024-05-16 08:50:11
外电披露:普京访华随行团队阵容“豪华”

外电披露:普京访华随行团队阵容“豪华”

参考消息
2024-05-16 08:23:09
中俄已经谈妥,普京启程到黑龙江,登机前说了两句话,语气不寻常

中俄已经谈妥,普京启程到黑龙江,登机前说了两句话,语气不寻常

爱钓鱼的阿
2024-05-16 12:45:11
骗财骗色的多了起来

骗财骗色的多了起来

贫民窟的大富翁
2024-05-15 19:19:00
普京抵达北京!现场视频——

普京抵达北京!现场视频——

新京报
2024-05-16 08:02:28
足协官方:泰山医务人员帮助救治三镇伤员,对泰山予以通报表扬

足协官方:泰山医务人员帮助救治三镇伤员,对泰山予以通报表扬

直播吧
2024-05-16 14:17:25
日本前首相麻生太郎在东京会见台北市长蒋万安,外交部回应

日本前首相麻生太郎在东京会见台北市长蒋万安,外交部回应

环球网资讯
2024-05-16 14:34:21
警车别停私家车事件后续:前方大货车司机目击全程,发声还原真相

警车别停私家车事件后续:前方大货车司机目击全程,发声还原真相

洛洛女巫
2024-05-16 15:33:20
没100%准备,普京哪敢轻易出国:他的护身符有两个,中国只是其一

没100%准备,普京哪敢轻易出国:他的护身符有两个,中国只是其一

千里持剑
2024-05-16 11:32:20
安徽一女童小区内遭汽车碾压身亡,肇事司机逃逸被抓

安徽一女童小区内遭汽车碾压身亡,肇事司机逃逸被抓

奔流新闻
2024-05-16 11:24:26
效仿欧足联!官方:亚足联正式推出三级俱乐部联赛,中超四队参赛

效仿欧足联!官方:亚足联正式推出三级俱乐部联赛,中超四队参赛

直播吧
2024-05-16 12:50:20
奥尼尔被拍到与21岁女友在西班牙旅行,手臂比女友腰粗她咋想的?

奥尼尔被拍到与21岁女友在西班牙旅行,手臂比女友腰粗她咋想的?

娱乐八卦木木子
2024-05-16 03:32:34
广州批发市场火灾现场失联人员已找到,已无生命体征

广州批发市场火灾现场失联人员已找到,已无生命体征

界面新闻
2024-05-16 14:48:24
沪指尾盘回落翻绿 下跌个股近2300只

沪指尾盘回落翻绿 下跌个股近2300只

财联社
2024-05-16 14:35:10
57岁男子吊脖锻炼后续:卡喉咙窒息身亡,目击者发声,警方介入

57岁男子吊脖锻炼后续:卡喉咙窒息身亡,目击者发声,警方介入

180°视角
2024-05-16 15:29:14
所有退路全被堵死  TikTok九死无生

所有退路全被堵死 TikTok九死无生

帅真商业
2024-04-25 16:43:06
噩耗!武汉因冻雨被砸伤大学生花费百万后离世,父亲发极端朋友圈

噩耗!武汉因冻雨被砸伤大学生花费百万后离世,父亲发极端朋友圈

六毛朵朵
2024-05-16 11:02:26
金发低胸小吊带!金卡带女儿观战WNBA

金发低胸小吊带!金卡带女儿观战WNBA

直播吧
2024-05-16 13:14:01
2024-05-16 16:46:44
未名企鹅
未名企鹅
医药产业大数据解决方案专家
180文章数 12关注度
往期回顾 全部

科技要闻

特斯拉Model Y"孪生兄弟",蔚来新车能行吗

头条要闻

杭州一绿化带有个古墓和大学仅一墙之隔 家属拒绝迁移

头条要闻

杭州一绿化带有个古墓和大学仅一墙之隔 家属拒绝迁移

体育要闻

生命最后一年,他决定完成自己的“遗愿清单”

娱乐要闻

街头打代驾?李溪芮想翻红那真挺难的

财经要闻

上海家化董事长离职 近四年薪酬约三千万

汽车要闻

混动MPV风向标 上汽大通"大家"系超混强在哪

态度原创

数码
游戏
本地
公开课
军事航空

数码要闻

酷凛 ID-COOLING 推出霜界 240/360 一体水冷散热器,239/279 元

《刺客信条》Steam特惠开启 英灵殿、奥德赛等新史低

本地新闻

吃火锅减肥?还得是宁夏人敢想

公开课

父亲年龄越大孩子越不聪明?

军事要闻

俄官宣列装“布拉瓦”洲际导弹

无障碍浏览 进入关怀版