网易首页 > 网易号 > 正文 申请入驻

港大最新研究成果:MiniRAG,「迷你版」RAG 小模型端侧可用

0
分享至

MiniRAG让仅有1.5B参数的小型模型也能达到接近GPT-4mini的RAG任务性能,大幅降低了算力需求。

传统RAG系统的高资源需求和部署门槛一直是行业痛点,香港大学黄超教授团队最新推出的MiniRAG框架为此提供了创新解决方案。通过突破性的架构优化设计,MiniRAG让仅有1.5B参数的小型模型也能达到接近GPT-4mini的RAG任务性能,大幅降低了算力需求。这一突破不仅让端侧RAG系统部署成为可能,更为RAG技术的应用探索新途径。

项目链接: https://github.com/HKUDS/MiniRAG

论文链接: https://arxiv.org/abs/2501.06713

实验室主页: https://github.com/HKUDS

1

为什么需要 MiniRAG?现有 RAG 系统的局限性

高资源需求与部署门槛

传统RAG系统通常依赖于大型语言模型(LLMs),这些模型虽然性能强大,但对计算资源和存储空间的需求极高,导致其难以在资源受限的端侧设备上部署。此外,大型模型的复杂性和高成本也限制了RAG技术在更广泛场景中的应用。

小型语言模型的性能瓶颈

现有的RAG框架在设计上主要针对大型语言模型,直接将其应用于小型语言模型(SLMs)时,性能往往大幅下降。特别是在查询理解、多步推理、语义匹配和信息合成等关键环节,小型模型的表现明显不足,难以满足实际应用需求。

数据隐私与端侧需求

随着数据隐私保护意识的增强,端侧设备上的数据处理需求日益增加。然而,传统RAG系统由于依赖云端大型模型,难以在端侧实现高效且隐私保护的知识检索与生成。MiniRAG通过轻量级架构设计,成功解决了这一问题,为端侧RAG系统的部署提供了可行方案。

2

MiniRAG的核心设计

MiniRAG通过突破性的轻量级架构创新,成功构建了一个高效的检索增强生成系统。该系统无需依赖庞大的语言模型,不仅显著降低了部署门槛,更能有效保护在端侧RAG系统中用户的数据隐私。

MiniRAG框架

MiniRAG提出了两大核心创新组件:语义感知异构图索引和轻量级图式知识检索。这些设计使得系统能够在保证检索质量的同时,大幅降低对模型能力的依赖,特别适合在资源受限的端侧设备上运行。

语义感知异构图索引

MiniRAG通过融合文本块和命名实体,构建层次化语义网络。这种双层结构不仅提高了检索结果的准确度,还巧妙避开了小型语言模型在文本概括方面的短板,最大限度地保持了原始信息的准确性。

轻量级知识检索

针对端侧设备的计算资源限制,MiniRAG采用图式知识检索机制,结合语义感知异构图和轻量级文本嵌入,实现了高质量的知识获取。该机制通过简化的解析流程和拓扑增强检索策略,显著降低了检索过程对模型性能的要求。

LiHua-World:模拟真实端侧场景的评测数据集

LiHua-World数据集,记录了LiHua一年的通讯数据

为全面评估MiniRAG在实际应用中的性能,研究团队同步推出了首个专门面向端侧环境的评测基准——LiHua-World。这个精心设计的数据集通过模拟真实的个人设备通信数据,系统性地覆盖了端侧场景下的多样化检索需求和知识增强应用,为轻量级RAG系统的发展提供了重要的评估工具。

数据集特点

  • 问题类型丰富:包含单跳查询、多跳推理和信息总结等多种任务类型。

  • 场景多元:涉及社交、健身、娱乐和生活等领域,贴合端侧应用特点。

  • 专业标注:配备标准答案和相关文档,确保评估的准确性和可靠性。

3

实验评估与分析

实验结果

系统性能对比

  • 现有RAG系统的局限性:实验结果表明,现有RAG系统在迁移至小型语言模型(SLMs)时存在严重的性能瓶颈。具体而言,LightRAG的整体性能显著下降(降幅达45.43%),而GraphRAG在小模型场景下甚至无法维持基本的生成能力。这些问题充分暴露了传统RAG架构对大型语言模型的深度依赖。

  • MiniRAG的创新突破:相比之下,MiniRAG通过双节点异构图索引结构和拓扑增强检索机制,有效降低了对模型能力的依赖。实验数据显示,在迁移至小型语言模型时,MiniRAG的性能损失得到显著控制 - 最大降幅仅为21.26%,最小降幅更是低至0.79%,展现出优异的模型适应性。

不同方法的存储效率与准确率

  • MiniRAG显著的存储优化: 实验评估显示,MiniRAG在存储效率优化方面取得了突破性进展。与采用gpt-4-mini的LightRAG基线系统相比,MiniRAG仅需25%的存储空间即可达到相当的性能水平。这种在大幅降低存储需求(节省75%)的同时还能保持高检索准确率的特性,不仅展现了MiniRAG在系统架构设计上的创新,更为资源受限场景下的RAG应用开辟了新的可能性。

组件效果分析

消融实验

为全面评估 MiniRAG 各组件的性能贡献,研究团队设计了两组系统化的消融实验。第一组实验 (-$I$) 将 MiniRAG 的异构图索引替换为传统的基于描述的索引方法,该方法与 LightRAG 和 GraphRAG 类似,主要依赖模型的语义理解能力来生成实体与关系描述。第二组实验 (-$R_i$) 通过在图检索过程中选择性停用特定功能模块,以量化分析各模块对系统整体表现的影响。

实验结果表明:

  • 小语言模型难以支撑传统RAG方法。消融实验结果明确显示,当使用传统的文本语义驱动索引技术(-$I$)替代MiniRAG的索引方法时,系统性能出现显著下降。这一发现有力验证了研究团队的初始假设:小型语言模型(SLMs)在复杂知识图谱生成和全面语义理解等方面存在固有局限。

  • 推理路径的有效性。结构组件的关键性通过实验得到充分证实。无论是移除边信息(-$R_{edge}$)还是块节点(-$R_{chunk}$),都会导致系统性能明显下降。这些组件展现出双重价值:既通过查询引导的推理路径发现优化了查询匹配效果,又在数据索引阶段有效弥补了SLMs的能力限制。

实际场景案例研究

案例研究

MiniRAG通过一个复杂的餐厅识别案例,有力展示了其在实际应用中的卓越性能,特别是在处理多约束查询和克服小型语言模型局限性方面的优势。

挑战:复杂查询解析的困境

研究团队选取了一个具有挑战性的测试案例,查询内容为:Wolfgang和Li Hua为庆祝Wolfgang升职而共进晚餐的那家意大利餐厅叫什么名字?这一查询涉及多重约束条件,要求系统能从在线聊天数据中准确识别特定意大利餐厅及其相关上下文。在这个测试中,两种RAG方法都使用phi-3.5-mini-instruct小语言模型。受限于小型语言模型的固有局限性,特别是在提取high-level信息和处理图索引噪声方面的不足,导致LightRAG的检索效果不够理想。

MiniRAG的解决方案

创新的知识发现机制,MiniRAG通过其独特的查询引导推理路径发现机制成功应对了上述挑战。系统利用异构图索引结构,首先预测答案类型(如"社交互动"或"地点"),然后通过策略性分解查询要素(专注于"意大利场所"和"餐厅"语境),结合目标实体匹配,实现了精确且具有上下文关联的知识检索。这种结构化推理方法使MiniRAG即便使用小型语言模型也能够精确导航知识空间,最终成功定位目标餐厅——Venedia Grancaffe。

4

未来研究方向

  • 增强小型语言模型的能力:通过模型压缩和知识蒸馏等技术,进一步提升小型语言模型在RAG任务中的表现。

  • 扩展应用场景:探索MiniRAG在更多端侧设备上的应用,如智能家居、车载系统等。

  • 优化隐私保护机制:进一步研究如何在保证性能的同时,增强端侧RAG系统的数据隐私保护能力。

5

总结

MiniRAG的提出为端侧RAG系统的研究与应用提供了全新的解决方案。通过其轻量级架构设计、创新的异构图索引和高效的检索机制,MiniRAG不仅突破了传统RAG系统的高资源需求瓶颈,还为端侧设备上的知识检索与生成开辟了新的可能性。随着LiHua-World评测基准的发布,MiniRAG有望进一步推动RAG技术在端侧设备上的普及与应用。如需了解更多信息,请访问项目链接:

https://github.com/HKUDS/MiniRAG。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iOS 27 更新,国行 iPhone AI 功能彻底移除!

iOS 27 更新,国行 iPhone AI 功能彻底移除!

花果科技
2026-06-23 15:13:52
受贿1.39亿余元,上海市委原常委朱芝松一审被判死缓

受贿1.39亿余元,上海市委原常委朱芝松一审被判死缓

政知新媒体
2026-06-23 18:23:59
周星驰《功夫女足》阵容炸裂!迪丽热巴以梦为马,诠释热血巾帼

周星驰《功夫女足》阵容炸裂!迪丽热巴以梦为马,诠释热血巾帼

TVB的四小花
2026-06-23 15:17:59
不是杨瀚森王俊杰!荷兰主帅盛赞中国1小将,未来当核心使用

不是杨瀚森王俊杰!荷兰主帅盛赞中国1小将,未来当核心使用

老吴说体育
2026-06-24 00:07:26
记者:放走梅西是巴萨最大错误,花1.5亿买小蜘蛛不如请回他

记者:放走梅西是巴萨最大错误,花1.5亿买小蜘蛛不如请回他

海阔山遥YAO
2026-06-23 11:29:06
日媒评世界杯历史5大“鱼腩”球队:亚洲独占4席,中国男足在列

日媒评世界杯历史5大“鱼腩”球队:亚洲独占4席,中国男足在列

绿茵舞着
2026-06-23 22:26:24
56岁出轨女人自述:我与他偷偷来往多年,但丈夫一直没有发现

56岁出轨女人自述:我与他偷偷来往多年,但丈夫一直没有发现

千秋历史
2026-05-27 19:44:17
两性关系:不管你信不信,女性过了50岁后,基本都有这两个现状

两性关系:不管你信不信,女性过了50岁后,基本都有这两个现状

心理观察局
2026-06-16 06:33:05
伊朗代表:霍尔木兹海峡已免费开放

伊朗代表:霍尔木兹海峡已免费开放

新华社
2026-06-23 22:13:05
新一轮下岗潮真来了?三大行业即将面临失业,早知道早准备

新一轮下岗潮真来了?三大行业即将面临失业,早知道早准备

骚年先锋
2026-06-23 02:26:57
如果一个县,半数以上的干部都出身纪委,会有哪些影响?

如果一个县,半数以上的干部都出身纪委,会有哪些影响?

职场资深秘书
2026-06-23 14:20:02
力挺我国,日本国内给高市早苗两大重击,朝鲜对日口风突然变了

力挺我国,日本国内给高市早苗两大重击,朝鲜对日口风突然变了

DS北风
2026-06-23 16:23:04
深夜,全线下跌!美股科技股、黄金、白银重挫!原油巨震

深夜,全线下跌!美股科技股、黄金、白银重挫!原油巨震

证券时报e公司
2026-06-24 02:06:26
中国楼市:官媒开始吹风了!过来人:明年房子或超出很多人的想象

中国楼市:官媒开始吹风了!过来人:明年房子或超出很多人的想象

混沌录
2026-06-23 23:45:15
“开屏广告没了”登顶热搜,大量网友惊喜反馈高德地图、百度地图、微博等App能“秒进”主页,体验极为“丝滑”

“开屏广告没了”登顶热搜,大量网友惊喜反馈高德地图、百度地图、微博等App能“秒进”主页,体验极为“丝滑”

大风新闻
2026-06-23 22:27:03
亚洲最穷国家:当地女性很开放,游客都是土豪,无不想去定居?

亚洲最穷国家:当地女性很开放,游客都是土豪,无不想去定居?

抽象派大师
2026-06-23 13:40:09
观众最反感的明星排名,闫学晶第五,唐国强上榜,第一没有悬念

观众最反感的明星排名,闫学晶第五,唐国强上榜,第一没有悬念

不似少年游
2026-06-22 16:51:52
女子试衣间一丝不挂被围观,涉事商场致歉整改

女子试衣间一丝不挂被围观,涉事商场致歉整改

据说说娱乐
2026-06-24 01:28:54
红利曼丢了,连锁反应就来了

红利曼丢了,连锁反应就来了

星火聊天下
2026-06-22 07:09:14
世界杯:葡萄牙VS乌兹别克斯坦

世界杯:葡萄牙VS乌兹别克斯坦

蕫老厮战术板
2026-06-23 10:43:14
2026-06-24 02:44:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7388文章数 20758关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

"纸尿裤风波"第一爆料人:如果我错了 坐牢都接受

头条要闻

"纸尿裤风波"第一爆料人:如果我错了 坐牢都接受

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

AI“算力稀缺”信仰开始动摇?

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

教育
游戏
时尚
健康
本地

教育要闻

2026四川高考成绩25日18:30公布!附查询入口→

收藏党必冲!PS5蓝色限量手柄官宣 经典配色实在惊艳

被40万人追更的火焰魔术师,重塑古老灯工玻璃

同样是中风,急救方向竟完全相反?

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

无障碍浏览 进入关怀版