网易首页 > 网易号 > 正文 申请入驻

让RAG真正读懂“言外之意”!新框架引入词汇多样性,刷新多基准

0
分享至

RAG准确率提升10.6%,多项基准拿下新SOTA!

ACL 2025最新研究提出Lexical Diversity-aware RAG(DRAG)框架,首次系统性地将词汇多样性引入RAG的检索与生成过程,提供了一个轻量、通用且易扩展的解决方案。

在多项基准任务中,该方法带来了显著性能提升,尤其在HotpotQA上刷新了当前最优结果。



在大语言模型的浪潮下,Retrieval-Augmented Generation(RAG)已经成为提升模型事实性和时效性的重要手段。然而,现有方法普遍忽视了一个看似细微却极为关键的问题——词汇多样性(lexical diversity)。

同一个问题,不同的表达方式,往往让检索模型“晕头转向”,最终导致错误答案。

由此,来自北航、北大、中关村实验室的研究团队提出了这项最新工作,他们首次将“词汇多样性”引入检索增强生成的相关性评估过程,并通过新颖的风险稀疏校准机制解决了生成阶段被无关信息干扰的问题。

团队认为,该方法对信息检索、问答系统、专业领域大模型应用都具有重要价值。未来,他们计划进一步拓展该方法到更多专业场景,让大模型不仅能“读懂”,更能“理解”复杂的人类语言表达。

词汇多样性:RAG的隐形痛点

研究团队指出,现有RAG方法大多通过“单一标准”判断检索文档是否相关,但现实情况要复杂得多。如图所示,以问题“What is Hattie McDaniel’s occupation?”为例,其中的语义成分表现出不同程度“词汇多样性”:

  • 不变词(Invariant):人名“Hattie McDaniel”一般不会变形;
  • 可变词(Variant):词语“occupation”可以对应“profession”“actress”甚至“Academy Award”;
  • 补充信息(Supplementary):答案可能依赖“American celebrity”等扩展语境。



这种词汇多样性往往导致模型错误地将部分相似但无关的文档判为相关,或者忽略了真正有用的信息。

两大关键创新

为解决“词汇多样性”带来的挑战,研究团队提出了该框架,核心在于两个互补模块:

1、Diversity-sensitive Relevance Analyzer(DRA)

传统检索相关性评估往往“一刀切”,把整体查询和检索文档进行比较。该方法则进一步拆解查询语义,针对不同成分采用差异化策略:

  • 不变成分:如人名、地名等必须精确匹配的关键词,该方法强调其检索文档应与该成分严格匹配;
  • 可变成分:如“occupation”—“profession”,DRA借助LLM的语义扩展和分析能力,在检索时允许一定语义灵活性;
  • 补充成分:如“American celebrity”,该方法通过检索需求的明确程度来判断是否需要真正提供有用的补充证据。

在此基础上,该方法通过该模块对相似度检索结果进行重排序,输出一个更细粒度、多维度的相关性评分,避免检索时存在的“假阳性”和“假阴性”的常见问题。



2. Risk-guided Sparse Calibration

即使有了更精准的检索,生成阶段仍然可能“被干扰”。Risk-guided Sparse Calibration的设计灵感来自“风险控制”:它会实时监控每个生成token的“被误导风险”,并在必要时进行解码校准。

  • 词汇风险(Lexical Risk):检测生成内容是否过度依赖低相关的词汇;
  • 注意力风险(Attention Risk):评估模型注意力是否集中在无关段落;
  • 预测风险(Prediction Risk):衡量当前预测是否与检索证据存在冲突。

RSC的独特之处在于它的稀疏性(sparse calibration):只对高风险token动态干预,而不会对全局输出强行重写,从而保证了生成质量与效率的平衡。

最终,DRA负责“挑选更靠谱的材料”,RSC负责“防止模型走偏”,形成了检索与生成环节的双保险,让RAG更稳健、更准确。

实验结果:显著超越现有方法

团队在多个开放域问答基准上验证了该方法:



其中,该方法在PopQA/TriviaQA(短文本问答):准确率分别提升4.9%和4.4%;HotpotQA/2WikiMultiHopQA(多跳问答):准确率均提升10.6%,展现出强泛化性;在ASQA(长答案生成):在str-em、QA-F1等指标上刷新SOTA



不仅如此,该方法在不同类型、大小的模型上均表现出显著增益,如Llama2-7B, Llama2-13B, Qwen2-7B, Alpaca-7B和Mistral-7B等。



论文链接:

https://aclanthology.org/2025.acl-long.1346/
代码(即将开源):

https://github.com/Zhange21/DRAG

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

沧海旅行家
2026-03-26 13:46:41
韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

韩媒臆想:中国队欢呼吧,国际足联同意他们替补世界杯

体坛风之子
2026-03-26 07:00:06
泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

TVB的四小花
2026-03-26 12:18:20
日本自卫官持刀闯入中国大使馆,日本网络舆论呼吁政府立即道歉

日本自卫官持刀闯入中国大使馆,日本网络舆论呼吁政府立即道歉

徐静波静说日本
2026-03-25 08:10:07
成都宝妈近一年狂扫5套“老破小”!地铁口+软装实现以租养贷

成都宝妈近一年狂扫5套“老破小”!地铁口+软装实现以租养贷

封面新闻
2026-03-25 21:28:05
日本内阁官房长官就“强闯使馆”事件表态

日本内阁官房长官就“强闯使馆”事件表态

新浪财经
2026-03-25 18:48:42
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
第六险来了!一文读懂“长护险”

第六险来了!一文读懂“长护险”

极目新闻
2026-03-26 07:21:00
连场三双,约基奇成为NBA历史首位背靠背场均15+15+15的球员

连场三双,约基奇成为NBA历史首位背靠背场均15+15+15的球员

懂球帝
2026-03-26 14:02:09
出了一身臭汗,洗澡睡觉……

出了一身臭汗,洗澡睡觉……

乡野小珥
2026-03-26 12:26:29
科学家在月球背面,发现了2200万亿吨金属,它们究竟从何而来?

科学家在月球背面,发现了2200万亿吨金属,它们究竟从何而来?

观察宇宙
2026-03-25 20:24:45
“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

潇湘晨报
2026-03-26 11:49:57
美国最大的失误就是一上来就把宋江给干掉了

美国最大的失误就是一上来就把宋江给干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

懂球帝
2026-03-26 11:13:10
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

我爱上41岁女人,她开口:玩玩可以但不结婚,得知真相我瘫坐在地

小月故事
2026-03-19 17:08:37
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
伊朗最新回应:已被特朗普欺骗了两次,不想再被愚弄!3架F-15战机坠毁,特朗普最新回应:小意外!伊朗致函联合国,“176国传阅”

伊朗最新回应:已被特朗普欺骗了两次,不想再被愚弄!3架F-15战机坠毁,特朗普最新回应:小意外!伊朗致函联合国,“176国传阅”

每日经济新闻
2026-03-25 16:15:05
CIA前局长称相比特朗普更相信伊朗方面的表述

CIA前局长称相比特朗普更相信伊朗方面的表述

极目新闻
2026-03-25 14:10:05
40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

40分钟连挨4轮导弹!以色列遭盟友背叛?中方:支持巴勒斯坦建国

近史博览
2026-03-26 09:52:59
2026-03-26 14:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
旅游
数码
公开课
军事航空

艺术要闻

哪一座桥不是风景?

旅游要闻

明起全面实行线上实名预约购票!云台山景区发布公告

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版