网易首页 > 网易号 > 正文 申请入驻

7.7倍差距实测:RAG系统用错模型,答案质量直接崩盘

0
分享至

一位工程师把120篇arXiv论文喂给AI,发现选错嵌入模型,答案质量能差出近8倍。这不是论文里的理论推测,是他一行行代码测出来的。

他用三种Transformer嵌入模型对比传统BM25检索,在真实问答场景里跑分。结果最差的组合几乎没法用,最好的能精准定位到段落。7.7倍——这个数字让团队重新评估了整个技术栈。

120篇论文的"压力测试"

项目起点很务实:做一个能读懂学术文献的语义研究助手。不是聊天机器人那种泛泛而谈,要能回答具体的技术问题,比如"这篇论文的方法在多大样本上验证过"或者"对比实验用了什么基线模型"。

数据源是arXiv的机器学习论文,120篇,涵盖Transformer架构、优化方法和评估指标。每篇论文被切成语义块,建立可检索的知识库。但关键决策来了:用什么模型把文本变成向量?

候选名单有三位:all-MiniLM-L6-v2(轻量型)、all-mpnet-base-v2(平衡型)、BAAI/bge-large-en(专用型)。对照组是BM25,这种基于词频的传统检索已经用了几十年。

测试方法很"产品经理":不做抽象指标,直接看答案能不能用。工程师设计了一组真实会问的问题,比如"哪篇论文提出了用对比学习改进句子嵌入",然后看系统能不能召回正确的论文片段。

7.7倍差距从哪来

结果让团队沉默了。all-MiniLM-L6-v2在某些问题上表现尚可,但遇到专业术语密集或表述变体多的查询,召回率断崖下跌。BAAI/bge-large-en则稳得多,尤其在需要理解"对比学习"和"contrastive learning"是同一回事时。

BM25的表现最尴尬。它不懂"transformer"和"attention mechanism"的关联,只会数词频。当用户问"自注意力机制的改进版本",它可能漏掉标题里有"transformer"但正文才讲attention的论文。

量化后的差距:最佳与最差配置的答案质量评分相差7.7倍。这个数字是综合召回准确率、答案相关性和人工判断得出的。工程师在博客中写道,「第一次看到对比结果时,我怀疑是不是代码写错了。」

但代码没错。错的是假设——假设"有个嵌入模型就行",没意识到不同模型在特定领域的天壤之别。

生产环境的隐藏成本

选型不只是准确率的事。all-MiniLM-L6-v2的优势是快,CPU上就能跑,延迟低。BAAI/bge-large-en需要GPU,向量维度更高,存储成本翻倍。

团队最终选了混合策略:先用轻量模型做粗筛,再用重模型精排。这样把7.7倍的差距"变现"为成本可控的方案,而不是盲目追求顶配。

另一个坑是文本切分。论文不是网页文章,公式、表格、引用混排,按固定字数切会把一个定理切成两半。工程师试了按段落切、按章节切、按语义边界切,最后发现结合LaTeX结构标记效果最好。

这些细节不会出现在模型评测榜单上,但决定了生产系统能不能用。

RAG的"最后一公里"困境

这个项目暴露了一个行业现状:RAG(检索增强生成,Retrieval-Augmented Generation)的概念很热,但落地时大家都在重新发明轮子。向量数据库选型、嵌入模型微调、重排序策略、提示工程——每个环节都有10种选择,组合起来就是指数级复杂度。

工程师开源了他的测试框架和Streamlit演示。不是完整产品,是一个可复现的基准。他说,「我希望别人不用从头踩一遍我踩过的坑。」

演示里有个细节:同一个问题,切换不同模型,答案从"这篇论文没提到"变成"Smith et al. (2022) 在第三章提出的方法..."。7.7倍的差距,用户体感就是"这AI懂不懂行"的区别。

项目代码和120篇论文的处理流程已公开。如果你也在做文档问答系统,你会优先测准确率还是优先保延迟?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
云南鸵鸟肉案凶手被判死刑,当地曾多人购买,这些人后来怎样了

云南鸵鸟肉案凶手被判死刑,当地曾多人购买,这些人后来怎样了

林林故事揭秘
2025-01-03 17:30:21
最大赢家?总决赛还未开打,索汉已提前锁定本赛季总冠军戒指

最大赢家?总决赛还未开打,索汉已提前锁定本赛季总冠军戒指

懂球帝
2026-05-31 11:33:19
雷霆无缘总冠军,揪出3大“罪臣”!主教练在列 一人可直接被交易

雷霆无缘总冠军,揪出3大“罪臣”!主教练在列 一人可直接被交易

鸣哥说体育
2026-05-31 15:19:48
总决赛G3赛前上海2大外动态!洛夫顿现身场边,怀特塞德没在杭州

总决赛G3赛前上海2大外动态!洛夫顿现身场边,怀特塞德没在杭州

篮球资讯达人
2026-05-31 11:29:13
快讯!关于江启臣的消息!

快讯!关于江启臣的消息!

故事终将光明磊落
2026-05-31 12:52:15
一夜爆红!深圳73岁老人摆摊,躺路边熟睡!有人凌晨光顾,有人专程蹲点

一夜爆红!深圳73岁老人摆摊,躺路边熟睡!有人凌晨光顾,有人专程蹲点

南方都市报
2026-05-31 09:19:43
禽兽都不会这么干!巴西亚马逊雨林发生严重挑战人类伦理的事情

禽兽都不会这么干!巴西亚马逊雨林发生严重挑战人类伦理的事情

科普大世界
2026-05-30 21:04:03
巴黎卫冕欧冠!姆巴佩登上热搜太讽刺,恩里克两年前的话字字诛心

巴黎卫冕欧冠!姆巴佩登上热搜太讽刺,恩里克两年前的话字字诛心

小梊搞笑解说
2026-05-31 09:45:45
反转!姜洪涛被判赔堂哥36万,前妻花堂哥不少钱,姜洪涛也要退还

反转!姜洪涛被判赔堂哥36万,前妻花堂哥不少钱,姜洪涛也要退还

汉史趣闻
2026-05-30 13:05:27
不听大陆劝告执意访美,郑丽文人未启程,就遭美方公开敲打!

不听大陆劝告执意访美,郑丽文人未启程,就遭美方公开敲打!

阿伧说事
2026-05-31 01:06:09
特写|黄浦江畔的创作者“大联欢”,共享灵感、好内容和城市机遇

特写|黄浦江畔的创作者“大联欢”,共享灵感、好内容和城市机遇

澎湃新闻
2026-05-31 07:30:28
刘烨儿子正式出道!190cm颜值惊人,网友直呼:混血感,好重。

刘烨儿子正式出道!190cm颜值惊人,网友直呼:混血感,好重。

感觉会火
2026-05-31 12:08:07
暴跌93%,国产葡萄酒崩盘了

暴跌93%,国产葡萄酒崩盘了

毒sir财经
2026-05-30 22:44:12
学术打假风暴:南开大学和中山大学同一天发布通报,免去院长、副院长各一名

学术打假风暴:南开大学和中山大学同一天发布通报,免去院长、副院长各一名

呦呦鹿鸣
2026-05-30 21:59:22
网友请假说明原因,外企领导:隐私、无需说明,评论区感动哭了!

网友请假说明原因,外企领导:隐私、无需说明,评论区感动哭了!

谭谈社会
2026-05-31 11:03:25
张嘉倪已复婚!买超微博仍是张嘉倪老公,疑似张嘉倪为热度假离婚

张嘉倪已复婚!买超微博仍是张嘉倪老公,疑似张嘉倪为热度假离婚

八卦王者
2026-05-31 14:18:47
仅200万元!余承东官宣新尊界S800开启预售后,奇怪的现象出现了

仅200万元!余承东官宣新尊界S800开启预售后,奇怪的现象出现了

春雨说科技
2026-05-30 17:45:12
现场核爆级!7台引擎瞬间成废铁,印度零件坑惨美国登月计划?

现场核爆级!7台引擎瞬间成废铁,印度零件坑惨美国登月计划?

普陀动物世界
2026-05-31 00:41:55
中美对香会都有变化,越南苏林参会很积极

中美对香会都有变化,越南苏林参会很积极

新民周刊
2026-05-31 09:08:09
“你儿子肝脏不要了?”男孩中药配晚餐,吃到干呕家长却无动于衷

“你儿子肝脏不要了?”男孩中药配晚餐,吃到干呕家长却无动于衷

妍妍教育日记
2026-05-29 07:20:09
2026-05-31 16:32:49
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
4206文章数 48关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

美国严厉警告后 德国仍上赶着:将扩大"印太"军事参与

头条要闻

美国严厉警告后 德国仍上赶着:将扩大"印太"军事参与

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

贾玲最新动作!侯明昊给虞书欣抬轿!

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

时尚
本地
房产
手机
公开课

梓渝:慢下来,也很好

本地新闻

用剪纸的方式,打开江苏扬州

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

手机要闻

国产旗舰单品过百万盘点,这个结果意外吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版