网易首页 > 网易号 > 正文 申请入驻

7.7倍差距实测:RAG系统用错模型,答案质量直接崩盘

0
分享至

一位工程师把120篇arXiv论文喂给AI,发现选错嵌入模型,答案质量能差出近8倍。这不是论文里的理论推测,是他一行行代码测出来的。

他用三种Transformer嵌入模型对比传统BM25检索,在真实问答场景里跑分。结果最差的组合几乎没法用,最好的能精准定位到段落。7.7倍——这个数字让团队重新评估了整个技术栈。

120篇论文的"压力测试"

项目起点很务实:做一个能读懂学术文献的语义研究助手。不是聊天机器人那种泛泛而谈,要能回答具体的技术问题,比如"这篇论文的方法在多大样本上验证过"或者"对比实验用了什么基线模型"。

数据源是arXiv的机器学习论文,120篇,涵盖Transformer架构、优化方法和评估指标。每篇论文被切成语义块,建立可检索的知识库。但关键决策来了:用什么模型把文本变成向量?

候选名单有三位:all-MiniLM-L6-v2(轻量型)、all-mpnet-base-v2(平衡型)、BAAI/bge-large-en(专用型)。对照组是BM25,这种基于词频的传统检索已经用了几十年。

测试方法很"产品经理":不做抽象指标,直接看答案能不能用。工程师设计了一组真实会问的问题,比如"哪篇论文提出了用对比学习改进句子嵌入",然后看系统能不能召回正确的论文片段。

7.7倍差距从哪来

结果让团队沉默了。all-MiniLM-L6-v2在某些问题上表现尚可,但遇到专业术语密集或表述变体多的查询,召回率断崖下跌。BAAI/bge-large-en则稳得多,尤其在需要理解"对比学习"和"contrastive learning"是同一回事时。

BM25的表现最尴尬。它不懂"transformer"和"attention mechanism"的关联,只会数词频。当用户问"自注意力机制的改进版本",它可能漏掉标题里有"transformer"但正文才讲attention的论文。

量化后的差距:最佳与最差配置的答案质量评分相差7.7倍。这个数字是综合召回准确率、答案相关性和人工判断得出的。工程师在博客中写道,「第一次看到对比结果时,我怀疑是不是代码写错了。」

但代码没错。错的是假设——假设"有个嵌入模型就行",没意识到不同模型在特定领域的天壤之别。

生产环境的隐藏成本

选型不只是准确率的事。all-MiniLM-L6-v2的优势是快,CPU上就能跑,延迟低。BAAI/bge-large-en需要GPU,向量维度更高,存储成本翻倍。

团队最终选了混合策略:先用轻量模型做粗筛,再用重模型精排。这样把7.7倍的差距"变现"为成本可控的方案,而不是盲目追求顶配。

另一个坑是文本切分。论文不是网页文章,公式、表格、引用混排,按固定字数切会把一个定理切成两半。工程师试了按段落切、按章节切、按语义边界切,最后发现结合LaTeX结构标记效果最好。

这些细节不会出现在模型评测榜单上,但决定了生产系统能不能用。

RAG的"最后一公里"困境

这个项目暴露了一个行业现状:RAG(检索增强生成,Retrieval-Augmented Generation)的概念很热,但落地时大家都在重新发明轮子。向量数据库选型、嵌入模型微调、重排序策略、提示工程——每个环节都有10种选择,组合起来就是指数级复杂度。

工程师开源了他的测试框架和Streamlit演示。不是完整产品,是一个可复现的基准。他说,「我希望别人不用从头踩一遍我踩过的坑。」

演示里有个细节:同一个问题,切换不同模型,答案从"这篇论文没提到"变成"Smith et al. (2022) 在第三章提出的方法..."。7.7倍的差距,用户体感就是"这AI懂不懂行"的区别。

项目代码和120篇论文的处理流程已公开。如果你也在做文档问答系统,你会优先测准确率还是优先保延迟?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梦龙广告引争议,芭蕾鞋元素被指恋足暗示,创意还是低俗?

梦龙广告引争议,芭蕾鞋元素被指恋足暗示,创意还是低俗?

凤凰网财经
2026-04-13 15:04:13
补齐中国空军短板!国产运-30首飞,外媒:或打破美国60年垄断

补齐中国空军短板!国产运-30首飞,外媒:或打破美国60年垄断

大卫聊科技
2026-04-13 13:13:24
匈牙利总理一夜换人,欧尔班下课将引发哪些震动?

匈牙利总理一夜换人,欧尔班下课将引发哪些震动?

新民周刊
2026-04-13 11:41:18
安平逝世,享年65岁

安平逝世,享年65岁

南方都市报
2026-04-13 19:26:27
约基奇场均29+13+10刷爆历史,NBA用了78年等来第一个三冠王

约基奇场均29+13+10刷爆历史,NBA用了78年等来第一个三冠王

体坛观察猿
2026-04-13 15:02:31
净利大增2000%股价却不到10元!主力悄悄建仓,速看

净利大增2000%股价却不到10元!主力悄悄建仓,速看

慧眼看世界哈哈
2026-04-13 13:25:56
重庆:坚决拥护党中央决定

重庆:坚决拥护党中央决定

农民日报
2026-04-13 20:18:04
5场演唱会同日开!不愧是广州

5场演唱会同日开!不愧是广州

广东发布
2026-04-13 15:06:50
马斯克版微信来了!中国用户可直接下载 网友:Logo亮了

马斯克版微信来了!中国用户可直接下载 网友:Logo亮了

快科技
2026-04-13 19:07:04
美国中央司令部修复了特朗普的“封锁令bug”

美国中央司令部修复了特朗普的“封锁令bug”

凤眼论
2026-04-13 09:50:25
今晚10点全线封锁伊朗!特朗普转身威胁中国:就怕中国忍无可忍

今晚10点全线封锁伊朗!特朗普转身威胁中国:就怕中国忍无可忍

楼苏州
2026-04-13 17:28:52
美媒:美军公布海上封锁伊朗计划细节

美媒:美军公布海上封锁伊朗计划细节

参考消息
2026-04-13 14:32:07
欧尔班时代结束,匈牙利选出新总理,对华态度曝光,最大赢家浮现

欧尔班时代结束,匈牙利选出新总理,对华态度曝光,最大赢家浮现

军机Talk
2026-04-13 13:51:25
2026年车企“最惨”开局:一季度的目标完成度,几乎都低于20%

2026年车企“最惨”开局:一季度的目标完成度,几乎都低于20%

互联网.乱侃秀
2026-04-12 11:33:02
可绕过弹劾直接罢免特朗普,万斯已经公开翻脸,将提前夺权?

可绕过弹劾直接罢免特朗普,万斯已经公开翻脸,将提前夺权?

清衣渡a
2026-04-13 12:02:37
8.03亿欧!若热刺降级将打破英超降级球队最高德转身价纪录

8.03亿欧!若热刺降级将打破英超降级球队最高德转身价纪录

懂球帝
2026-04-13 19:39:06
闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

火山詩话
2026-04-11 08:55:49
4月13日俄乌最新:可以提前庆祝了

4月13日俄乌最新:可以提前庆祝了

西楼饮月
2026-04-13 20:06:25
雷军发文:西班牙首相桑切斯今天中午到访小米总部,试用小米17 Ultra并拉我一起自拍,试乘YU7后对天际屏好评很高

雷军发文:西班牙首相桑切斯今天中午到访小米总部,试用小米17 Ultra并拉我一起自拍,试乘YU7后对天际屏好评很高

鲁中晨报
2026-04-13 17:20:12
31岁美女张筱雨去世,刚生完孩子仅1个月,妈妈悲痛透露原因

31岁美女张筱雨去世,刚生完孩子仅1个月,妈妈悲痛透露原因

180视角
2026-04-13 11:01:45
2026-04-13 21:47:00
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
1358文章数 15关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

美官员:美军已在中东大规模部署 能确保切断港口交通

头条要闻

美官员:美军已在中东大规模部署 能确保切断港口交通

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

今夜,出大事了,3种结果

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

教育
游戏
旅游
数码
公开课

教育要闻

燕子飞时 | 麦田团队动态20260413期

EWC电竞世界杯: LPL的仇,EWC报!JDG三局击败BLG

旅游要闻

江津这条藏在綦江边的老街,不热闹不商业,却很耐看,慢慢走刚刚好

数码要闻

真相大白!三星显示器退出中国市场,不是不想做,而是做不下去了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版