网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

本地混合搜索实战：我用ChromaDB+SQLite重写了邮件搜索

2026-05-12 06:57:38　来源: 赛博兰博

北京举报

0

分享至

「/search budget」——三秒后，18,000封邮件里相关的预算讨论按优先级排好。再补一句「John当时怎么说的？」，七秒后得到带出处的完整回答。全程在我的笔记本上跑，没调任何API。

这是Llamail邮件Agent的第二篇。第一篇讲了整体架构：Gmail接Telegram，n8n调度，FastAPI串起llama.cpp、SQLite和ChromaDB。这次拆底层——/search和/ask到底怎么工作的。

纯语义搜索的问题很典型：它懂「预算」的意思，但你要找「john@acme.com发的发票编号INV-2024-003」，它可能返回一堆 vaguely 关于发票的邮件，偏偏漏掉那封。纯关键词搜索反过来：FTS5对精确词项很强，但「budget」「financials」「spending plan」「Q2 numbers」在它眼里是四个毫不相关的词。

我的解法：每份查询同时进ChromaDB做语义检索、进SQLite FTS5做关键词检索，再用一个极小的加权函数合并结果。思路接近RRF（Reciprocal Rank Fusion），但我做的是归一化分数合并而非倒数排名，实现更简单。18,000+邮件的邮箱里，搜索约3秒，完整RAG问答约7秒。

从Telegram端看，/search只走检索流程；/ask同样检索，但要把Top结果塞进受控上下文，再调一轮LLM。两者都不花哨，能用的关键在于检索本身是混合的——语义负责「意思」，关键词负责「精确」。

两种单模式搜索的失败模式都很 predictable。语义搜索会把邮件地址、发票号、项目代码这些关键标识「模糊」掉；关键词搜索则对概念变体和高层问题束手无策，除非原文原句躺在邮箱里。下一篇会展开讲RRF的完整实现。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

拒绝盲目猜token，阿里x浙大将投机解码带入弹性预算时代

机器之心Pro 2026-05-13 13:39:40
0 跟贴 0
刚刚，微信聊天记录能喂给AI了！我让它爬楼、砍价、整理信息

智东西 2026-05-13 15:48:56
3 跟贴 3

这届网民，唯恐失去最后的“数字喘息空间”

经济观察报 2026-05-13 15:26:33
0 跟贴 0

晋升最快的工程师，都在干同一件事

摸鱼算法 2026-05-09 08:39:41
2 跟贴 2
ChatGPT、豆包集体翻车：AI没有价值观，只有「求生欲」

雷科技 2026-05-11 21:18:29
406 跟贴 406

烧烤店将排烟管对隔壁直吹邻居提议自费帮其改造遭拒店主：他说不想让我占地

荔枝新闻 2026-05-13 04:35:09
485 跟贴 485

博士80小时熬夜改代码，Codex 2小时交卷！科研奇点来了

新智元 2026-05-13 18:29:57
0 跟贴 0
别再把长文切碎了，HiLight让AI直接在原文里划重点

机器之心Pro 2026-05-11 10:39:41
0 跟贴 0

公司斥巨资挖来的程序员，老板都不敢惹她，直到有幸看到她的技术

陌陌说时尚 2026-05-09 09:48:18
8 跟贴 8
“这是一次我们从未见过的大变革”，李彦宏称“代码正在变得不值钱”

红星资本局 2026-05-13 16:42:26
70 跟贴 70
那个催了我3个月的仪表盘，他打开过2次

全栈遛狗员 2026-05-09 23:57:11
0 跟贴 0
一个人干了24年，什么留了下来

Ping值焦虑 2026-05-12 08:55:22
0 跟贴 0
中方对无核武国家鼓吹拥核言论表示关切

环球网资讯 2026-05-13 07:54:25
14383 跟贴 14383
Laravel多表导出Excel：一个被忽视的内存优化技巧

碳基打工人 2026-05-11 10:37:31
0 跟贴 0
澳洲放羊大叔引爆AI编程革命！Claude Code急推goal模式，不干完不许停

新智元 2026-05-13 18:31:06
89 跟贴 89
一个不会写代码的中年男人，用一周业余时间手搓一个 APP

朱常在 2026-05-12 22:38:06
0 跟贴 0
太牛了！这个WPS多维表格，第一批用上的人已经赢麻了！

秋叶PPT 2026-05-12 08:22:22
0 跟贴 0
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
龙虾军团有了最强「视力」！一眼看图直接写代码-1

机器之心Pro 2026-04-02 16:56:32
0 跟贴 0
种田党狂喜：Build A Ring Farm 五月兑换码来了

峡谷一级保护废物 2026-05-13 19:47:58
0 跟贴 0
《国家危险废物名录（2025年版）》vs《2021年版》核心修订对照表

崇州生态环境 2026-05-13 19:35:54
0 跟贴 0
Valve后台代码泄露：Steam Machine四款套装曝光，严苛防黄牛机制护航客厅生态

TechWeb 2026-05-13 09:35:13
0 跟贴 0
AI导演赢麻了两行代码“缝补”一生遗憾人类真要集体失业？

网易科技态度见闻 2026-05-11 18:11:04
0 跟贴 0
前线魔改！乌克兰普通工程车变身障碍铺设利器，实战效果显著

北山战史 2026-05-09 20:27:32
1 跟贴 1
豆包收费了！大模型将告别免费时代？有何考量？

大象新闻 2026-05-13 10:26:14
5662 跟贴 5662
美日菲导弹南海挑衅，解放军24小时内红旗9B实战回应

春晓暖语声 2026-05-13 01:40:49
0 跟贴 0
191高考数学北京卷 6 函数不等式的解集

我服子佩 2026-05-13 14:23:10
3 跟贴 3
查重工具如何快速找出多份文档的重复内容？

火眼测评 2026-05-11 11:24:41
4 跟贴 4
30B参数超越GPT-5！REDSearcher让深度搜索Agent做到低成本可扩展

机器之心Pro 2026-03-09 13:28:51
0 跟贴 0
LOL迎来史诗级改动，GEN被削废T1获利！GEN老板：为谁改的版本？

暴龙电竞号 2026-05-13 22:31:03
2 跟贴 2
U17国足胜卡塔尔惊险晋级亚洲杯淘汰赛，中国足球时隔21年重返世界大赛

文汇报 2026-05-13 07:48:10
1839 跟贴 1839
终于来了！DeepSeek灰度测试聊天记录搜索功能，非常实用

雷科技 2026-05-12 18:37:44
13 跟贴 13
丁太升狠评王菲新歌《主角》太难听！直言王菲嗓音已经不受控!

乐圈Music 2026-05-12 14:09:27
82 跟贴 82
快手OneSearch-V2全量上线，生成式搜索进入「懂你」时代

机器之心Pro 2026-05-13 18:45:51
0 跟贴 0
挑战扩散自回归！字节提出视觉生成第三种路线，让模型边画边改

量子位 2026-05-13 21:52:31
0 跟贴 0
国际足联连夜开会，第三次降价通知发到央视邮箱时，编辑部都笑了

ulu秋名山 2026-05-11 08:51:15
1 跟贴 1
前线炮兵真实生活场景，捷克DITA自行榴弹炮实战解析

北山战史 2026-05-13 20:04:45
1 跟贴 1
九寨沟将实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

上游新闻 2026-05-11 15:40:24
3112 跟贴 3112
法国新法落地：归还 “260万被抢文物”有多艰难？｜重建现场

新京报动新闻 2026-05-11 01:46:32
907 跟贴 907
900V高压架构+6C麒麟电池新款极氪009值得期待吗？

天天汽车 2026-05-13 19:39:35
0 跟贴 0

放弃最后幻想！朝鲜宪法迎来大变，若遭遇“斩首”核弹即刻升空

放弃最后幻想！朝鲜宪法迎来大变，若遭遇“斩首”核弹即刻升空

自己撑起一片天

2026-05-12 23:17:02

消费者称厕所漏水在啄木鸟平台上申请维修，因不同意维修方案，拒修后被收500元检测费

消费者称厕所漏水在啄木鸟平台上申请维修，因不同意维修方案，拒修后被收500元检测费

山西经济日报

2026-05-12 15:19:36

转账5千要查祖宗，内鬼卷走1800万却一路绿灯！银行双标太离谱了

转账5千要查祖宗，内鬼卷走1800万却一路绿灯！银行双标太离谱了

今朝牛马

2026-05-06 21:00:56

刘基死后不久，胡惟庸随即全族被杀，朱元璋：他毒杀了刘伯温

刘基死后不久，胡惟庸随即全族被杀，朱元璋：他毒杀了刘伯温

史笔似尘钩

2026-04-09 18:20:30

惊爆！西城全区派位6010人！实验华女十三分引爆“王炸”！

惊爆！西城全区派位6010人！实验华女十三分引爆“王炸”！

京城教育圈

2026-05-13 18:09:21

“典型的城乡结合部审美”，女老师晒工作穿搭，被嘲：土得掉渣

“典型的城乡结合部审美”，女老师晒工作穿搭，被嘲：土得掉渣

世界圈

2026-03-30 11:29:01

法院判了！山东一教师让学生在走廊补课半小时，被家长诉赔9.6万！

法院判了！山东一教师让学生在走廊补课半小时，被家长诉赔9.6万！

山东教育

2026-05-13 12:21:19

Arm CEO预测：CPU必将超越GPU

Arm CEO预测：CPU必将超越GPU

半导体行业观察

2026-05-13 08:55:36

今日最惨股，8个跌停后还有近500万封单，37万股东深度被套！

今日最惨股，8个跌停后还有近500万封单，37万股东深度被套！

丁丁鲤史纪

2026-05-13 18:28:38

时隔8年，特朗普再度访华！这次他要的，能带走吗？

时隔8年，特朗普再度访华！这次他要的，能带走吗？

柏年说政经

2026-05-13 18:24:10

我故意在家里跑两套Wi-Fi，不只是为了安全

我故意在家里跑两套Wi-Fi，不只是为了安全

我是一个养虾人

2026-05-12 07:36:25

马琳公开点评队内五名主力：孙颖莎扛旗、蒯曼翻车、王曼昱伤病

马琳公开点评队内五名主力：孙颖莎扛旗、蒯曼翻车、王曼昱伤病

云隐南山

2026-05-13 18:06:34

5月，遇到这碱性水果，买它20斤，晒干囤起来，从夏天吃到秋天

5月，遇到这碱性水果，买它20斤，晒干囤起来，从夏天吃到秋天

阿龙美食记

2026-05-11 09:18:41

爱德华兹不再狂言，麦丹罕见破防，森林狼这次真绝望了

爱德华兹不再狂言，麦丹罕见破防，森林狼这次真绝望了

兵哥篮球故事

2026-05-13 20:03:06

情报显示伊朗仍保留七成导弹水平，美国战争成本已达290亿美元

情报显示伊朗仍保留七成导弹水平，美国战争成本已达290亿美元

澎湃新闻

2026-05-13 13:28:27

美国不要的，中国也坚决不要！

隔壁董小姐

2026-05-11 07:52:20

给最近热播的国剧排个名，蜜语纪第2、佳偶天成第7、第一名杀疯了

给最近热播的国剧排个名，蜜语纪第2、佳偶天成第7、第一名杀疯了

顶流八卦大明星

2026-05-13 20:28:03

国际乒联主席提条件：樊振东可以参加2028奥运会，但有个前提

国际乒联主席提条件：樊振东可以参加2028奥运会，但有个前提

三十年莱斯特城球迷

2025-12-16 23:09:38

切尔西新帅最大热门锁定！点名挖角皇马核心，8600 万就能撬走？

切尔西新帅最大热门锁定！点名挖角皇马核心，8600 万就能撬走？

奶盖熊本熊

2026-05-14 00:40:44

英如镝直播怒斥巴图：改名宋骁，半年不回私信想当大伯？

英如镝直播怒斥巴图：改名宋骁，半年不回私信想当大伯？

陈意小可爱

2026-05-12 09:28:38

专注捣鼓AI效率工具，试图在这个时代留下数字分身的探索者。

2606文章数 28关注度

往期回顾全部

科技要闻

阿里年营收首破万亿，AI终于不再是画大饼

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割法院判了

体育要闻

14年半，74万，何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉，网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑吉利银河"TT"申报图来了

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

艺术

数码

本地

公开课

亲子要闻

去最需要的地方！安慧霞远赴高原幼教帮扶：夜晚吸氧白天授课

艺术要闻

规划中的成都第三高楼，从396米降到250米以下？

数码要闻

徕芬智能卷发棒Styler发布，499元

本地新闻

用苏绣的方式，打开江西婺源

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版