88种文档格式一键入库，这个组合让RAG搭建变简单了|向量|索引

88种文档格式一键入库，这个组合让RAG搭建变简单了

2026-05-13 08:58:08　来源: 像素与芯片

北京举报

分享至

处理一份PDF要装几个工具？提取、分块、向量化、存数据库——每个环节都可能踩坑。Kreuzberg和SurrealDB最近搞了个直连方案，把这套流程打包成了一条命令。

这个叫kreuzberg-surrealdb的连接器，本质是文档智能框架Kreuzberg和多模型数据库SurrealDB的硬接线。前者管文档解析，支持88种以上格式，从常见的Word、PDF到各种冷门文档都能处理；后者把文档、图、向量、全文搜索塞进了同一个系统。两者拼在一起，RAG（检索增强生成）的搭建成本被压得很低。

具体能做什么？文档扔进去，自动走完四步：建表结构、SHA-256去重、入库索引、立即可搜。不用手写schema，不用担心重复导入同一份文件。两种模式对应不同需求——DocumentConnector保留完整文档做BM25关键词检索；DocumentPipeline则走分块路线，生成向量嵌入，用HNSW索引支持语义搜索，还能把两种结果用RRF（Reciprocal Rank Fusion）融合输出。

这解决了一个真实痛点。以前搭文档搜索，得串接PDF解析器、分块工具、向量化服务、向量数据库、搜索引擎，每个接口都要对接调试。现在Kreuzberg处理完直接写进SurrealDB，查询层统一调度关键词和向量两种召回，工程复杂度降了一档。

SurrealDB的定位是"多模型"——不是让你选文档库还是图库还是向量库，而是一份数据多种用法。Kreuzberg的文档解析能力补上了这块拼图里"非结构化数据进库"的缺口。对于想快速验证RAG原型的团队，或者不想维护一堆中间件的小团队，这种预集成有吸引力。

目前文档和示例已上线，覆盖了从基础接入到知识图谱构建的完整路径。SurrealDB的Kreuzberg集成文档里有详细配置步骤，另有一个联合案例演示怎么用这套组合给AI搭知识图谱。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.