处理一份PDF要装几个工具?提取、分块、向量化、存数据库——每个环节都可能踩坑。Kreuzberg和SurrealDB最近搞了个直连方案,把这套流程打包成了一条命令。
这个叫kreuzberg-surrealdb的连接器,本质是文档智能框架Kreuzberg和多模型数据库SurrealDB的硬接线。前者管文档解析,支持88种以上格式,从常见的Word、PDF到各种冷门文档都能处理;后者把文档、图、向量、全文搜索塞进了同一个系统。两者拼在一起,RAG(检索增强生成)的搭建成本被压得很低。
![]()
具体能做什么?文档扔进去,自动走完四步:建表结构、SHA-256去重、入库索引、立即可搜。不用手写schema,不用担心重复导入同一份文件。两种模式对应不同需求——DocumentConnector保留完整文档做BM25关键词检索;DocumentPipeline则走分块路线,生成向量嵌入,用HNSW索引支持语义搜索,还能把两种结果用RRF(Reciprocal Rank Fusion)融合输出。
这解决了一个真实痛点。以前搭文档搜索,得串接PDF解析器、分块工具、向量化服务、向量数据库、搜索引擎,每个接口都要对接调试。现在Kreuzberg处理完直接写进SurrealDB,查询层统一调度关键词和向量两种召回,工程复杂度降了一档。
SurrealDB的定位是"多模型"——不是让你选文档库还是图库还是向量库,而是一份数据多种用法。Kreuzberg的文档解析能力补上了这块拼图里"非结构化数据进库"的缺口。对于想快速验证RAG原型的团队,或者不想维护一堆中间件的小团队,这种预集成有吸引力。
目前文档和示例已上线,覆盖了从基础接入到知识图谱构建的完整路径。SurrealDB的Kreuzberg集成文档里有详细配置步骤,另有一个联合案例演示怎么用这套组合给AI搭知识图谱。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.