
对于当下的开发者而言,现在是一个最好的时代,也是一个最“卷”的时代。一方面,以RAG(检索增强生成)、智能Agent为代表的AI应用浪潮汹涌,仿佛一夜之间,开发者手里就多了一把“创世”的锤子;另一方面,当开发者真正拿起锤子,试图构建应用时,才发现最大的阻碍,竟来自最基础的——数据。
AI开发者的“数据拼装困局
今天,任何一个想做RAG或智能体Agent的开发者,都会面临同一个尴尬现实:工具越先进,数据层越混乱。
例如构建一个企业内部知识库,企业的数据天然是割裂的:员工的HR信息、工单记录在业务数据库(如MySQL、PostgreSQL)里;非结构化的产品文档、PDF、技术手册在对象存储或本地磁盘上;而为了实现语义搜索,还需要将文档向量化后,存入专门的向量数据库(如Milvus、Chroma)。
于是,一个本应极简的AI应用,被迫变成一场跨系统的“数据搬运马拉松”。首先,一个简单的查询要串起三四个系统:先查MySQL过滤结构化数据,再到 Elasticsearch (ES)匹配关键词,最后去向量库做语义相似度Top-K。其次,由于数据割裂,系统无法在单一请求内建立完整的上下文,导致大模型拿到的“养料”残缺不全,推理结果自然难以精准。
更头疼的问题是数据一致性。业务数据在MySQL更新了,向量库的嵌入是否同步更新?ES的索引呢?数据在多个烟囱里流转,一致性、时效性的问题会以指数级复杂度增加。最后,跨系统的数据搬运和多步查询,让实时AI变成奢望。
正如OceanBase CEO杨冰在2025 OceanBase年度发布会上所指出的:“AI 的真正瓶颈不在模型,而在数据。”
当AI应用需要毫秒级响应,需要实时融合结构化交易、非结构化文档与向量画像时,行业需要的不再是低效的拼装,而是一个能在数据源头驱动实时、可信智能的全新底座。为此,11月18日,OceanBase给出了答案——开源AI原生数据库seekdb,试图用“AI Native”来终结开发者的“数据困境”。
![]()
深度拆解:seekdb是什么?
seekdb是一款AI原生、基于Apache 2.0协议的开源数据库。与诸多在原有数据库上打补丁的方案不同,seekdb是面向AI的彻底重构。我们不妨从两个维度来深度拆解seekdb。
首先是极简的开发者体验。
seekdb带给开发者的第一印象是“极简”和“轻量”。官方宣称,开发者仅需三行代码,即可快速构建支持知识库、智能Agent等AI应用。
seekdb彻底打破了“企业级数据库必重型”的刻板印象,仅需1核CPU、2GB内存,支持pip install一键安装、秒级启动,最低资源即可运行。如此的轻量化,让seekdb能轻松嵌入到智能Agent、开发工具链甚至本地应用中。
此外,seekdb以Apache 2.0协议全球开源。在发布会上,官方展示了seekdb 对LangChain、Llamaindex、Dify等30余种主流AI框架的兼容与适配。“开箱即用”的友好度,是seekdb向开发者社区递出的第一张名片。
其次是基于AI原生理念的数据上下文工程重构。
如果说极简是外在,那么一体化就是seekdb的硬核内在。seekdb真正要重构的,是AI应用的数据处理流。
seekdb的核心能力,是在单一数据库中深度融合了标量(结构化数据)、向量、全文检索及空间地理(GIS)数据的能力。此举对开发者意味着,前文提到的系统缝合问题迎刃而解。开发者现在可以通过一条SQL,同步完成“结构化过滤”、“关键词匹配”和“向量语义计算”。
一个在发布会上被重点提及的场景很能说明问题:
以反欺诈场景为例,可毫秒级响应“近7天交易超5万元、位置异常且行为类似历史欺诈样本”的混合搜索。
在上述请求中,“近7天”、“交易超5万元”是结构化数据过滤;“位置异常”可能是空间地理或关键词匹配;而“行为类似历史欺诈样本”则是向量语义计算。在传统架构下,完成该任务需要一个跨多个系统调用的复杂链路。而在seekdb 中,这只是一个混合查询。
更关键的是,seekdb引入了"Document in, Data out"的设计理念。数据进入数据库后,解析、分片、Embedding(向量化)等复杂流程均由数据库内核自动完成。结合内置的AI Function,seekdb形成了一个从存储、索引、检索到推理的一站式闭环。数据不出库,就能在数据源头完成全流程处理,既提升性能,又保障金融、政务等高敏场景下的数据安全。
![]()
![]()
架构对比:seekdb vs. 传统“拼装”方案
seekdb的“AI原生”是否真的优于传统的数据拼装方案?有必要从架构和可量化的收益上进行客观对比。
以PostgreSQL配合pgvector插件及ES的方案为例,该方案是开发者目前最熟悉的选择。但熟悉不代表最优。
首先是架构之痛。pgvector只是一个插件,当数据量和并发量上来时,开发者很快会遇到性能瓶颈。更核心的问题是,向量检索、全文检索和标量查询,在底层是不同的优化路径和存储形态,强行缝合的查询优化器很难做到全局最优。
其次是运维之痛。数据在PG、ES之间需要复杂的ETL或Flink CDC来同步。多一套系统就多一套运维成本,数据延迟、丢失、不一致的风险始终高悬。
最后是成本之痛。系统越复杂,延迟越高。为了“看似”的实时,开发者不得不在数据同步和中间件上投入大量资源,而跨系统调用带来的网络开销和序列化成本,最终都会反映在终端用户的延迟上。
相比之下,seekdb的一体化架构则提供了不同的解法。
seekdb并非拼装,而是基于OceanBase成熟的事务引擎,原生融合多模数据能力。其核心优势在于事务能力保障下的索引实时更新——数据DML(增删改)后,ES索引和向量索引同步生效,彻底消除传统方案中的“不一致窗口”,保证查询结果总是最新的。
原生的混合搜索,意味着优化器从一开始就知道如何最高效地协同处理标量、向量和全文索引。
由此带来了可量化的收益:开发效率得到解放,无需编写“胶水代码”,摆脱复杂数据流;性能上,得以实现百亿级多模数据的混合搜索——发布会数据显示,在10亿级向量检索场景下,OceanBase混合搜索的效率是业内主流全文向量搜索数据库的2倍以上。配合同期开源的PowerMem分层记忆架构,在 LOCOMO Benchmark上以78.70分登顶SOTA,Token消耗较传统方案降低96%。种种举措表明,OceanBase的Data x AI战略是一个组合拳,不但有seekdb负责数据底座的开源AI原生数据库,还有PowerRAG、PowerMem 等混合搜索相关的开源生态组件。
![]()
极简的底气:15 年“硬核工程化”
看到这里,一个问题自然浮现:
一个15年来都在攻坚金融级“高并发、强一致”的数据库厂商,为什么能(或者说,凭什么能)突然做出一个如此“轻量、极简”的AI数据库?
答案或许在于:seekdb的极简,是OceanBase十五年工程化能力的“降维封装”。
“极简”从来不是“简单”,而是将极致的“复杂”封装在内核里。
seekdb的底气,首先来自极端场景的淬炼。OceanBase从诞生的第一天起,面对的就是地球上最严苛的数据库场景——支付宝的核心账务系统,并连续十余年稳定支撑双11。在极端高并发、数据强一致(金融级RPO=0) 场景下淬炼出的稳定性和性能,是OceanBase技术工程能力的“底色”。
其次,是世界级技术的客观背书。技术圈讲究实例,在数据库领域则是TPC测试。OceanBase是全球唯一登顶过“数据库世界杯” TPC-C(事务处理)和 TPC-H(数据分析)两大基准测试纪录的数据库,证明其一体化架构(HTAP)在TP和AP两条线上都具备世界级的性能。最新发布的4.4版本内核,在向量索引 HNSW能上又提升了 32%。
最后,也最核心的,是近乎偏执的工程文化。要理解seekdb,就必须理解 OceanBase团队的工程文化。团队的理念是:“正确性第一,稳定性第二,性能第三”。
为了保障数据绝对可靠,OceanBase选择了最难的路——完全的自主研发。从零开始写代码,自己掌控硬件资源,不依赖操作系统。据称,在 300 万行核心代码中,超过50%是用于内核自检的。
一个在团队内部广为流传的故事,是关于代码规范器(Normalizer)的。在 OceanBase早期版本,创始人阳振坤(正祥)亲笔写下了100多页的C++代码规范,然后团队停下了所有开发任务,花了整整一个月时间,把所有代码过了一遍,只是为了加上“空指针判断”。
在外人看来,此举是一个投入产出比极低的行为。但正是对“正确性”和“稳定性”的偏执信仰,才锻造了OceanBase的工程基因。
所有过往,共同构成了seekdb “极简”的底气。seekdb不是一个初创团队的试验品,而是OceanBase将15年来在分布式、高并发、强一致、HTAP领域积累的复杂工程化能力,“降维”封装成一个轻量级、开源的AI数据库。
![]()
开源、演进与DataAI战略
在发布会上,官方也坦诚地保持了克制,称seekdb仍处于早期版本。
同时,作为OceanBase “Data x AI”战略的关键一环,OceanBase 4.4 一体化融合版本正式发布,该版本首次将TP、AP与AI能力集成于单一内核,兼具分布式扩展、多云部署与金融级高可用,帮助企业避免后期架构重构风险。商用 4.4.2 LTS版本将于2026年2月2日推出。
事实上,OceanBase的混合搜索能力已在行业中落地验证。例如,中国联通基于混合搜索构建了统一AI知识库,有效解决了私有文档的权限管理与高效检索难题;货拉拉利用OceanBase实现了知识库、AI Coding和Agent平台的多合一,RPO降至0。
回归到开发者本身。
seekdb的意义在于:让AI开发回归本质——聚焦AI应用本身的逻辑创新,而非长期身陷冗余的数据拼装和“胶水代码”中。
正如杨冰所说:“未来数据库必须同时服务于‘人’与‘智能体’”。seekdb正是这一理念的实践。它通过开源,通过工程化将企业级AI数据能力进一步简化,推动行业从“胶水式开发”迈向“一站式闭环”。
目前,seekdb已在GitHub开源,新域名oceanbase.ai也已同步启用,全球开发者可免费下载使用。而这场AI时代的数据库范式跃迁,正以一个更轻量、更现代、更易用的开源数据底座形式,呈现在全球开发者面前。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.