网易首页 > 网易号 > 正文 申请入驻

15年硬核工程,换“三行代码”极简:OceanBase开源seekdb深度拆解

0
分享至


对于当下的开发者而言,现在是一个最好的时代,也是一个最“卷”的时代。一方面,以RAG(检索增强生成)、智能Agent为代表的AI应用浪潮汹涌,仿佛一夜之间,开发者手里就多了一把“创世”的锤子;另一方面,当开发者真正拿起锤子,试图构建应用时,才发现最大的阻碍,竟来自最基础的——数据

AI开发者的“数据拼装困局

今天,任何一个想做RAG或智能体Agent的开发者,都会面临同一个尴尬现实:工具越先进,数据层越混乱。

例如构建一个企业内部知识库,企业的数据天然是割裂的:员工的HR信息、工单记录在业务数据库(如MySQL、PostgreSQL)里;非结构化的产品文档、PDF、技术手册在对象存储或本地磁盘上;而为了实现语义搜索,还需要将文档向量化后,存入专门的向量数据库(如Milvus、Chroma)。

于是,一个本应极简的AI应用,被迫变成一场跨系统的“数据搬运马拉松”。首先,一个简单的查询要串起三四个系统:先查MySQL过滤结构化数据,再到 Elasticsearch (ES)匹配关键词,最后去向量库做语义相似度Top-K。其次,由于数据割裂,系统无法在单一请求内建立完整的上下文,导致大模型拿到的“养料”残缺不全,推理结果自然难以精准。

更头疼的问题是数据一致性。业务数据在MySQL更新了,向量库的嵌入是否同步更新?ES的索引呢?数据在多个烟囱里流转,一致性、时效性的问题会以指数级复杂度增加。最后,跨系统的数据搬运和多步查询,让实时AI变成奢望。

正如OceanBase CEO杨冰在2025 OceanBase年度发布会上所指出的:“AI 的真正瓶颈不在模型,而在数据。”

当AI应用需要毫秒级响应,需要实时融合结构化交易、非结构化文档与向量画像时,行业需要的不再是低效的拼装,而是一个能在数据源头驱动实时、可信智能的全新底座。为此,11月18日,OceanBase给出了答案——开源AI原生数据库seekdb试图用“AI Native”来终结开发者的“数据困境”。


深度拆解:seekdb是什么?

seekdb是一款AI原生、基于Apache 2.0协议的开源数据库。与诸多在原有数据库上打补丁的方案不同,seekdb是面向AI的彻底重构。我们不妨从两个维度来深度拆解seekdb。

首先是极简的开发者体验。

seekdb带给开发者的第一印象是“极简”和“轻量”。官方宣称,开发者仅需三行代码,即可快速构建支持知识库、智能Agent等AI应用。

seekdb彻底打破了“企业级数据库必重型”的刻板印象,仅需1核CPU、2GB内存,支持pip install一键安装、秒级启动,最低资源即可运行。如此的轻量化,让seekdb能轻松嵌入到智能Agent、开发工具链甚至本地应用中。

此外,seekdb以Apache 2.0协议全球开源。在发布会上,官方展示了seekdb 对LangChain、Llamaindex、Dify等30余种主流AI框架的兼容与适配。“开箱即用”的友好度,是seekdb向开发者社区递出的第一张名片。

其次是基于AI原生理念的数据上下文工程重构。

如果说极简是外在,那么一体化就是seekdb的硬核内在。seekdb真正要重构的,是AI应用的数据处理流。

seekdb的核心能力,是在单一数据库中深度融合了标量(结构化数据)、向量、全文检索及空间地理(GIS)数据的能力。此举对开发者意味着,前文提到的系统缝合问题迎刃而解。开发者现在可以通过一条SQL,同步完成“结构化过滤”、“关键词匹配”和“向量语义计算”。

一个在发布会上被重点提及的场景很能说明问题:

以反欺诈场景为例,可毫秒级响应“近7天交易超5万元、位置异常且行为类似历史欺诈样本”的混合搜索。

在上述请求中,“近7天”、“交易超5万元”是结构化数据过滤;“位置异常”可能是空间地理或关键词匹配;而“行为类似历史欺诈样本”则是向量语义计算。在传统架构下,完成该任务需要一个跨多个系统调用的复杂链路。而在seekdb 中,这只是一个混合查询。

更关键的是,seekdb引入了"Document in, Data out"的设计理念。数据进入数据库后,解析、分片、Embedding(向量化)等复杂流程均由数据库内核自动完成。结合内置的AI Function,seekdb形成了一个从存储、索引、检索到推理的一站式闭环。数据不出库,就能在数据源头完成全流程处理,既提升性能,又保障金融、政务等高敏场景下的数据安全。



架构对比:seekdb vs. 传统“拼装”方案

seekdb的“AI原生”是否真的优于传统的数据拼装方案?有必要从架构和可量化的收益上进行客观对比。

以PostgreSQL配合pgvector插件及ES的方案为例,该方案是开发者目前最熟悉的选择。但熟悉不代表最优。

首先是架构之痛。pgvector只是一个插件,当数据量和并发量上来时,开发者很快会遇到性能瓶颈。更核心的问题是,向量检索、全文检索和标量查询,在底层是不同的优化路径和存储形态,强行缝合的查询优化器很难做到全局最优。

其次是运维之痛。数据在PG、ES之间需要复杂的ETL或Flink CDC来同步。多一套系统就多一套运维成本,数据延迟、丢失、不一致的风险始终高悬。

最后是成本之痛。系统越复杂,延迟越高。为了“看似”的实时,开发者不得不在数据同步和中间件上投入大量资源,而跨系统调用带来的网络开销和序列化成本,最终都会反映在终端用户的延迟上。

相比之下,seekdb的一体化架构则提供了不同的解法。

seekdb并非拼装,而是基于OceanBase成熟的事务引擎,原生融合多模数据能力。其核心优势在于事务能力保障下的索引实时更新——数据DML(增删改)后,ES索引和向量索引同步生效,彻底消除传统方案中的“不一致窗口”,保证查询结果总是最新的。

原生的混合搜索,意味着优化器从一开始就知道如何最高效地协同处理标量、向量和全文索引。

由此带来了可量化的收益:开发效率得到解放,无需编写“胶水代码”,摆脱复杂数据流;性能上,得以实现百亿级多模数据的混合搜索——发布会数据显示,10亿级向量检索场景下,OceanBase混合搜索的效率是业内主流全文向量搜索数据库2倍以上。配合同期开源的PowerMem分层记忆架构,在 LOCOMO Benchmark上以78.70分登顶SOTA,Token消耗较传统方案降低96%。种种举措表明,OceanBase的Data x AI战略是一个组合拳,不但有seekdb负责数据底座的开源AI原生数据库,还有PowerRAG、PowerMem 等混合搜索相关的开源生态组件。


极简的底气:15 年“硬核工程化”

看到这里,一个问题自然浮现:

一个15年来都在攻坚金融级“高并发、强一致”的数据库厂商,为什么能(或者说,凭什么能)突然做出一个如此“轻量、极简”的AI数据库?

答案或许在于:seekdb的极简,是OceanBase十五年工程化能力的“降维封装”。

“极简”从来不是“简单”,而是将极致的“复杂”封装在内核里。

seekdb的底气,首先来自极端场景的淬炼OceanBase从诞生的第一天起,面对的就是地球上最严苛的数据库场景——支付宝的核心账务系统,并连续十余年稳定支撑双11。在极端高并发、数据强一致(金融级RPO=0) 场景下淬炼出的稳定性和性能,是OceanBase技术工程能力的“底色”。

其次,是世界级技术的客观背书技术圈讲究实例,在数据库领域则是TPC测试。OceanBase是全球唯一登顶过“数据库世界杯” TPC-C(事务处理)和 TPC-H(数据分析)两大基准测试纪录的数据库,证明其一体化架构(HTAP)在TP和AP两条线上都具备世界级的性能。最新发布的4.4版本内核,在向量索引 HNSW能上又提升了 32%。

最后,也最核心的,是近乎偏执的工程文化要理解seekdb,就必须理解 OceanBase团队的工程文化。团队的理念是:正确性第一,稳定性第二,性能第三”。

为了保障数据绝对可靠,OceanBase选择了最难的路——完全的自主研发。从零开始写代码,自己掌控硬件资源,不依赖操作系统。据称,在 300 万行核心代码中,超过50%是用于内核自检的。

一个在团队内部广为流传的故事,是关于代码规范器(Normalizer)的。在 OceanBase早期版本,创始人阳振坤(正祥)亲笔写下了100多页的C++代码规范,然后团队停下了所有开发任务,花了整整一个月时间,把所有代码过了一遍,只是为了加上“空指针判断”。

在外人看来,此举是一个投入产出比极低的行为。但正是对“正确性”和“稳定性”的偏执信仰,才锻造了OceanBase的工程基因。

所有过往,共同构成了seekdb “极简”的底气。seekdb不是一个初创团队的试验品,而是OceanBase将15年来在分布式、高并发、强一致、HTAP领域积累的复杂工程化能力,“降维”封装成一个轻量级、开源的AI数据库。


开源、演进与DataAI战略

在发布会上,官方也坦诚地保持了克制,称seekdb仍处于早期版本。

同时,作为OceanBase “Data x AI”战略的关键一环,OceanBase 4.4 一体化融合版本正式发布,该版本首次将TP、AP与AI能力集成于单一内核,兼具分布式扩展、多云部署与金融级高可用,帮助企业避免后期架构重构风险。商用 4.4.2 LTS版本将于2026年2月2日推出。

事实上,OceanBase的混合搜索能力已在行业中落地验证。例如,中国联通基于混合搜索构建了统一AI知识库,有效解决了私有文档的权限管理与高效检索难题;货拉拉利用OceanBase实现了知识库、AI Coding和Agent平台的多合一,RPO降至0。

回归到开发者本身。

seekdb的意义在于:AI开发回归本质——聚焦AI应用本身逻辑创新,而非长期身陷冗余的数据拼装和“胶水代码”

正如杨冰所说:未来数据库必须同时服务于‘人’与‘智能体’”。seekdb正是这一理念的实践。它通过开源,通过工程化将企业级AI数据能力进一步简化,推动行业从“胶水式开发”迈向“一站式闭环”。

目前,seekdb已在GitHub开源,新域名oceanbase.ai也已同步启用,全球开发者可免费下载使用。而这场AI时代的数据库范式跃迁,正以一个更轻量、更现代、更易用的开源数据底座形式,呈现在全球开发者面前。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高市早苗的闹剧,让日本经济先中了“回旋镖”|京酿馆

高市早苗的闹剧,让日本经济先中了“回旋镖”|京酿馆

新京报
2025-11-20 16:25:01
从9秒83到最后一棒:中国短跑的苏炳添时代,正式落幕!

从9秒83到最后一棒:中国短跑的苏炳添时代,正式落幕!

上观新闻
2025-11-20 21:42:10
突发!罗晋父亲去世,围绕唐嫣的争议已解开,他们的婚姻没问题

突发!罗晋父亲去世,围绕唐嫣的争议已解开,他们的婚姻没问题

裕丰娱间说
2025-11-20 18:50:32
世预赛附加赛抽签:意大利输北爱尔兰就出局!伊拉克赢球=亚洲9队

世预赛附加赛抽签:意大利输北爱尔兰就出局!伊拉克赢球=亚洲9队

念洲
2025-11-20 20:42:46
台湾评论员锐评高市早苗:靠贴耳挽手搞外交没用

台湾评论员锐评高市早苗:靠贴耳挽手搞外交没用

看看新闻Knews
2025-11-20 22:07:10
美国笑不出来了:中国正同时建造两艘航母,第四艘并不是核动力?

美国笑不出来了:中国正同时建造两艘航母,第四艘并不是核动力?

策略述
2025-11-20 16:05:14
大公开!独行侠内斗升级,老板越权介入啊,再见了,浓眉

大公开!独行侠内斗升级,老板越权介入啊,再见了,浓眉

球童无忌
2025-11-19 23:37:27
东南亚最后的大嫂爆火,暗网开出511枚比特币捞人,雇佣兵已前往

东南亚最后的大嫂爆火,暗网开出511枚比特币捞人,雇佣兵已前往

社会酱
2025-11-20 17:43:47
胡彦斌易梦玲恋爱细节曝光!送女方245万手表,王勉成最冤炮灰!

胡彦斌易梦玲恋爱细节曝光!送女方245万手表,王勉成最冤炮灰!

一只番茄鱼
2025-11-20 09:06:50
马斯克的AI聊天机器人Grok发表否认“大屠杀”言论,遭法国调查

马斯克的AI聊天机器人Grok发表否认“大屠杀”言论,遭法国调查

IT之家
2025-11-20 22:25:07
一个奇怪的现象:50岁以后的人,能活到90岁的,基本上50岁的时候,就戒掉了这3件蠢事,尤其是最后一件事!

一个奇怪的现象:50岁以后的人,能活到90岁的,基本上50岁的时候,就戒掉了这3件蠢事,尤其是最后一件事!

东林夕亭
2025-11-19 08:41:35
“穷就别硬装了!”一家三口吃火锅花了217元,父亲心疼钱被群嘲

“穷就别硬装了!”一家三口吃火锅花了217元,父亲心疼钱被群嘲

妍妍教育日记
2025-11-18 19:53:15
张家口警方通报:重型吊车碰撞前方等候信号灯车辆致13伤

张家口警方通报:重型吊车碰撞前方等候信号灯车辆致13伤

界面新闻
2025-11-20 23:36:11
世预赛欧洲区附加赛对阵:意大利好签!首轮避开2苦主+战北爱尔兰

世预赛欧洲区附加赛对阵:意大利好签!首轮避开2苦主+战北爱尔兰

我爱英超
2025-11-20 20:45:15
今夜,跳水!不平静!

今夜,跳水!不平静!

中国基金报
2025-11-20 00:27:57
柬埔寨法院劫囚案,一名记者摸女嫌疑人的脸,被终身禁止从业

柬埔寨法院劫囚案,一名记者摸女嫌疑人的脸,被终身禁止从业

潇湘晨报
2025-11-20 11:26:11
张又侠同俄罗斯国防部长举行会谈

张又侠同俄罗斯国防部长举行会谈

界面新闻
2025-11-20 19:22:34
一顿学生午餐让日本破防: 承认自己弱,很难吗?

一顿学生午餐让日本破防: 承认自己弱,很难吗?

半耳聆
2025-11-20 17:03:17
早就想打!日媒首次爆料:中国双航母出动时日军战机已做战斗准备

早就想打!日媒首次爆料:中国双航母出动时日军战机已做战斗准备

诗意世界
2025-08-21 13:13:50
重要场合见客,双手插兜,毫无教养?律师批外交官,网友彻底怒了

重要场合见客,双手插兜,毫无教养?律师批外交官,网友彻底怒了

刚哥说法365
2025-11-20 19:37:31
2025-11-21 03:19:00
CSDN incentive-icons
CSDN
成就一亿技术人
26115文章数 242186关注度
往期回顾 全部

科技要闻

马云发话了:冲第一

头条要闻

日本政府被判赔偿39亿日元

头条要闻

日本政府被判赔偿39亿日元

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌的每一任都是大美女

财经要闻

揭秘三体公司原CEO许垚投毒杀人案始末

汽车要闻

AI驱动内容营销新纪元 2026网易年度新车总评榜揭晓

态度原创

旅游
亲子
本地
手机
时尚

旅游要闻

旅超大赛!金山主打“免费潮”,周末快来薅羊毛

亲子要闻

又红又肿!佛山3岁幼童被锁孔“咬”手指!家长多留心这些“洞”

本地新闻

卖力整活儿的大湾鸡,靠疯癫成了新顶流

手机要闻

档位最强!荣耀500官宣全系8000mAh青海湖大电池:抖音连刷31小时

全球颜值最高女孩集体掀桌,网友:太爽了

无障碍浏览 进入关怀版