网易首页 > 网易号 > 正文 申请入驻

我们为什么要做 Lakebase?

0
分享至

编者按

6 月 29 日,OceanBase Hours 线上发布会举行,OceanBase 面向湖库一体的 AI 数据库正式发布,OceanBase AI 产品家族亮相。

在这套体系中,OceanBase Lakebase 是 OceanBase AI 数据库的核心引擎。其承载湖库一体与多模态数据能力,让结构化数据、非结构化数据和向量数据能够在统一架构中被管理、加工、检索和调用。

为何要构建 OceanBase Lakebase?其底层技术逻辑是怎样的?又适用于哪些实际业务场景?本文将深入探讨这些问题。

作者 | OceanBase 产品总经理韩富晟

全文共 2492 字,阅读约需 4 分钟


OceanBase 产品总经理韩富晟


企业数据系统的游戏规则,正在被 AI 能力重新定义。

过去几十年,数据库的核心职责是管理结构化数据。交易、订单、账户、财务,这些数据以表的形式被组织和查询,支撑了企业最关键的业务系统。

但随着 AI 技术的发展,文本、图片、音频、视频等多模态数据不断进入业务系统,并从“附件”转变为可被理解、分析和利用的核心资产,开始支撑新的业务场景。

企业并不缺数据。数据湖存储原始数据,数据库支撑交易,数仓服务分析,但在 AI 场景下,这套分散的架构很难支撑对多模态数据的统一处理和理解。AI 应用要更好地理解业务,需要的是一个能把结构化数据与多模态数据连接起来、并通过 AI 能力进行处理和挖掘的新底座

这也是我们发布 OceanBase Lakebase 的原因。



我们把 OceanBase Lakebase 定义为面向 AI 业务场景的湖库一体数据底座

它不是新的数据湖,也不是把数据库能力做一次横向扩展,而是希望在 AI 时代,重新思考企业数据应该如何被存储、管理、计算和搜索。

OceanBase Lakebase 的核心逻辑很直接:让多模态数据获得和结构化数据一样重要的管理能力

过去,非结构化数据虽然可以被存下来,但要真正用起来并不容易。文档、图片、视频、音频散落在不同系统里,缺少统一元数据、统一索引、统一计算和统一搜索能力。很多企业明明有大量高价值数据,但业务人员和 AI 应用很难高效使用。

OceanBase Lakebase 要解决的,就是这个问题。


首先,文本、图片、音视频等数据可以被统一接入和处理。对于 AI 应用来说,这意味着更多原本沉睡的数据可以被重新激活。

为了实现这一点,我们选择了湖库一体的架构。湖的开放性很重要,因为 AI 场景需要处理海量、多类型、开放格式的数据;库的管理能力同样重要,因为企业级应用需要稳定性、治理能力、权限控制和可靠的数据服务。我们希望把这两类能力真正结合起来,而不是停留在接口层面的拼接。

在这个架构之上,是更加开放和多样的使用方式。AI 场景里的计算方式非常多样,不可能只依赖单一计算模型,所以 OceanBase Lakebase 支持 SQL、Spark、Daft 等多种计算方式,让数据开发、算法工程和业务分析都能以适合自己的方式使用数据。

搜索方式也同样需要融合。用户既需要关键词搜索,也需要向量搜索,还需要结合结构化字段进行精准筛选。我们希望把这些能力统一起来,让用户可以同时按语义、按关键词、按业务条件去找到真正需要的数据。

此外,未来使用数据的不只是人,也会有越来越多智能体。到了 Agent 时代,数据不只是被人查询,也会被智能体持续调用。Agent 需要的不只是知识库,而是实时上下文、长期记忆、业务状态、行动记录,以及可隔离、可回滚的数据环境。

OceanBase Lakebase 要做的,是让这些数据能力成为 AI 应用可以稳定调用的基础设施,提供标准化接口和工具能力,让 AI Agent 能够更容易理解和调用企业数据。


作为企业级的数据基座,我们非常清楚很多客户内部已经有运行了很长时间的数据系统,这些系统承载着企业大量的历史数据资产。所以OceanBase Lakebase 在设计上并不要求客户推倒重来,也不要求把所有数据都迁移进来之后才能使用。

我们为 OceanBase Lakebase 设计了两种部署模式:

  • 独立部署模式, 适合全新的业务场景。如果用户面对一个新的 AI 应用场景,可以搭建一套全新的端到端基础设施,OceanBase Lakebase 能以较小的初始资源快速拉起一套系统,面向新场景提供包括存储和计算在内的所有能力。

  • 智能叠加层模式,适合需要复用已有存储和数据资产的场景。比如客户已经在数据湖里沉淀了大量数据,OceanBase Lakebase 可以和已有系统并行运行,通过数据连接把客户已有系统中的数据和自身管理的新数据有机结合起来,向上层应用提供一致性的访问界面。

简单来说,新业务可以快速建设,老系统可以平滑增强。用户根据实际场景灵活选择。


智驾企业每天都会从工程车、测试车采集大量视频、图像、传感器、GPS 等数据。真正的问题不是数据存不下来,而是如何从这些海量数据中快速找到有价值的片段。

比如极端工况、碰撞风险、异常道路、恶劣天气,这些对模型训练非常关键,但如果依赖人工筛选,链路会非常长,效率也很低。

OceanBaseLakebase 在这个场景的核心价值是:让数据存得下、算得动、用得起。

它在这里要做的是,把视频和多模态数据变成可处理、可搜索的数据资产。系统支持视频拆分、事件切片、关键帧抽取、场景识别和特征向量化,再结合向量搜索、结构化查询和多模搜索,让业务团队从海量行车数据中快速找到需要的样本。

对于智驾企业来说,OceanBase Lakebase 不只是一个存储系统,而是支撑模型持续迭代的数据底座。它帮助客户把海量行车数据变成训练样本和测试样本,降低数据准备成本,加速模型迭代。



证券类企业并不是没有数据,恰恰相反,它们的数据非常丰富。既有行情、交易、财务、客户等结构化数据,也有研报、公告、制度文件、新闻舆情等非结构化数据。真正的挑战在于,这些数据类型复杂,加工难度大,整合效率不高。

OceanBase Lakebase 在这个场景中,可以作为多种类型数据的处理与服务中枢。它可以统一对接多类异构数据源,并对研报、公告、制度文件等内容进行智能解析、语义理解和内容提取,建立索引。

比如在报告智能化解析场景中,系统可以对研报、行业报告、公司研究报告进行自动解析,提取标题、摘要、标签、行业、证券信息和研究机构等关键内容,让投研资料更容易沉淀和复用。在制度文件管理场景中,它可以对监管制度、合规文件、反洗钱相关文件进行分类、识别、摘要和标签提取,支撑后续的制度检索和合规问答。


单纯的交易型数据库,无法完整覆盖多模态数据处理需求;单纯的数据湖,也很难满足企业级管理、搜索和服务化要求。

AI 时代需要的是一个新的湖库一体数据底座,既能管好结构化数据,也能处理多模态数据;既能面向人提供分析能力,也能面向 Agent 提供可调用的数据能力。

过去 OceanBase 已经形成了完善的数据库产品体系,支撑了大量客户核心系统的稳定运行。在这个基础上,面向 AI 时代新的数据处理需求,我们进一步构建了以 OceanBase Lakebase 为核心的 AI 数据库。

从一体化数据库到 AI 湖库,我们希望既能支撑好企业核心系统的稳定运行,又能支撑好 AI 场景下新应用的快速落地。

Lakebase 是 OceanBase 面向这个方向迈出的一步。我们希望通过 Lakebase,帮助企业把分散的数据接进来、管理好、处理好、搜索到,并最终服务于 AI 应用和业务创新

这条路一定会有很多技术同行者,也一定还有大量工程问题需要持续解决。但方向是清楚的:未来企业的数据基础设施,必须能够同时理解结构化逻辑和非结构化语义。

OceanBase 希望在这个方向上,和客户一起把底座做深,把场景做实。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
省信访局党组书记、局长兼省委社会工作部副部长孙繁柏讲授“七一”专题党课

省信访局党组书记、局长兼省委社会工作部副部长孙繁柏讲授“七一”专题党课

娱乐的宅急便
2026-07-03 10:32:24
詹姆斯离队,布朗尼直接退役!NBA评论员离谱言论引争议

詹姆斯离队,布朗尼直接退役!NBA评论员离谱言论引争议

夜白侃球
2026-07-04 22:49:18
美国和伊朗猝不及防!打完仗发现,沙特千亿资本疯狂投往中国!

美国和伊朗猝不及防!打完仗发现,沙特千亿资本疯狂投往中国!

飘逸语人
2026-07-04 14:24:35
格局窄到离谱!伊朗连国葬都拿来攻讦邻国,这波操作实在难看

格局窄到离谱!伊朗连国葬都拿来攻讦邻国,这波操作实在难看

老马拉车莫少装
2026-07-04 10:26:26
伊朗任命革命卫队海军司令

伊朗任命革命卫队海军司令

极目新闻
2026-07-04 23:04:20
年入1亿,男色经济靠“擦边”收割中年富婆

年入1亿,男色经济靠“擦边”收割中年富婆

毒sir财经
2026-07-03 23:15:03
苹果6款新品上架,真的有点猛啊

苹果6款新品上架,真的有点猛啊

科技堡垒
2026-07-03 10:48:54
2026美加墨世界杯:16进8比赛前瞻

2026美加墨世界杯:16进8比赛前瞻

兴烘掀
2026-07-04 12:36:37
给泰山安装刀片刺网,在古代要被砍头

给泰山安装刀片刺网,在古代要被砍头

黔有虎
2026-07-03 16:49:25
伊朗军队泣不成声,惧怕美以都被炸死了,现在都是不怕美以的

伊朗军队泣不成声,惧怕美以都被炸死了,现在都是不怕美以的

农夫史记
2026-07-04 21:11:19
广东佛山新高铁站首日客流仅4000,50亿砸下去到底能否回本?

广东佛山新高铁站首日客流仅4000,50亿砸下去到底能否回本?

奇思妙想生活家
2026-07-04 21:00:48
高盛预测:未来10年,房地产在中国居民总资产中占比从52%降至42%

高盛预测:未来10年,房地产在中国居民总资产中占比从52%降至42%

专业聊房君
2026-07-02 18:08:07
白鹿打戏被抠图惹非议,连累丞磊遭扒皮,某男星被曝耍大牌

白鹿打戏被抠图惹非议,连累丞磊遭扒皮,某男星被曝耍大牌

一盅情怀
2026-07-04 17:37:46
世界杯最终排名第17-32:荷兰17 德国18 日本21亚洲最高 佛得角32

世界杯最终排名第17-32:荷兰17 德国18 日本21亚洲最高 佛得角32

画夕
2026-07-04 19:17:09
存款达到这个数,你的家就算稳了!2026年最新家庭安全感自查表

存款达到这个数,你的家就算稳了!2026年最新家庭安全感自查表

白浅娱乐聊
2026-07-04 21:05:39
再见了成龙,再见了李连杰,再见了甄子丹!中国动作片迎来新时代

再见了成龙,再见了李连杰,再见了甄子丹!中国动作片迎来新时代

皮皮电影
2026-07-04 12:58:29
霉霉纽约大婚!2000万美元世纪婚礼曝光,明星齐聚,特朗普曾祝福

霉霉纽约大婚!2000万美元世纪婚礼曝光,明星齐聚,特朗普曾祝福

不似少年游
2026-07-04 19:14:23
又来,冯德莱恩给中方“下最后通牒”

又来,冯德莱恩给中方“下最后通牒”

观察者网
2026-07-04 13:24:18
佛得角后卫卡布拉尔:我不敢相信自己能进个这么精彩的球

佛得角后卫卡布拉尔:我不敢相信自己能进个这么精彩的球

懂球帝
2026-07-04 16:08:33
“毕设作品快递中破损”新进展:当事人称快递公司愿意全额赔偿,但要求退回雕塑丨云投诉

“毕设作品快递中破损”新进展:当事人称快递公司愿意全额赔偿,但要求退回雕塑丨云投诉

封面新闻
2026-07-04 20:29:06
2026-07-04 23:44:49
呼呼历史论
呼呼历史论
分享有趣的历史
778文章数 17407关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
教育
时尚
游戏
军事航空

家居要闻

传奇筑 日常诗

教育要闻

UCAS补录全攻略:clearing其实是速度和信息差之战!

别再说"露肩衣服 "难驾驭!看看这几组日常穿搭,大方有回头率

韩版“全境封锁”PC配置降低 内存改为32GB起步

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版