PolarDB，如何率先赢得通往 AI 时代的半张门票？|调用|向量|sql|元数据|客户端节点|oracle

分享至

搬开数据库的三座历史大山，PolarDB 让大一统的数据库走向前台。

作者｜Cynthia

编辑｜郑玄

AI 时代的入场券正被一分为二。

一半攥在大模型手里，以一周一迭代、一月一颠覆的速度卷出了新高度：LMArena.ai 数据显示，自 2023 年年中起，SOTA（当前最优模型）的迭代周期被压缩至 35 天，短短 5 个月就可能跌出 Top5，7 个月后连 Top10 的门槛都摸不到。

另一半则藏在数据深处：

与模型侧你方唱罢我登场的热闹不同，AI 时代，数据正变得越来越多元、异构、海量，这也导致数据侧的困境隐秘而庞大：IDC 数据显示，数据总量占比 80% 的非结构化数据仍在沉睡，此外，MIT 报告《2025 年商业 AI 现状》披露，全球 95% 的组织在 GEN AI 转型上获得的回报为零，而数据是影响成败的核心原因。

关于 AI 的发展阶段，阿里巴巴集团 CEO 吴泳铭在 2025 年云栖大会期间，阐述了通往 ASI 的三阶段演进路线：

当前的 AI 已经完成了「学习人」的「智能涌现」第一阶段；当下我们处在「辅助人」的第二阶段，AI 能够自主行动与真实物理世界交互，解决复杂任务；而长期来看，能够自我迭代超越人类的超级智能（ASI）才是我们的终极目标。

即便大模型搞定了通往 AGI 时代的 100 种解法，但随着用户需求从 AGI 向 ASI 的升级，数据的桎梏，也会让人工智能停留在无法解决实际问题、无法与真实世界产生持续互动的无知天才阶段。

那么如何抓住数据，这通往 AI 时代的半张门票？PolarDB 的答案，或许值得所有人参考。

大一统与碎片化轮回，

Agentic Al 时代需要什么样的数据库

数据库行业的发展史，本质上是一部问题倒逼进化的轮回大戏。

1970 年，IBM 研究员埃德加·科德的《大型共享数据库的关系模型》《A Relational Modelof Data for Large Shared Data Banks》一文，为关系型数据库埋下理论的火种；到了 1979 年 Oracle 推出首个商用 SQL 数据库，正式开启结构化数据为王的时代。

彼时的数据库，主打结构化数据管理、强事务一致性与 SQL 语言标准化，完美适配企业级应用对数据完整性的严苛要求。而迄今为止，银行核心交易、航空订票系统等强事务场景，仍离不开 SQL 数据库的加持。市场侧，则是 Oracle、IBM DB2、Microsoft SQL Server 长期垄断市场，开源的 MySQL 则在互联网场景中站稳脚跟，形成稳定的诸侯格局。

但 20 年后，互联网浪潮的到来，直接击碎了这份稳定。

2000-2010 年期间，Web2.0 与云计算的普及，让传统关系型数据库暴露出三大致命短板：分布式扩展成本高企，面对 JSON、图片等非结构化数据束手无策，高并发读写场景下性能直接宕机。

在这一背景下，2009 年 MongoDB 发布、2010 年 Cassandra 开源，NoSQL 运动全面爆发，行业思路从大一统转向专用化，并迅速分化出四大分支：文档型搞定内容管理，键值型撑起缓存会话，列族型承接物联网时序数据，图数据库深耕社交图谱。数据库与数据湖也在此期间分道扬镳：前者侧重写入实时性，后者主打读取时的海量低成本存储。

云计算企业也趁着分布式的浪潮，推出了自己的产品。阿里云正是在这场浪潮中孕育了云原生数据库 PolarDB。这款数据库从诞生起就带着云原生基因，后来逐步从阿里内部走向公开云，服务外部用户。

这种互联网与云服务时期的数据库碎片化革命带来了场景爆发，也制造了新的混乱。一个中型互联网企业，内部数据库数量动辄几十上百，运维人员每天在不同数据库间搬运数据，同一份数据，既要存在 MySQL 供交易调用，又要同步到 MongoDB 做用户画像，还要导入 HBase 存时序行为，数据冗余率飙升的同时，孤岛问题愈演愈烈。

直至大模型的爆发，彻底改写了数据库的进化逻辑。

向量逐渐成为结构化、半结构化、多模态数据的统一语言，结构化数据用稀疏向量表达，非结构化数据用稠密向量解析，数据库行业迎来第二次轮回：从专用化向一体化回归。其中，Oracle 最新版本已支持 10+数据类型，MongoDB 实现多存储一体化，PostgreSQL 凭借原生 JSON 与向量引擎成为开源标杆，Not Only SQL 的大一统趋势愈发清晰。

但趋势明朗不代表落地顺畅。不同数据类型对资源、性能的需求天差地别：交易型数据要低延迟，分析型数据要高吞吐，向量数据要高维检索能力，如何在一个架构里兼顾所有需求？

更关键的是，AI 时代的数据库不再是针对后端开发的隐形工具，前端、产品、运营都要通过 Agent 或知识库直接调用，那么如何更加适配这种数据库 Agent 前端化的大趋势，如何适配非技术用户，降低使用门槛？

All-in-One、适配 Agent 交互、降低使用门槛，成为横在所有数据库厂商面前的三座大山。

搬开三座大山，

PolarDB 让大一统的数据库走向前台

All-in-One、适配 Agent 交互、降低使用门槛，看似是三个不同问题，但本质上都在回答一个问题，我们要如何打造一个 AI-Ready 的数据库产品。

对于这个问题，在 2026 阿里云 PolarDB 开发者大会上宣布能力大更新的云原生数据库 PolarDB，没有走头痛医头的老路，而是从架构底层重构，给出了 AI-Ready 的系统级解决方案。

针对传统的数据库产品山头林立、数据被多次存储带来的割裂问题，PolarDB 借助 Lakebase 架构，通过湖库一体化存储、泛元数据统一管理、多引擎多模态融合检索，实现了不同类型数据以及数据管理任务的无缝协同。

首先是存储层，引入 Lakebase 概念，通过热-温-冷分层管理，精准解决性能与成本的矛盾。Lakebase 采用 NVMe SSD+OSS 对象存储的混合架构，热数据（高频交易、实时推理数据）存于高性能 SSD 达成高效响应，温数据（高频访问的历史数据）保留在 SSD 缓存层，冷数据（归档数据、低访问频次多模态文件）自动迁移至 OSS，存储成本直降数倍。这种分层不是静态配置，而是基于访问频率动态调整，搭配用户态 I/O 与网络栈设计、RDMA 技术，数据访问延迟较传统架构显著降低，兼顾高并发与高可用。

泛元数据管理则是打破数据孤岛的导航图。与传统元数据仅记录结构信息不同，PolarDB 的泛元数据分为三类：系统元数据定义如何存，明确存储位置、格式与权限；业务元数据定义为何用，关联业务场景与数据用途；事件元数据记录从何来，追溯数据产生、流转的全链路。三者协同，让 AI 模型能快速定位所需数据——比如理想汽车的智驾团队，通过泛元数据可直接关联传感器数据、标注信息与测试场景，无需人工梳理。

多模态检索能力则依赖多引擎协同作战。PolarDB 整合了搜索引擎、向量引擎、时序引擎、Ganos 时空引擎等六大引擎，其中向量引擎支持 HNSW 与 IVFFlat 两种索引——HNSW 适配高维向量的低延迟检索，IVFFlat 适合大规模数据的批量查询，搭配列存引擎的 OLAP 分析能力，可实现文本、图像、音视频、时空数据的跨模态联合检索。比如在哔哩哔哩的营销分析场景中，能同时检索视频内容、弹幕文本与用户行为轨迹，快速识别品牌曝光与用户反馈的关联。

更关键的是格式兼容性设计。Lakebase 支持 Iceberg、Delta Lake、Lance 等主流数据湖格式，兼容 OSS/S3 协议，企业无需重构现有数据架构，就能将历史数据、多模态文件无缝接入，迁移与适配成本大幅降低。

解决了海量异构数据的兼容问题之后，接下来如何让这些数据的使用变得更加 Agent 友好，成了新的困难。

PolarDB 的核心定位之一，是面向 Agent 应用开发的云原生数据库，其整体设计围绕 Agent 的两大核心需求展开：高效记忆管理与低成本开发部署。

过去，大模型的健忘症，一直是 Agent 落地的核心障碍：受上下文窗口限制，跨会话记忆无法留存，导致服务连贯性差。PolarDB 通过 Mem0/MemOS 框架，为 AI Agent 构建了长期记忆层，彻底解决这一问题。

Mem0 框架的核心是记忆分层与多引擎联动：将 Agent 记忆拆解为工作记忆（当前会话信息）、事实记忆（固定知识点）、情景记忆（历史交互场景），通过原生集成的 PGVector 向量引擎与 Apache AGE 图引擎，实现记忆的结构化存储与高效检索。

PolarDB Supabase 则让 Agent 开发从基建工程变成搭积木。过去，开源 Supabase 虽能提供一站式后端能力，但部署时需协调十多个微服务，升级过程中非常容易出现兼容问题，运维成本极高。PolarDB Supabase 则采用托管应用层+数据库核心的分离架构，将控制台、API 网关、身份认证等组件全托管，开发者通过 PolarDB 控制台就能统一配置，无需关心底层组件运维。

同时，PolarDB Supabase 中还加入了企业级增强设计：安全容器隔离防止信息泄露，内置 Realtime 实时数据库让数据变更秒级推送至 Agent，RESTful API 省去重复的增删改查编码，甚至支持通过 SQL 语句直接调用阿里云百炼内置大模型，大幅降低开发门槛。

如果说数据库接入层面的大一统以及 Agent 能力设计，针对的还是传统后端开发，那么 PolarDB 提出的模型算子化，则让非技术人员也能玩转 AI 数据处理。模型算子化（Model as an Operator）的本质是将 AI 能力封装为数据库原生算子，用户无需掌握 Python 或 MLOps 技能，用熟悉的 SQL 语言就能完成模型调用，完成分类、回归、聚类等常见需求。如此一来，数据无需迁出数据库，所有处理与推理都能在库内完成，既避免数据传输中的安全风险，又减少延迟。

AI-Ready 的企业，

需要 AI-Ready 的数据

如果说 PolarDB 的进化，回答了 AI-Ready 数据库如何建设的问题，那么企业如何管好数据、用好数据，也就是做好 AI-Ready 的数据，则是企业选好数据库、做好 AI 转型的前提。

而围绕 Agentic Al 时代，如何用好数据，我们可以从道与术两个方面出发去看。

道的层面，Gartner 发布的《Ready Your Data for AI》给出了答案：所谓AI 就绪的数据不是越多越好，而是要满足「连接性（Connected）、持续性（Continuous）、精选性（Curated）、上下文相关性（Contextual）」四大特性。

这四道标准与 PolarDB 的技术设计高度契合：连接性要求打破数据孤岛，对应 PolarDB 的湖库一体与泛元数据管理；持续性要求数据实时更新流转，依赖 Lakebase 的动态分层与 Realtime 能力；精选性要求数据与业务目标对齐，通过模型算子化让数据处理贴合场景需求；上下文相关性则靠泛元数据与 Agent 记忆层实现，让数据带着场景信息供 AI 调用。

术的层面，不同行业的实践给出了殊途同归的解法。

在汽车行业，理想汽车依托 PolarDB 构建智驾元数据底座，查询性能提升 3 倍、TCO 降低 60%，日推理调用量超百万，支撑智能驾驶快速迭代，并极大简化了企业 AI 转型的技术复杂度；在视频社区，哔哩哔哩通过大模型+小模型协同框架，实现数据不出库的智能营销分析，为广告主提供精准决策依据；在 AI 基座领域，MiniMax 用 PolarDB Limitless 架构解决千亿级表查询瓶颈，支撑 100+实例毫秒级响应。

当然，以上企业并非个例，截至目前，PolarDB 已服务超 2 万客户，部署规模超 300 万核，覆盖全球 86 个可用区, 成为 AI 时代数据底座的主流选择。

尾声

在通往超级人工智能之路的这个过程中，不仅需要模型层面的进步，更需要解决不同格式、不同来源、不同用途的数据，打破 AI 落地最后一公里的核心桎梏。

而伴随 PolarDB 这样的数据库从工具向 AI 基础设施转型：基于向量的多模态数据库让数据之间有了统一的语言，湖库一体让数据有了共同的存储管理方式；模型算子化，让数据能够更低成本的被更多人所利用。

万能的大模型+All-in-One 的数据库+丰富的工具生态，让构建 AI 应用的复杂度，变得前所未有的低门槛，AI-Ready 到 AI-Native 成为可能。

而 PolarDB 的探索，不仅给出了 AI 原生数据库的标准，也让无数企业拿到了通往 AI 时代最重要的的半张门票。

*头图来源：阿里云

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你如何看待PolarDB ？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.