「Business Data Cloud将成为Apache Iceberg原生的企业级湖仓。」——SAP在收购声明里把这句话重复了三遍。一个被反复强调的技术名词,往往藏着厂商真正的焦虑。
这笔未披露金额的交易,让SAP把Dremio这家基于Iceberg格式的数据集成商收入囊中。表面看是补强数据分析工具,实则是一场关于数据格式控制权的暗战。三年前SAP还在和Databricks牵手,用对方的Delta Lake格式;现在转身押注Iceberg,中间发生了什么?
![]()
为什么Iceberg突然变得不可替代
Apache Iceberg起源于Netflix,是一个开放表格式标准。它的核心卖点很简单:让分析工具直接读取数据,不用搬来搬去。企业数据散落在SAP系统、第三方SaaS、本地仓库里,传统做法是ETL抽取转换,成本高、延迟大、版本还容易乱。
Iceberg的做法是把元数据层标准化。数据物理位置不变,但表结构、分区、快照历史都被统一描述,查询引擎直接对接。这对AI agent开发尤其关键——agent需要实时访问多源数据,不能等批处理跑完。
SAP在声明里给自己定了性:Iceberg是「行业标准开放表格式」。这句话有针对性。因为竞争对手Databricks的Delta Lake同样开源,同样做湖仓,同样被Linux基金会托管。两个格式功能重叠,生态互斥,企业选边站队的压力越来越大。
Databricks去年收购了Tabular——Iceberg原作者创立的公司——开始推动互操作。但SAP显然不想把赌注押在对手的兼容性承诺上。直接买下Dremio,把Iceberg原生能力握在自己手里,更可控。
Dremio到底给SAP补上了什么
Dremio的核心产品是基于Iceberg的湖仓平台,主打无服务器、弹性伸缩。SAP在声明里特别提到:「无需预置固定容量,没有性能天花板。」这对应的是传统数据仓库的痛点——为峰值配置资源,低谷时浪费,扩容时迁移。
更具体的功能点包括:
第一,统一语义层。SAP承诺通过Apache Polaris和Iceberg REST Catalog API,给企业数据建立一个「开放目录」。这个目录覆盖SAP系统外的数据,统一描述业务含义、表关系、访问权限、血缘追溯。对大型客户来说,数据治理的复杂度往往超过技术本身。
第二,消除数据搬运。SAP强调「无需数据移动或格式转换」,这直接对标三年前Juergen Mueller的承诺——让客户「轻松、自信地整合SAP数据与非SAP数据」。当时靠Databricks合作推进,现在用收购补齐。
第三,成本结构重构。Dremio的架构按查询付费,没有固定节点成本。SAP说这会「极大改善企业分析的经济性」。考虑到Dremio 2022年估值20亿美元,SAP愿意掏钱,说明算账之后ROI成立。
SAP和Databricks的关系微妙在哪
时间线值得复盘。2022年,时任CTO Juergen Mueller公开承诺打通SAP与第三方数据。合作对象是Databricks,用Delta Lake格式。去年双方深化合作,支持双向数据共享,Delta Lake作为「首批交付」格式。
但Databricks的Delta Sharing最初只支持自家格式,后来才宣布兼容Iceberg。对SAP来说,这等于核心数据战略依赖竞争对手的技术节奏。更麻烦的是,Databricks自己也在做AI agent平台,和SAP的Business AI存在直接竞争。
收购Dremio后,SAP有了不依赖Databricks的选项。声明里Iceberg被提到五次,Delta Lake零次。措辞变化本身就是信号。
不过完全切割也不现实。SAP客户的既有投资、Databricks在机器学习领域的积累,短期内无法替代。更可能的格局是:SAP用Dremio处理Iceberg生态的数据接入,Databricks合作继续但降级为选项之一。数据格式的战争,从「二选一」变成「我全都要,但优先自家」。
AI agent为什么倒逼数据架构重做
SAP把收购动机锚定在「agentic AI at enterprise scale」——企业级智能体。这不是营销话术,而是产品逻辑的自然延伸。
传统BI是人看报表,AI agent是系统自主决策。agent需要实时理解业务上下文,跨系统调用数据,不能等IT部门写ETL。这要求数据层具备三个特征:开放访问、统一语义、低延迟查询。Iceberg的表格式恰好满足前两点,Dremio的无服务器架构解决第三点。
SAP的Business Data Cloud原本聚焦SAP系统内数据,现在向外延伸。Dremio的接入能力让非SAP数据(Salesforce、ServiceNow、自建系统)以同样格式进入同一语义层。agent看到的不再是孤岛,而是连续的业务图景。
这个架构选择也有防御意味。微软、Salesforce、ServiceNow都在推自己的AI agent平台,数据整合能力是护城河。SAP如果只能处理自家数据,agent的智能天花板肉眼可见。买下Dremio,等于给Business AI买了张跨系统的通行证。
这笔收购没说的潜台词
SAP没披露金额,但Dremio 2022年估值20亿美元,实际成交价只高不低。花这笔钱买一个「开放格式」的技术栈,本身说明问题:在数据基础设施层,「开放」正在变成比「性能」更重要的采购标准。
企业客户被云厂商锁定怕了。Snowflake、Databricks、AWS各自的数据格式曾让迁移成本高昂。Iceberg作为中立标准,成了客户施压厂商的筹码。SAP主动拥抱Iceberg,既是技术选择,也是客户关系的维护——「你的数据不会被我绑架」。
Dremio的另一个价值是工程团队。Iceberg生态的核心贡献者稀缺,Netflix、Apple、Databricks都在抢。SAP通过这次收购直接获得一批熟悉Iceberg内核的工程师,比从零招聘快得多。
声明里反复出现的「native」也值得玩味。SAP强调Business Data Cloud是「Iceberg-native」,不是「Iceberg-compatible」。前者意味着从存储层开始重构,后者只是加个连接器。投入力度差别巨大,也暗示SAP对数据层的野心不止于集成,而是想定义下一代企业数据架构的标准形态。
行动:重新评估你的数据格式风险
如果你在用SAP系统,这件事直接影响你的AI agent路线图。Business Data Cloud的Iceberg原生支持意味着:非SAP数据的接入成本会下降,但前提是数据本身符合开放格式标准。现在就开始盘点你的第三方数据源,哪些已经支持Iceberg,哪些还在封闭格式里沉睡。
如果你不在SAP生态,这笔收购同样值得警惕。数据格式的阵营分化正在加速,Databricks、Snowflake、AWS、Google各自站队或骑墙。你的数据架构决策,本质上是在押注未来五年的生态兼容性。Iceberg的势头在增强,但Delta Lake的装机量依然庞大。没有绝对正确的选择,只有对锁定成本的清醒计算。
一个实用的自检清单:你的数据平台是否承诺开放表格式导出?元数据层是否可被外部查询引擎直接读取?更换分析工具时,数据迁移成本有多高?这三个问题的答案,决定了你在下一轮数据战争中的谈判位置。
SAP用一笔收购回答了这些问题。你的答案呢?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.