网易首页 > 网易号 > 正文 申请入驻

Snowflake以Iceberg V3支持及治理可移植性扩展开放数据战略

0
分享至


Snowflake正通过一系列互操作性增强举措,持续深化其开放数据架构战略,旨在减少数据移动、简化治理流程,并优化AI系统访问企业数据的方式。

本次发布的核心是Snowflake所定义的"数据自主权"理念,即组织能够跨多个平台访问、治理和分析数据,而不受专有系统的束缚。该公司指出,现有架构迫使企业在平台之间频繁迁移数据,由此引发操作复杂性提升、安全风险加剧、成本增加等问题,同时也制约了AI工作负载的效果。

"当团队无法在数据所在位置直接对其进行处理时,就不得不移动数据。"Snowflake在今日发布的一篇博客文章中表示,碎片化的数据管道和治理模型会因数据缺乏一致性和规范管理,进而削弱AI计划的成效。

随着AI的加速落地,企业统一数据环境的压力不断增大,Snowflake对互操作性的重视正是这一趋势的体现。该公司认为,重复的数据管道、不一致的治理机制和孤立的语义体系,会对数据架构和AI投入形成双重"税负"。

"真正的数据自主权不仅仅是一种表格格式,更意味着无论数据存储在何处,都能够使用任意引擎对其进行读取、写入和治理。"该博客文章写道。

Iceberg V3支持

本次发布的核心内容是对Apache Iceberg版本3开放表格式的扩展支持,相关功能即将推出。Iceberg已逐渐成为跨多引擎管理大规模分析数据集的行业标准,Snowflake将自身的实现方案定位为比竞争产品更具生产就绪性。

Iceberg V3引入了多项新特性:通过"Variant"数据类型支持半结构化数据;支持地理空间数据类型;针对变更数据捕获提供行级血缘追踪;通过删除向量改进删除操作;以及纳秒级别的时间戳精度。

Snowflake表示,这些增强功能将同时适用于Snowflake托管表和外部Iceberg目录,从而实现跨环境的"可移植"数据体验。

Snowflake产品管理总监James Rowland-Jones表示,此次更新标志着从基础互操作性向生产级能力的跨越。

"此次的新进展,是将互操作性从基础层面延伸至数据、治理和语义层面更为完整的生产就绪能力,这意味着客户可以开始在开放的互操作数据之上运行更复杂的真实工作负载,而不仅仅是进行实验性探索。"Rowland-Jones在书面评论中表示。

更灵活的治理机制

Snowflake还将互操作性的边界从数据格式延伸至治理和业务逻辑层面——而这两个领域历来与各平台紧密耦合。该公司正积极推广Apache Polaris,这是一个两年前由Snowflake开发并开源的数据目录,旨在实现治理策略跨系统的可移植性。

Snowflake认为,尽管Iceberg规范化了数据的存储方式,但并未解决访问控制、数据血缘和语义上下文的管理问题。Polaris正是为了填补这一空白而生——通过让策略随数据一同流转,而非固定绑定在特定引擎上。

为实现这一可移植性,Snowflake表示正在推进多项机制,包括策略交换标准、治理联邦以及读取限制应用程序编程接口。这些改进旨在允许一个系统共享预先评估的访问规则,并由另一系统执行,无需复制或重新处理数据。

Rowland-Jones表示,这一方案解决了长期以来受治理数据共享过程中的效率痛点。

"目前,将受细粒度访问控制保护的数据安全共享给外部引擎的唯一'可靠'方式,是通过API对中间结果进行实体化处理。这个过程不仅操作效率低下、成本高昂,而且往往难以预测。Apache Polaris正在打破这一困境。"他说道。

本次发布的另一个组成部分是pg_lake,这是去年11月发布的一个开源PostgreSQL扩展,旨在桥接事务型与分析型系统。它使PostgreSQL数据库能够直接查询Parquet和CSV等数据湖格式,并将数据写入Iceberg表,无需经过提取、转换和加载流程。

Snowflake表示,消除事务型与分析型系统之间的ETL管道,可以降低延迟和运营开销,同时简化整体架构。企业无需为不同工作负载维护独立系统,而是可以在共享数据层上统一运营。

"pg_lake的目标是通过去除复杂管道的依赖,来简化整体架构。"Rowland-Jones说道。

统一的语义标准

Snowflake还在积极布局新兴标准,以改善AI系统对数据的理解与解释能力。相关举措包括:用于跨系统追踪数据流转的OpenLineage,以及旨在标准化指标、维度等业务定义的Open Semantic Interchange规范。

Snowflake指出,语义不一致会迫使AI模型反复从原始数据中推断含义,进而推高计算成本并降低准确性。通过实现语义上下文的可移植性,企业可以提升模型性能并减少冗余处理。

Rowland-Jones坦承,Open Semantic Interchange目前仍处于早期阶段,但行业参与的积极态势表明市场需求旺盛。

"该规范的首个版本现已在Apache 2许可下发布,并获得超过35家行业合作伙伴联盟的背书支持。当模型能够获取一致的定义时,其输出结果将更加准确,所需的返工也会大幅减少。"他表示。

Snowflake正逐步突破其专有技术的边界,将上述努力定位为向开放、社区驱动型数据架构更大转型的组成部分。该公司表示,其工程师在过去两年间已向开源项目贡献了超过9000次提交,并积极参与推动Iceberg未来版本的能力规划,包括计划中的第4版增强功能。

预计新版本将涵盖元数据性能改进、列级更新支持以及扩展的索引选项,全面提升流式处理、机器学习和搜索工作负载的性能表现。

Snowflake的战略将开放标准定位为差异化竞争优势,同时持续在这些标准之上提供托管服务。该公司表示,其专有的Horizon目录集成了Polaris,可在保持与外部系统兼容性的同时,提供集中统一的治理能力。

Q&A

Q1:Snowflake的"数据自主权"具体是什么意思?

A:Snowflake将"数据自主权"定义为企业能够跨多个平台自由访问、治理和分析数据,且不受任何专有系统的束缚。其核心理念是:无论数据存储在何处,企业都应能够使用任意引擎对其进行读取、写入和治理操作,同时避免因强制数据迁移带来的安全风险、运营复杂性和高昂成本。

Q2:Apache Iceberg V3相比之前的版本有哪些新特性?

A:Iceberg V3引入了多项重要新特性:通过"Variant"数据类型支持半结构化数据;新增地理空间数据类型支持;提供面向变更数据捕获的行级血缘追踪;通过删除向量优化删除操作的执行效率;以及支持纳秒级时间戳精度。这些功能均可在Snowflake托管表和外部Iceberg目录中使用,适用于更复杂的生产环境工作负载。

Q3:Apache Polaris解决了什么问题?

A:Apache Polaris是一个由Snowflake开发并开源的数据目录,主要解决数据治理策略跨平台可移植性的问题。Iceberg虽然规范了数据存储方式,但未能处理访问控制、数据血缘和语义上下文的跨系统管理。Polaris通过策略交换标准、治理联邦等机制,让治理规则能够随数据一同流转,无需复制或重新处理数据,从而解决受控数据共享中长期存在的效率瓶颈。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张兰接下了第二个儿媳带来的泼天流量,曝光健身房?那就练起来

张兰接下了第二个儿媳带来的泼天流量,曝光健身房?那就练起来

小娱乐悠悠
2026-04-18 12:33:14
空军全部覆没?伊朗亮出地下底牌!美以傻眼了,就这样被骗几十亿

空军全部覆没?伊朗亮出地下底牌!美以傻眼了,就这样被骗几十亿

风笛悠扬声
2026-04-21 01:20:20
青岛“地王”豪宅,创下的纪录,在全国都是炸裂的存在!

青岛“地王”豪宅,创下的纪录,在全国都是炸裂的存在!

锦晨房产咨询
2026-04-21 00:57:46
突发!日本地震震级上调,海啸已上岸,最新情况来了!

突发!日本地震震级上调,海啸已上岸,最新情况来了!

石辰搞笑日常
2026-04-21 01:06:56
A股:人民日报重磅发文,散户做好准备,周二很可能迎来新的行情

A股:人民日报重磅发文,散户做好准备,周二很可能迎来新的行情

云鹏叙事
2026-04-21 00:00:03
祥鹏航空回应“旅客与地服起冲突”:其行李超规,正配合调查

祥鹏航空回应“旅客与地服起冲突”:其行李超规,正配合调查

南方都市报
2026-04-20 17:16:09
2000吨英国潜艇消失,我国暗中打捞拆解研究,39年后首相却上门讨要

2000吨英国潜艇消失,我国暗中打捞拆解研究,39年后首相却上门讨要

睡前讲故事
2026-03-30 13:48:58
黑奴贸易里,将黑人扒光并让男女挤一起,只是为了省钱省事吗

黑奴贸易里,将黑人扒光并让男女挤一起,只是为了省钱省事吗

小豫讲故事
2026-04-18 06:00:12
又是0分,罚球都2中0!这水平拿1800万?球迷:你是资本家的噩梦

又是0分,罚球都2中0!这水平拿1800万?球迷:你是资本家的噩梦

弄月公子
2026-04-20 08:54:35
香港失婚女星希望新恋情,白衬衫真空上阵,丰满上围双手遮不住

香港失婚女星希望新恋情,白衬衫真空上阵,丰满上围双手遮不住

观察者海风
2026-03-27 19:42:21
伊朗媒体:不参加谈判决定尚未改变 已为各种情况做好准备

伊朗媒体:不参加谈判决定尚未改变 已为各种情况做好准备

新华社
2026-04-21 01:15:06
丁俊晖:我和赵心童谁赢不重要,我只想看看半决赛能否全是中国人

丁俊晖:我和赵心童谁赢不重要,我只想看看半决赛能否全是中国人

世界体坛观察家
2026-04-21 00:05:41
蒜苔开始上市!再三强调:高血压患者吃蒜苔时,多注意这5点

蒜苔开始上市!再三强调:高血压患者吃蒜苔时,多注意这5点

芹姐说生活
2026-04-18 14:47:34
“打烊”不读dǎ yáng,也不读dǎ xiáng,九成人在这样错读!

“打烊”不读dǎ yáng,也不读dǎ xiáng,九成人在这样错读!

未央看点
2026-04-21 00:05:41
一周最少10次,52岁女子肛裂住院,丈夫哭诉:怎么劝她就是不听

一周最少10次,52岁女子肛裂住院,丈夫哭诉:怎么劝她就是不听

观星赏月
2026-04-20 19:10:55
20岁女孩两年内花上千万元打赏主播,致父亲企业濒临破产

20岁女孩两年内花上千万元打赏主播,致父亲企业濒临破产

上游新闻
2026-04-20 18:40:11
恭喜!曾春蕾当选,成中国女排接应第一人,江川给她做副手

恭喜!曾春蕾当选,成中国女排接应第一人,江川给她做副手

跑者排球视角
2026-04-20 22:01:45
全球第一!比亚迪宋L DM-i续航2000km,从15.58万降到9万多

全球第一!比亚迪宋L DM-i续航2000km,从15.58万降到9万多

隔壁说车老王
2026-04-20 11:28:03
千亿市值龙头,白天触及涨停,晚间公告业绩大挫

千亿市值龙头,白天触及涨停,晚间公告业绩大挫

新浪财经
2026-04-20 23:15:04
特朗普第一任期的白宫律师突然爆猛料:特朗普已经撑不下去了

特朗普第一任期的白宫律师突然爆猛料:特朗普已经撑不下去了

西楼知趣杂谈
2026-04-19 21:25:23
2026-04-21 03:48:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
3409文章数 171关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

手机
家居
本地
亲子
游戏

手机要闻

OPPO影像旗舰高端发力 Find X9 Ultra走出国门

家居要闻

自然慢调 慢享时光

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

亲子要闻

【孤独症科普】啥是孤独症,哪些孩子易发生,如何应对?

大司马回归两个月,某音人气稳居顶流行列,道出风光背后心酸现状

无障碍浏览 进入关怀版