网易首页 > 网易号 > 正文 申请入驻

DuckLake 1.0发布:这个团队把元数据塞进数据库, lakehouse格局要变?

0
分享至


去年5月,DuckDB团队扔出一份宣言,核心观点让不少人愣了一下——把lakehouse的所有元数据存进数据库,而不是散落在对象存储的文件堆里。当时业内主流做法是把元数据写成JSON、manifest文件,像Delta Lake、Apache Iceberg都是这个路数。DuckDB团队偏说:这不对。

将近一年过去,他们交卷了。DuckLake v1.0正式发布,带着生产级承诺和向后兼容保证。参考实现——ducklake扩展——已经随DuckDB v1.5.2上线。

元数据进数据库,到底解决什么

先搞清楚lakehouse格式的基本功课。它让你在对象存储(S3、GCS、Azure Blob这些)上存数据,却能像查数据库一样访问。Delta Lake配Unity Catalog、Iceberg配Lakekeeper,都是这个玩法。

DuckLake的岔路口在于:元数据去哪。

传统做法是把表结构、分区信息、事务日志写成文件,跟数据文件放一起。查询时先读这些文件,再决定读哪些数据。DuckLake说,这些元数据应该住在真正的数据库里——SQLite、PostgreSQL、甚至DuckDB自己都能当这个"目录"(catalog)。

好处是显性的。SQL原生支持的事务、索引、主键约束,现在能直接用在元数据层。多个DuckDB实例可以共享同一个PostgreSQL目录,实现所谓的"multiplayer"模式——各查各的,但看到的表状态是一致的。

更隐蔽的好处是部署成本。只要有个存储桶和一个HTTPS端点,就能搭一个免认证的只读lakehouse。不需要额外跑元数据服务,目录就是数据库。

一年迭代:从草图到生产

v1.0的规格书(specification)定了几个硬指标:元数据表的Schema、支持的数据类型、以及如何根据目录信息定位实际数据。参考实现必须全部覆盖。

过去12个月的更新清单里,有几项值得单独拎出来。

零拷贝挂载Parquet。已有的Parquet文件不用deep copy,直接注册进DuckLake就能查。这对存量数据迁移是刚需。

Iceberg兼容层。不是重新发明轮子,而是让Iceberg表能被DuckLake读取。生态位上留了后门。

Geometry和Variant类型。地理空间数据和半结构化数据的支持补上了,覆盖场景更广。

社区反馈的速度超出预期。ducklake扩展目前在DuckDB核心扩展的下载量排名里进了前十——对于一个诞生不到一年的项目,这个渗透率不常见。

三个被验证的用法

团队自己总结了几个跑得通的场景。

流式入湖。利用目录数据库的"inlining"能力,小批量更新先写进目录,再异步刷到对象存储。 latency从分钟级降到秒级。

极简只读服务。存储+HTTPS端点,无认证、无状态、无额外服务。适合公开数据集分发。

多实例协作。多个DuckDB进程连同一个PostgreSQL目录,各跑各的分析,但元数据变更全局可见。数据仓库的并发查询难题,用数据库解决数据库的问题。

路线图里还藏着野心。规格书留了版本扩展的口子,未来新增元数据表不会破坏旧客户端。参考实现也会跟进更多目录后端——现在只有SQLite、PostgreSQL、DuckDB三种,显然不够。

一个悬而未决的问题是:DuckLake会不会成为第四种主流lakehouse格式?Delta Lake有Databricks背书,Iceberg有Netflix起源和Apache基金会,Hudi有Uber场景打磨。DuckLake的筹码是DuckDB的装机量,以及"元数据即数据库"这个足够简洁的抽象。

生产就绪的声明已经发出。接下来要看的是,有多少团队愿意把现有lakehouse迁过来——或者更现实地说,新项目会不会默认选它。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白宫记协晚宴安全事件嫌疑人被控两项罪名,27日将出庭受审

白宫记协晚宴安全事件嫌疑人被控两项罪名,27日将出庭受审

界面新闻
2026-04-26 12:29:16
小米公司:李某华在微信群散布雷军谣言,被警方处以行拘十日

小米公司:李某华在微信群散布雷军谣言,被警方处以行拘十日

澎湃新闻
2026-04-26 10:38:05
石油运不出去、卖不出去的伊朗要被“噎”死了!

石油运不出去、卖不出去的伊朗要被“噎”死了!

廖保平
2026-04-24 08:59:44
皇室独苗悠仁19岁选妃,4大条件层层筛选,第4条直接劝退所有人

皇室独苗悠仁19岁选妃,4大条件层层筛选,第4条直接劝退所有人

z千年历史老号
2026-04-24 11:37:07
再也没有人愿意帮我洗内裤了

再也没有人愿意帮我洗内裤了

张晓磊
2026-04-26 11:33:42
播放量破5亿,孙杨和张豆豆这一吵,让芒果这档新综艺彻底封神了

播放量破5亿,孙杨和张豆豆这一吵,让芒果这档新综艺彻底封神了

糊咖娱乐
2026-04-24 11:47:38
俞敏洪一天损失四员大将,新来的CEO孙进“很卷”,提倡加班文化

俞敏洪一天损失四员大将,新来的CEO孙进“很卷”,提倡加班文化

江山挥笔
2026-04-25 21:22:15
纪实:浙江女教师突然失踪6年,13岁儿子凭借一个梦找到母亲

纪实:浙江女教师突然失踪6年,13岁儿子凭借一个梦找到母亲

红豆讲堂
2024-10-25 09:45:59
21岁击败王菲的童颜巨乳富婆,巅峰期却选择主动过气

21岁击败王菲的童颜巨乳富婆,巅峰期却选择主动过气

悠悠说世界
2026-04-25 14:03:58
王毅东南亚访问未结束,日本邀请函就送到了,宴请东盟主席国

王毅东南亚访问未结束,日本邀请函就送到了,宴请东盟主席国

心灵得以滋养
2026-04-26 02:30:28
雷霆121-109太阳,诞生3个不可思议和2个事实,亚历山大42+4+8

雷霆121-109太阳,诞生3个不可思议和2个事实,亚历山大42+4+8

宝哥精彩赛事
2026-04-26 10:55:25
赔偿41万怎么办!吉林53岁男子哭诉儿子高一,自己踏实肯干被失业

赔偿41万怎么办!吉林53岁男子哭诉儿子高一,自己踏实肯干被失业

火山詩话
2026-04-26 06:29:33
法媒:我们正在被中国的科技浪潮淹没,欧洲人很恐慌,但毫无办法

法媒:我们正在被中国的科技浪潮淹没,欧洲人很恐慌,但毫无办法

朝子亥
2026-04-25 02:35:03
互联网是有记忆的,她的黑历史一大堆啊!

互联网是有记忆的,她的黑历史一大堆啊!

BenSir本色说
2026-04-15 22:38:07
芬兰女外长发表极端对华言论,公然逼中国二选一!中方硬气回应!

芬兰女外长发表极端对华言论,公然逼中国二选一!中方硬气回应!

果妈聊娱乐
2026-04-25 22:10:02
传闻故事:15年之期已到,何超琼与许晋亨的离婚保密协议曝光

传闻故事:15年之期已到,何超琼与许晋亨的离婚保密协议曝光

卡西莫多的故事
2026-02-04 09:38:40
张军被调查:羽毛球新老掌门不同结局?

张军被调查:羽毛球新老掌门不同结局?

林子说事
2026-04-26 03:56:08
暴雨、大暴雨上线!一直下到“五一”

暴雨、大暴雨上线!一直下到“五一”

全国妇联女性之声
2026-04-25 19:58:57
无才无德、装疯卖傻、一肚子草包,是谁捧红了这些跳梁小丑?

无才无德、装疯卖傻、一肚子草包,是谁捧红了这些跳梁小丑?

蹲坑看世界
2026-04-22 23:00:21
郑钦文PK莱巴时间定了!16强出8席 没想到斯瓦泰克出局 萨巴2-0

郑钦文PK莱巴时间定了!16强出8席 没想到斯瓦泰克出局 萨巴2-0

小徐讲八卦
2026-04-26 09:03:31
2026-04-26 12:56:49
硬核玩家2哈
硬核玩家2哈
沉淀中,勿扰
1700文章数 7关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

白宫晚宴枪击案或为"独狼式"袭击 特朗普:妻子躲得快

头条要闻

白宫晚宴枪击案或为"独狼式"袭击 特朗普:妻子躲得快

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

房产
教育
时尚
手机
公开课

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

教育要闻

高考地理中的层理构造类型

伊姐周六热推:电视剧《方圆八百米》;电视剧《金关》......

手机要闻

一加Ace 6至尊版下周发:性能最激进的天玑9500手机来了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版