数据湖曾是大厂标配,但用起来总像"把文件扔进地下室"——存是存了,找起来费劲。核心矛盾在于:湖只管存,不管算,每次分析都得把数据搬来搬去。
Lakehouse的解法很直接:在数据湖上直接跑数据仓库的查询引擎,不搬数据也能算。Delta Lake、Iceberg、Hudi这三个开源项目,把"事务支持""版本回滚"这些仓库能力塞进了湖存储。
![]()
代价也有。查询性能比专用数仓慢一截,实时流处理仍是短板。但对想省掉"湖+仓"双份成本的公司来说,这是笔合算的买卖。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.