![]()
初创公司Etleap推出了面向Apache Iceberg表的云端抽取-转换-加载(ETL)数据管道服务。
Apache Iceberg是一种开源的表格式,专为数据湖中的大规模数据集设计,位于Parquet、ORC、Avro等存储系统以及AWS S3、Azure Blob、Google Cloud Store等云对象存储之上。它为数据湖带来了类似数据库的功能,包括ACID支持、分区、时间旅行和架构演进。Iceberg格式表用于大数据处理并支持SQL查询。Spark、Trino、Flink、Presto、Hive、Impala、StarRocks等查询引擎都可以同时操作这些表。
Etleap首席执行官兼创始人Christian Romming表示:"Iceberg为企业带来重大优势,但要在实践中实现这些优势需要一个托管的管道系统。我们相信我们的Iceberg管道平台能够满足这一需求,让数据平台团队能够采用Iceberg而无需构建和运营自定义管道堆栈。"
Etleap成立于2013年,由Romming创建。按照数据分析初创公司的标准,该公司融资较少,在2017年和2018年的初创和种子轮中仅筹集了约322万美元。
Romming表示,Iceberg本身不负责数据摄取或建模、管理表操作或协调跨系统的变更。用户必须构建自己的管道功能集来将数据源连接到Iceberg并完成这些工作,需要"组装摄取工具、dbt Core作业、编排器和自定义Iceberg维护的拼接组合"。
现在Etleap通过SaaS服务为用户提供这些功能。它将摄取、转换、编排和Iceberg操作统一到一个托管系统中,该系统完全在客户的虚拟私有云(VPC)内运行。
然而,支持的数据源有限。目前只支持以下Iceberg管道数据源:
启用CDC的数据库(CDC=变更数据捕获)
启用"通过事件触发转换"管道源选项的S3源
事件流
Salesforce CDC实体
可用的数据转换功能也有限。同时CDC、事件触发和事件流Iceberg管道也存在一些限制,不过这些问题应该会在未来得到解决。
Etleap目前为AWS Redshift、S3/Glue和Snowflake提供管道服务。其Iceberg管道平台已经上线,客户正在使用它来大规模运行Iceberg管道。
Q&A
Q1:Apache Iceberg是什么?有什么优势?
A:Apache Iceberg是一种开源的表格式,专为数据湖中的大规模数据集设计。它为数据湖带来了类似数据库的功能,包括ACID支持、分区、时间旅行和架构演进,多种查询引擎可以同时操作这些表。
Q2:Etleap的Iceberg管道平台解决了什么问题?
A:Iceberg本身不负责数据摄取或建模、管理表操作。用户以往需要自己构建管道功能,组装各种工具。Etleap将摄取、转换、编排和Iceberg操作统一到一个托管系统中,简化了部署和运维。
Q3:Etleap的Iceberg服务目前支持哪些数据源?
A:目前支持的数据源包括:启用CDC的数据库、启用特定选项的S3源、事件流,以及Salesforce CDC实体。数据源和转换功能相对有限,但会在未来扩展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.