数据工程ETL或ELT中的转换与提取加载,会议、博客文章、企业路线图甚至预算都侧重于数据转换T以及随之而来的“业务洞察”的诱惑。对于提取和加载数据EL的步骤有时会被打折为编写脚本和计划一些 API 调用的微不足道的步骤。
然而,提取加载EL的优雅不仅仅是结果,而是执行 - 保证不会出错的艺术。正如室内装饰无法挽救在运输过程中损坏的画作,或者如果一半的用料缺货,则无法准备精心计划的菜单一样。数据处理的提取加载EL步骤有无数的陷阱,可能会使数据团队远离他们雄心勃勃的议程和愿望。基础不牢地动山摇。
这篇文章是解释提取加载的一些潜在复杂性的系列文章中的第一篇。了解这种复杂性说明了像Airbyte这样的数据集成工具如何通过减少认知负担,加快开发时间,降低未来错误和中断的风险,并让他们专注于组织特定的问题来减轻数据团队的负担。
这篇文章将从开头开始:从上游源系统中提取数据。就像节俭地用每周优惠装满您的购物车或小心翼翼地装载移动的货车以保护您的物品一样,我们将探索全面而有效地提取数据所需的策略。
数据提取基础知识
所有 EL 管道都从某个源系统提取数据开始。Airbyte 提供了一个方便的抽象层,用于从许多类型的系统中提取数据。为了集中讨论,我们将重点关注REST API,因为它们是与上游供应商工具(例如Facebook Ads,Salesforce