数据连接与集成构建管道Incremental pipelines概述

注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

概述

增量管道通常用于处理随时间显著更改的输入数据集。通过避免对未更改的所有数据行或文件进行不必要的计算,增量管道在降低端到端延迟的同时最小化计算成本。

然而,增量管道带来了额外的开发和维护复杂性,您在开始之前应对此有所了解。

背景

以下是一些与增量管道相关的因素,您可能需要考虑:

  • 开发增量管道需要深入了解数据集如何在Foundry中随时间更改,使用事务。您需要在数据连接同步和变换逻辑中与数据集事务的概念进行交互,以有效创建和管理一个增量管道。

  • 一旦您了解了事务在Foundry中的工作原理,您需要设计您的管道,使其能够应对输入数据集中意外事务的情况。虽然增量管道通常只处理以APPEND事务形式到达的更改数据,但您的逻辑必须能够应对输入数据集偶尔被重新计算的情况,这会导致SNAPSHOT事务。理想情况下,您的变换逻辑应编写详尽的单元测试以在实际发生之前验证行为。

  • 为确保增量管道在长期内保持高性能,您需要了解在应用许多APPEND事务时数据集如何随时间变化,这导致数据集包含大量小文件。这包括了解Spark如何处理大量文件以及这如何影响Spark分区。阅读更多关于维护增量管道高性能的信息

起始

通过查看以下推荐资源来起始增量管道: