概述

增量管道通常用于处理随时间显著更改的输入数据集。通过避免对未更改的所有数据行或文件进行不必要的计算，增量管道在降低端到端延迟的同时最小化计算成本。

然而，增量管道带来了额外的开发和维护复杂性，您在开始之前应对此有所了解。

背景

以下是一些与增量管道相关的因素，您可能需要考虑：

开发增量管道需要深入了解数据集如何在Foundry中随时间更改，使用事务。您需要在数据连接同步和变换逻辑中与数据集事务的概念进行交互，以有效创建和管理一个增量管道。
一旦您了解了事务在Foundry中的工作原理，您需要设计您的管道，使其能够应对输入数据集中意外事务的情况。虽然增量管道通常只处理以APPEND事务形式到达的更改数据，但您的逻辑必须能够应对输入数据集偶尔被重新计算的情况，这会导致SNAPSHOT事务。理想情况下，您的变换逻辑应编写详尽的单元测试以在实际发生之前验证行为。
为确保增量管道在长期内保持高性能，您需要了解在应用许多APPEND事务时数据集如何随时间变化，这导致数据集包含大量小文件。这包括了解Spark如何处理大量文件以及这如何影响Spark分区。阅读更多关于维护增量管道高性能的信息。

通过查看以下推荐资源来起始增量管道：