数据连接与集成数据谱系Understand and manage datasets搭建数据集

注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

搭建数据集

您可以使用数据沿袭图查看管道中的哪些数据集已过期,然后使用搭建助手直接从数据沿袭开始搭建。

从数据沿袭触发的搭建始终适用于图中配置的分支(包括回退分支)。

以下是一些常见的搭建工作流程:

搭建所有上级

此策略搭建选定的数据集和所有上级数据集,以确保选定的数据集完全更新。

默认情况下,这仅搭建过期的上级,但您可以选择强制重新搭建已更新的数据集。强制重新搭建在搭建时间和资源方面可能会很昂贵。

  1. 将数据集添加到图中或打开已保存的快照。
  2. 选择您要搭建的数据集。
  3. 在搭建助手中,选择所有上级数据集,然后点击下一步

点击下一步尚未触发任何搭建。您将仅看到要搭建的数据集的预览。

搭建助手

  1. 如果您想强制重新搭建已更新的数据集,请点击强制搭建已更新的数据集。
  2. 在检查要搭建的数据集列表后,点击运行搭建以触发搭建。

如果您决定不想搭建所有过期的上级,您必须在当前搭建预览中点击取消,然后更改您选择的节点。您无法从搭建预览屏幕更改选择。

搭建所有上级

所选数据集之间的所有变换

此策略允许您将搭建绑定到管道的一个子集。此策略的一个常见应用案例是在新的原始数据定期进入您的管道时,您希望更新特定数据集以反映新数据,但不想搭建所有过期的上级。您可以使用数据沿袭来确定哪些其他数据集需要搭建,以使您感兴趣的数据集更接近最新。

  1. 将您最终想要搭建的数据集添加到图中。
  2. 将任何原始数据集(或任何上游数据集)添加到图中。
  3. 选择所有节点。
  4. 在搭建助手中,选择所选数据集之间的所有变换策略,然后点击下一步

点击下一步尚未触发任何搭建。您将仅看到基于您选择的节点要搭建的数据集的预览。您现在可以准确看到需要搭建哪些内容以更新您感兴趣的数据集。您可能不想搭建所有数据集——也许有一个非常大的派生数据集应该每天只搭建一次——所以请在列表底部点击全部添加到图中

仅所选数据集

此策略允许您选择要搭建的单个数据集。如果数据集之间存在依赖关系,搭建将按正确的顺序执行,以确保子集在其上级搭建后被搭建。

如果您想更改要搭建的数据集,您必须在当前搭建预览中点击取消,更改您选择的节点,然后进入新的预览。您无法从搭建预览屏幕更改搭建选择。

在检查要搭建的最终数据集列表后,点击运行搭建以触发搭建。