注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
您可以选择在Pipeline Builder中添加数据集输出,以引导您的管道集成生成干净、变换后的数据。了解更多关于不同输出类型。
首先,点击图右侧输出面板中的数据集类型旁边的添加。
现在您已创建了一个新的输出数据集。在第一次搭建您的管道后,您的数据集输出将与您的管道在同一个文件夹中创建。例如,Demo Pipeline的Vendor
数据集输出将具有以下文件路径:/Palantir/Pipeline Builder/Demo Pipeline/Vendor
。
通过点击名称字段重命名您的输出数据集。选择添加列以手动向输出模式添加列,或连接一个变换节点以使用其输出模式,选择使用更新后的模式。
一旦您添加了一个输出模式,使用搜索列...字段快速查找数据集中的列。要仅查看输出模式中的出错,切换仅显示出错按钮。
添加输出数据集后,点击返回所有输出以查看管道中所有输出的列表。快速了解每个输出的状态,包括输出模式是否与输入变换节点模式匹配。以下三个输出代表输出模式可能的不同状态:
随时点击编辑更新输出模式。
了解更多关于数据集模式的信息在数据集成。
除了模式配置,每个单独的输出都有各种默认设置可供定制。
在您的输出数据集上添加期望以确保管道稳定性。如果在管道搭建期间任何检查失败,搭建将失败。
定义如何在未来部署中将数据添加到数据集输出中。
默认: 推荐用于大多数批处理管道,包括快照和增量。如果至少一个输入被标记为增量,并且所有标记为增量的输入自上次搭建以来仅有APPEND
或附加的UPDATE
交易,则默认写入模式将输出结果为APPEND
交易。否则,默认写入模式将输出结果为SNAPSHOT
交易。了解更多关于交易类型。
始终追加行: 以APPEND
交易输出结果。
仅追加新行: 以APPEND
交易输出结果,其中仅新增的行(定义为新见的主键)被添加到输出中。如果当前交易中存在重复行,则会随机丢弃一行。主键在先前输出中存在的行将被丢弃。
变更日志: 仅用于Object Storage v1。 输出一系列包含所有记录更改完整历史记录的APPEND
交易。了解更多关于变更日志数据集。
快照差异: 以SNAPSHOT
交易输出结果,其中仅保留新见的主键行。如果当前交易中存在重复行,将被保留。所有其他行将被丢弃。
快照替换: 以SNAPSHOT
交易输出结果,其中新数据与先前输出合并。先前输出中的现有主键将被新行替代。如果当前交易中存在重复行,除一行外所有行将被随机丢弃,因此输出最终仅每个主键有一行。
快照替换并移除: 这相当于快照替换,随后进行后筛选阶段以选择性地移除旧数据中的行。 以SNAPSHOT
交易输出结果,其中新数据与先前输出合并,随后进行后筛选阶段以根据提供的布尔值post_filtering_column
移除先前交易中的行。如果post_filtering_column = TRUE
,则先前输出中的现有主键将被新行替代。然而,如果当前交易中存在post_filtering_column = FALSE
的行,则旧数据中的对应行将被筛选掉(尽管这不会覆盖存储的post_filtering_column = TRUE
的新行)。如果当前交易中存在post_filtering_column = TRUE
的重复行,除一行外所有行将被随机丢弃,因此输出最终仅每个主键有一行。
数据集的输出文件格式可以在初始部署后更改,并将在下一次管道部署时生效。了解更多关于文件格式。
一次性操作,将现有数据集的所有权授予Pipeline Builder中的新输出。请注意,此操作可能需要在Pipeline Builder之外进行额外操作。
将您的数据集输出添加到管道后,请确保保存更改。如果您已完成数据变换并定义了管道工作流,您就可以部署管道并搭建数据集输出。在部署管道后,使用最终的数据集输出作为Ontology Manager中Ontology搭建的基础。
了解如何部署您的管道。