注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
除了变换单个数据集之外,Pipeline Builder还允许您通过合并和并集将数据集结合在一起。
合并将两个具有至少一个匹配列的数据集结合在一起。根据您配置的合并类型,您的合并输出可以结合匹配行并排除不匹配行。
要将两个数据集合并在一起,请在图中选择第一个数据集节点并点击合并。
第一个选择的数据集是左侧数据集。选择另一个数据集节点作为右侧数据集。点击开始以配置合并。
在合并表单中,您可以编辑合并类型、选择匹配条件,并预览输出表。
null
。Clean Facility Data
数据集中的city
列等于右侧Facility Person
数据集中的CITY
列。以上和以下示例中的所有数据都是随机生成的,并不具代表性。
您可以决定在合并中包含特定列,并为右表添加前缀。选择显示高级以展开前缀和列字段,为右表输入前缀,并选择要在合并中包含的列。在下面的示例中,我们保留了左数据集中的所有列,仅包含右数据集中的STATE
和population
列。
完成合并配置后,点击应用将合并添加到您的工作流中。您将在图中看到连接到两个合并数据集的合并节点。我们将新的合并命名为合并人员数据
,它是原始Clean Facility Data
和Facility Person
数据集的直接输出。
点击合并节点并选择编辑以重命名或编辑合并。
拖动节点上的白色或灰色圆圈以更改连接并移除图中的链接。