注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
数据期望是可以应用于数据集输出的要求。这些要求(称为“期望”)可用于创建检查,以提高数据管道的稳定性。
可以在每个管道输出上设置数据期望,以定义对结果输出的期望。Pipeline Builder目前支持两种数据期望:主键和行数。
如果任何期望出错,搭建将失败。任务期望窗格将显示哪些数据期望通过或失败。
主键期望提供一个或多个列名并验证:
在选定的特定列中,我们检查下面的每个条目是否唯一。
如果选择了两列,我们检查两列的组合是否唯一。
在我们的示例中,我们将使用id
和time
作为数据集中存在的两列。
示例数据集:
id | time |
---|---|
1 | 8pm |
1 | 9pm |
2 | 8pm |
3 | 8pm |
上述示例将通过检查。这是因为即使1
和8pm
分别重复,id
和time
的组合仍然是唯一的。
相反,以下示例将出错:
id | time |
---|---|
1 | 8pm |
2 | 9pm |
1 | 8pm |
该表将出错,因为1
和8pm
的组合重复。
行数期望提供最小和/或最大行数。
如果提供了最小行数,期望将验证至少有指定数量的行。
如果提供了最大行数,期望将验证最多有此数量的行。