数据连接与集成数据健康Health checks检查类型

注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

检查类型

本页概述了Data Health中可用的各种检查类型,包括任务级检查、搭建级检查和新鲜度检查。

任务级检查与搭建级检查

理解 任务状态、搭建状态和搭建持续时间

以下定义澄清了Foundry中任务和搭建的含义:

  • 任务: 由单个变换逻辑定义的Spark计算。换句话说,任务是产生单个数据集(或多个,如果使用多输出变换)的单个变换。任务被分解为一组阶段。
  • 搭建: 具有定义目标数据集的任务集合(如计划中定义,或如您在主搭建应用程序页面上看到的数据集)。

我们使用以下Data Health检查以确保任务和搭建成功运行:

  • 任务状态:每当安装其上的数据集刷新或作为任何搭建的一部分创建时触发。如果目标数据集成功搭建,即使其所在的搭建在下游失败,任务状态检查也会成功。然而,请注意,如果搭建在目标数据集的上游失败,您的目标数据集将记录为“已取消”的搭建,任务状态不会对目标数据集进行评估。
  • 搭建持续时间和搭建状态:这些允许您监控搭建的状态(包括所有中间体)。但是,它们仅在安装于输出(搭建的目标数据集)时触发。
    • 这些检查应仅安装于输出。在计划中安装这些检查于中间体没有意义,因为它们在计划搭建时不会被触发。
    • 一般而言,建议所有计划在输出上安装搭建状态。如果您有搭建状态,通常不需要也不建议在相同计划生成的其他数据集上安装任务状态检查,因为每个任务失败都会触发搭建状态检查。

在决定何时何地放置任务状态或搭建状态检查时,请参阅我们的应用健康检查指南

有关检查的更多详情和进一步澄清,请参阅搭建状态任务状态的检查参考。

新鲜度检查

理解 同步新鲜度、数据新鲜度和自上次更新以来的时间

这三种检查都关注于“新鲜度”(即您的数据某个方面的最新程度),但它们使用不同的方法来评估新鲜度:

  • 自上次更新以来的时间:评估数据集的新鲜度。计算当前时间与最后一次提交的事务之间经过的时间(即使事务为空。空事务不会更改数据集中的数据)。
  • 数据新鲜度:评估数据集中数据的新鲜度。计算最后一次提交的事务与时间戳列最大值之间经过的时间。此检查仅在提交事务时运行。
  • 同步新鲜度:评估同步数据集中的数据的新鲜度(例如,一个Phonograph表)。计算数据集最新同步时间与日期时间列最大值之间经过的时间。

对于数据和同步新鲜度,理想情况下列中的时间戳代表源系统中行被添加的时间。

在决定何时何地放置新鲜度检查时,请参阅我们的应用健康检查指南

有关检查的更多详情,请参阅自上次更新以来的时间数据新鲜度同步新鲜度的检查参考。

当健康检查失败时我可以中止搭建吗?

大多数标准健康检查依赖于任务完成以进行计算。如果您的数据集是在代码仓库中创建的,您可以使用数据期望在搭建时定义运行的检查。这将允许您在出错时中止搭建,并使用Data Health监控这些检查。