注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

推荐的支持流程

监控数据管道的过程通常最好通过实施值班轮换来管理。这意味着一次有一名团队成员积极监控数据管道(“值班”),并将响应数据管道问题(通常是健康检查失败的形式)作为她值班期间的最重要优先事项。

以下步骤推荐用于建立一个有效的数据管道监控团队:

  • 定义您监控的不同数据管道的支持时间。
    • 数据管道在夜间或周末正确更新是否至关重要?
  • 定义警报机制。更多信息请参见下文
  • 定义支持轮换时间表。
    • 支持轮换持续多长时间,交接应该在哪一天进行?
    • (如果您使用外部工具,如Pagerduty)您是否需要一个次要的值班轮换时间表,以防主要值班人员错过警报?
  • 准备数据管道文档。
    • 应该很容易找到文档所在位置。一个好的位置示例是在Foundry中,将文档放在项目的顶级documentation文件夹中,即数据管道关键输出所在的位置。
    • 文档应包括:
      • 数据管道的目的概述、输出的使用方式、组织期望和SLA。
      • 数据管道的最新数据沿袭图。
      • 记录所有可能需要联系的上游支持团队,以防出现问题。包括的示例:平台支持团队、Palantir数据管道支持团队、为您的数据管道提供数据的其他组织团队。
      • 记录升级路径(如果有需要立即关注的紧急问题无法自行解决,值班人员如何升级?)
      • 数据管道中经常出现的问题部分,以便自己或下一个值班人员可以轻松识别以前发生的问题并应用相同的解决方案。一些团队可能选择记录所有发生的技术问题,但要考虑过度记录可能使快速找到信息更加困难。
  • 定义值班轮换交接的SOP
    • 交接会定期安排吗?
    • 您将如何跟踪跨越不同团队成员值班轮换的长期问题?
    • 谁有责任跟踪和解决长期问题?最初对问题进行分类的值班团队成员是在她不值班时继续处理问题,还是问题转交给正在值班的人?
  • 定义向下游消费者传达停机和维护的流程。这有助于尽量减少下游数据管道维护人员因非问题而收到警报的风险。

警报机制

警报机制允许您对数据管道中健康检查失败做出反应。这减少了定期查看数据沿袭图、仪表盘或报告以了解数据管道状态的需要。选择适当的警报机制取决于警报的规模和您的SLA的紧密程度(因为这决定了响应时间的关键性)。

可用的自动警报选项包括:

  • 订阅您数据管道中的所有个别健康检查。 这样,如果您启用了此通知设置,您将收到Foundry和电子邮件通知。然而,这种方法可能难以手动维护。
  • 订阅检查组摘要 检查组应包括您希望在数据管道中监控的所有健康检查。
    • 为了减少噪音,您可以在检查组的时间表中配置,仅在数据管道中有检查失败时收到通知。
  • 与外部警报工具集成,如Pagerduty。
    • 有些工具通过管理值班轮换和时间表,包括次要值班轮换来提供帮助。
    • 有些工具可以在警报设置上提供更大的灵活性和定制化。如果您有一个非常关键且具有严格时间SLA的数据管道,定制通知升级方式尤其有用。
    • 有些工具允许您进一步与您偏好的通信工具集成。
    • 提供上述功能的行业标准工具示例是Pagerduty。当前推荐的与Pagerduty集成方式是通过电子邮件集成。

无论您实施哪个选项,实施筛选以避免在其他Foundry平台通知中遗漏警报都是有益的。