注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

大规模监控

大规模监控引入了新功能,使得监控 Foundry 资源所需的时间更少。

如果您已经在使用检查组,可以将其视为监控资源的额外选项。它不会替代您已经设置的任何工作流程或检查组。

术语和定义

  • 指标: 资源会发出指标或日志。在这些指标之上创建监视器,以设定用户对给定资源的性能标准。
  • 资源: 在 Foundry 中可以监控的“事物”,包括数据集、代理、计划、对象和链接类型。
  • 范围: 范围是设定阈值的资源集合的边界。可以在不同的范围类型下监控资源:
    • 单一: 监视器仅应用于特定资源。
    • 项目: 监视器应用于项目或多个项目中指定类型的任何资源。
  • 监控规则: 在给定范围内的资源指标上设置的阈值或阈值集合,包括:
    • 资源类型
    • 指标阈值容差
    • 严重性级别指派
  • 监控视图: 一组订阅者关注的监控规则集合。
  • 订阅者: 订阅监控视图的用户。
  • 警报: 可具有低、中或高指派的通知,并发送给订阅者。

开始监控资源

您可以通过两种方式监控资源:

  • 将现有检查组升级为监控视图
  • 创建新的监控视图

将现有检查组升级为监控视图

要升级现有检查组,请在 数据健康 应用中打开您的检查组。在顶部横幅中选择升级为监控视图

您可以创建新的监控视图或将所有检查移动到现有监控视图。

  • 监控视图是文件系统资源。如果您正在创建新的监控视图,请确保将其存储在潜在订阅者可访问的项目中。
  • 升级检查组后,检查将继续得到支持,与现在完全一样。与健康检查相关的电子邮件摘要、警报、订阅或其他工作流程没有任何更改。
  • 每个检查组可以链接到单个监控视图,反之亦然;因此,您只能将一个检查组升级为一个现有的监控视图,或者如果没有合适的监控视图存在,则创建新的监控视图。

创建新的监控视图

要创建新的监控视图,请转到 数据健康 应用右上角的 监控视图 选项卡,创建新的监控视图。

创建监控规则

要创建监控规则,请导航到 管理监控器 选项卡。首先,选择您要监控的资源类型。根据资源类型,您可以选择仅在单一范围内监控该资源,或者可以在单个或多个项目范围内监控该类型的所有资源。

您必须对资源具有 只读 权限才能监控它们。要接收监控规则触发的警报,您必须对资源和监控视图具有 只读 权限。

配置监控器

监控器设置在资源发出的指标上。在设置监控器时,我们建议基于 Foundry 的健康标准进行某些配置。但是,您可以更改这些值或选择仅监控某些指标。您还可以确定警报失败时的严重性。目前有三种严重性类型:低、中和高。

编辑监控器

您可以通过从监控器列表中选择并在出现的侧面板中选择 编辑 来编辑您的监控器。

订阅警报

要订阅警报,请导航到 管理订阅 选项卡,其中列出了所有订阅的用户。您可以添加用户和用户组,并根据严重性配置他们的警报。当监控规则触发警报时,订阅包含该警报的监控视图的用户将通过电子邮件和 Foundry 通知收到通知。请注意,您必须对资源和监控视图具有 只读 权限才能接收警报。

与 PagerDuty 集成

监控视图可以在 PagerDuty 中触发和解决与 Foundry 内产生的类似警报对应的警报。此集成使用 PagerDuty V2 事件 API ↗,并且在大多数堆栈上不需要服务用户、电子邮件或自定义白名单或出口配置。单个集成将监控视图中给定严重性的所有警报映射到 PagerDuty 服务中定义的事件 V2 API 集成。请注意,监控视图中定义的多个集成可以映射到相同的 PagerDuty 集成密钥。

为您的 PagerDuty 服务创建一个事件 V2 API 集成

使用您期望的升级策略、紧急设置和支持时间配置 PagerDuty 服务。在服务的 集成 选项卡中,添加新的集成。选择 事件 API V2 作为集成类型,然后点击 添加。(这应该出现在 最受欢迎的集成 部分。)添加集成后,点击齿轮符号将显示其详细信息,包括您将在下一步中需要的 集成密钥

为您的监控视图创建新的 PagerDuty 集成

导航到您的监控视图的 管理订阅 选项卡;在 Pagerduty 通知 部分中,点击加号(+)以创建新的 PagerDuty 集成。您需要指定集成的名称、上一步中的集成密钥以及严重性级别。根据需要为每个适用的严重性级别重复此过程。

启用健康检查的 PagerDuty

默认情况下,监控视图将为监控规则警报以及升级/链接到监控视图的检查组所属的旧健康检查产生 PagerDuty 警报。但是,v1.860.0 版本(2024 年 2 月)之前创建的监控视图默认不会产生 PagerDuty 警报,需要手动启用。要启用此功能,请选择 启用健康检查的 PagerDuty 复选框。请注意,中等严重性的健康检查将使用 中等 严重性集成,关键严重性的健康检查将使用 严重性集成。

常见问题

可以监控哪些资源?

您可以监控以下内容:

资源类型支持的范围
代理单一, 项目
对象类型单一
链接类型单一
计划单一, 项目
流数据集单一, 项目
实时部署项目
数据集(即将推出)项目

现在所有健康检查都存在为监控规则了吗?

并非所有健康检查都存在为监控规则,但最重要的健康检查具有类似的监控规则。我们建议在链接的检查组中使用监控规则和健康检查的组合。总结监控视图和健康检查的覆盖范围:

  1. 只能使用监控视图监控的资源: 数据连接代理、Object Storage V2 (OSv2) 中的对象和链接、流数据集以及模型的实时部署
  2. 仅作为健康检查存在的数据集级别检查: 内容、新鲜度和模式检查;数据期望;OSv1 (phonograph) 和 foundry-sync 检查
  3. 替代健康检查功能的监控规则: 连续计划失败(替代计划状态检查)和计划持续时间监控

为了获得最全面的覆盖,我们建议将您的监控视图链接到一个由当前在监控视图中不可用的健康检查组成的检查组。

为什么使用监控器而不是健康检查?

监控器覆盖整个范围而不是单一资源。这意味着当有额外资源添加到该范围时,它会自动被规则覆盖。例如,设置为监控项目中所有代理的监控规则也会监控稍后添加到该项目中的任何进一步代理。

什么时候应该创建新的监控视图而不是向现有视图添加新规则?

一个好的做法是将单一监控视图视为检查组。一个监控视图应与关注该视图中监控器的用户组相关。如果特定用户组[a, b, c]关注特定项目[x, y, z],则创建一个包含这些项目中所有资源的单一监控视图。如果特定用户组只关注监控代理,则应创建一个单一监控视图来监控所有项目中的所有代理。

监控视图需要哪些权限?

由于监控视图是文件系统资源,用户需要对保存视图的项目或文件夹的权限。要接收警报或在资源上设置监控规则,用户需要访问他们希望监控的项目资源。即使具有所有必要权限的用户将用户或组订阅到监控视图,如果这些新订阅者没有对该监控视图的明确访问权限,他们也不会收到任何资源的警报。