本体对象编辑物化

注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

物化

最新的数据对许多 Foundry 工作流至关重要。Ontology 用户可以通过结合来自输入数据源和用户编辑的数据,创建来自 Ontology 的索引数据的物化,其中包含每个 Object 实例的最新状态。

物化的应用案例

物化的两个主要应用案例是:

  • 搭建需要每个 Object 实例的最新状态(包括用户编辑)的下游 Foundry 管道。
  • 以启用下载包含所有 Object 实例最新状态的 Ontology 数据,以支持一种 Object 类型。

我们建议通过创建物化数据集并通过其他 Foundry 数据集的现有下载工作流(如 数据导出 和通过 Foundry 变换 导出)来在 Foundry 中协调批量下载。

创建物化数据集

通过在 Ontology 管理器的数据源选项卡中切换编辑配置,导航到物化选项卡。在物化选项卡中,您可以根据输入数据源类型创建物化 Object 数据集或 Object 限制视图,并进行多种配置。

物化默认位置

数据输出数据集与物化数据集的比较

在 Object 存储 V1(Phonograph)中,数据输出数据集相当于物化数据集。要启用用户编辑某种 Object 类型或具有连接表的多对多链接类型,在 OSv1 中需要数据输出数据集。

Object 存储 V2 不需要物化数据集来启用用户编辑。相反,用户可以通过在 Ontology 管理器的数据源选项卡中切换编辑配置来启用某种 Object 类型的用户编辑。这使得在 OSv2 中物化是非必填的,用户只需要在上述两个主要应用案例中创建物化。OSv2 还允许创建多个物化数据集,以便用户仅物化某种 Object 类型的部分属性。

OSv1 数据输出数据集与 OSv2 物化数据集之间还有其他行为差异,如下所述。

数据输出和物化数据集中的搭建计划

Object 存储 V1(Phonograph)数据输出数据集和 Object 存储 V2 物化数据集以不同方式处理搭建计划。

  • 在 OSv1 中,当有新的用户编辑时,没有机制来触发数据输出数据集的搭建。相反,用户可以创建计划,以按照他们希望的频率搭建他们的数据输出数据集。当没有新数据时,这些搭建会自动中止,以避免使用任何额外的计算资源。如果没有设置计划且未搭建数据输出数据集,数据输出数据集中的数据可能无法准确代表 Ontology。
  • OSv2 旨在以不同方式解决两个独立的应用案例。
    • 若要在编辑应用时立即反映用户编辑,用户可以启用用户编辑的自动传播。此模式会自动将用户编辑传播到配置的物化数据集中(延迟几分钟)。这可能会产生额外费用,因为可能会根据新用户编辑的频率发生更频繁的搭建。
    • 如果用户编辑传播到物化数据集的延迟不是关键问题,用户可以通过配置定期搭建来降低成本。在此模式下,物化数据集会在输入数据源有新数据时或每6小时重建一次。

创建新输出数据集

现有输出数据集

数据输出和物化数据集的保留

数据输出和物化数据集的保留方式不同。

  • 在 OSv1 中,数据输出数据集的行为类似于常规数据集,意味着可以在平台内指定特定的保留策略。这使用户可以在定期搭建数据输出数据集时回顾 Object 类型状态的历史快照。

  • 在 OSv2 中,物化数据集的保留不可自定义。历史事务会被不断删除,仅保证最新快照可用。在这种情况下,如果保留 Object 类型状态的历史快照很重要,用户需要在下游设置变换。

数据输出和物化数据集中的数据集架构

Object 存储 V1(Phonograph)数据输出数据集和 Object 存储 V2 物化数据集与输入数据源架构的关系不同。

  • 在 OSv1 中,输入数据源的架构被复制并用作数据输出数据集的架构。
  • OSv2 改变了这种行为,以增加 Foundry Ontology 的可读性。由于用户从 Ontology 中物化数据,物化数据集使用的架构是从 Ontology 定义中复制的,而不是依赖于支持的数据源配置。具体来说,每个属性的 API 名称 元数据被用作物化数据集的架构。如果您希望在从 OSv1 迁移到 OSv2 时继续使用输入数据源的架构(例如,为现有数据输出数据集保证向后兼容性),请联系您的 Palantir 代表。

__ 前缀的列(例如 __is_deleted, __patch_offset)在物化数据集中是用于 Foundry 去重目的的元数据列,不代表 Object 类型的任何状态信息。这些列可能在未来版本中被重命名或删除,且不会事先警告,不应在生产工作流中使用。

数据输出和物化数据集中的限制视图

Object 存储 V1(Phonograph)不允许物化使用限制视图作为输入数据源的 Object 类型的限制视图。用户只能物化包含限制视图输入数据源的支持数据集中所有行的数据输出数据集。然后,用户需负责基于其访问限制正确保障对数据输出数据集的访问。

在 Object 存储 V2 中,用户可以为使用限制视图作为输入数据源的细粒度权限 Object 类型配置常规数据集或限制视图作为物化资源,如下所示。

物化资源类型选择

在拥有多个输入数据源的 Object 类型的情况下,用户可以通过选择他们希望物化数据的输入数据源来配置其物化数据集。如果未选择某个输入数据源,则从该输入数据源映射的 Object 类型属性将不会在物化数据集中反映。如果某些输入数据源是限制视图,用户有两种选择:

  • 用户可以选择其中一个限制视图资源以物化为限制视图。下面显示了一个示例配置。

物化限制视图

  • 用户可以选择多个输入数据源,但在这种情况下,他们只能将 Ontology 数据物化为Foundry 数据集。此限制存在是因为不同的限制视图输入数据源可以具有不同的策略配置,且限制视图当前不支持设置列级策略。下面显示了一个示例配置。

具有 RV 源的物化数据集