注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

从 HyperAuto V1 迁移到 V2

随着 HyperAuto V2 的全面可用,V1 将被淘汰。不建议创建新的 V1 管道,在接下来的 12 个月内,用户应按照下文所述,从 HyperAuto V1 迁移到 V2。HyperAuto V2 是对 HyperAuto V1 的重大升级,提供了增强的性能和功能,包括:

  • 使用点击式向导进行更简单的配置过程。
  • 生成Pipeline Builder管道的能力,提供数据处理的完全透明度、全面的更改管理工作流以及显著的性能提升。
  • 实时流式传输输入数据,支持时间关键的操作应用。

HyperAuto V1 和 V2 之间显著的功能差异

下面描述了 HyperAuto V2 的重大更新和更改。

源类型支持

截至 2024 年 4 月 29 日,HyperAuto V2 仅支持 SAP 数据。强烈建议使用 V1 的 SAP 数据用户开始迁移到 V2(参见入门)。

多源支持

在 HyperAuto V1 中,用户可以将单个管道连接到多个源并在末尾执行广泛的合并。然而,这种方法可能会产生意外结果,现在已不再推荐。特别是,以 source 作为前缀的主键和外键可能在发生源名称更改时会中断。

在 HyperAuto V2 中,每个管道只能连接到一个源。因此,source 列不会在输出数据集中生成,也不再用于主键或外键生成的前缀。

需要此功能的用户建议在 HyperAuto V2 下游重新实现执行合并的管道。

外键生成

HyperAuto V1 采用了一种宽松的外键生成方法,这通常导致在不准确反映底层数据关系的表之间创建外键,从而导致潜在的不准确性和误导性解释。

HyperAuto V2 中生成键的逻辑已更新为使用更为保守的方法以提高准确性,因此外键列列表有所不同。如果您认为在 V2 中错误地省略了某个外键,请联系您的 Palantir 代表。

列重命名

HyperAuto V2 使用更丰富的元数据来重命名列,这可能会在输出数据集中生成与 HyperAuto V1 不同的列名。

自定义清洗函数

HyperAuto V2 不支持在管道中应用自定义清洗函数的实现。建议用户在 HyperAuto 的下游创建管道以实现其自定义逻辑。

输入的批量合并

HyperAuto V2 不支持配置多个同步链接到相同输出表(在 V1 中称为批量合并组件)。建议用户在 HyperAuto V2 之前合并其输入,然后配置一个基于文件夹的管道从 HyperAuto 消费。

将现有的 HyperAuto V1 管道迁移到 HyperAuto V2

建议用户通过以下步骤逐步将其管道从 HyperAuto V1 迁移到 V2:

  1. 创建一个新的 HyperAuto V2 管道,以复制现有的 V1 配置并消费相同的输入。
  2. 识别管道的下游消费者(存储库、分析、应用程序)并逐步将其指向新的 HyperAuto V2 输出。

在决定迁移到 HyperAuto V2 的情况下,现有的 V1 存储库将保持原样,但与原始模板“断开”。这意味着存储库将被转换为常规 Python 变换存储库,并将由用户拥有,就像任何其他自定义存储库一样。

在将 HyperAuto V1 存储库与原始模板断开后,自动拉取请求创建过程将被终止,用户将必须手动创建拉取请求以更新其 V1 配置。