注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

HyperAuto V2 配置选项

此页面描述了 HyperAuto V2 的配置选项。以下步骤构成了 HyperAuto V2 的配置过程:

有关 HyperAuto V1 配置参考,请参阅旧版文档

名称和位置

HyperAuto V2 配置向导的第一步是指定新管道的名称和 Foundry 文件系统中的所需文件夹位置。HyperAuto 管道资源和相关的输出数据集将在此文件夹中创建。

源配置

HyperAuto V2 源配置页面帮助您选择源系统和数据摄取方法。

HyperAuto V2 源配置向导

源系统

此选项适用于用户必须在子系统之间选择的源(例如 SAP 中的“上下文”)。子系统被定义为源中的配置,导致其自身的可用表和元数据集。因此,在子系统之间切换将完全更改其他可用配置,例如支持的管道模式(批处理与流式处理)和在输入配置页面上可供选择的表和现有同步。

SAP 源系统

将 Foundry 连接到 SAP 系统有三种主要的架构模式

  • 直接连接: 连接器安装在 ERP 系统本身的应用程序服务器上,提供对表的直接访问。
  • SLT: 连接器安装在 SAP SLT 复制服务器上,该服务器连接到基础 ERP 系统。使用流式管道模式需要 SLT。
  • 远程: 连接器安装在连接到基础 ERP 系统的“网关”应用程序服务器上。通常用于 SAP 源不满足连接器先决条件的情况。 在 SLT 或远程连接的情况下,用户必须选择用于识别要连接的 SAP 子系统的上下文。

管道模式

HyperAuto 支持两种同步和数据变换模式。您可以在源配置页面上的初始 HyperAuto 管道设置中选择流式处理或批处理模式。

  • 批处理: 管道的每次运行都会重新处理所有输入并覆盖所有现有输出。这是默认模式,允许最大范围的功能,包括聚合和去重。此模式推荐用于大多数应用案例。
  • 流式处理: 源系统会不断轮询尚未处理的数据。一旦在源系统上可用,数据会立即被处理,从而将同步到 Ontology 的延迟减少到接近实时。这对于依赖 Ontology 去重流数据的实时应用程序特别有价值。

流式处理需要实时处理数据的持续计算,因此可能会增加源系统和 Foundry 内部的负载。

输入配置

输入配置页面是用户选择要由特定 HyperAuto 管道处理的特定输入的地方。

输入配置向导

为了便于使用,输入选择 UI 支持几种方法来浏览和发现相关的源表。对于 SAP,这些方法包括:

  • 模块: 对源内表格的分类提供了分层视图,用户可以从中进行探索和批量添加。如果相关,表可以存在于多个模块中,但不能被多次选择。
  • 工作流: 另一种表格分类形式,专注于源的特定常见应用案例(例如 SAP 源的供应链管理)。同样,用户可以使用工作流进行探索和批量添加,并可以在这些工作流和模块之间切换,而不会丢失进度或意外重复选择。

从输入配置页面也可以创建同步,允许用户为任何尚未同步的输入创建新同步。这使得用户可以仅通过几次点击就从全新的源开始到完全配置的 HyperAuto 管道,而无需弄清楚每个同步应该如何配置。

Beta 功能

同步创建是一个 Beta 功能,可能在您的 Foundry 实例上不可用。如果您有兴趣使用此功能,请联系您的平台管理员。

您的 Foundry 注册可能在建议选项卡上启用了 AIP 功能;更多信息可以在AIP 文档中找到。

管道配置

管道配置页面使您能够设置满足您需求的管道,选项包括:

管道配置向导

语言选择

对于包含多语言数据表的源,HyperAuto 提供语言筛选步骤,以避免在输出中为可能的每种语言填充多行。此处选择的语言将作为筛选应用于相关表,在应用其他变换(例如合并到其他表)之前。

配置选项

您可以决定用户希望在所有源输入中自动应用多少处理。所有配置选项默认启用,但可以根据需要禁用(例如,在功能和管道性能之间取得平衡)。

自动合并

自动合并示例

HyperAuto 通过源的元数据接收表分类,将其分为对象表或丰富表。在此定义中,丰富表是那些本身没有内在价值的表,而是作为扩展或查找表(例如,文本描述表)用于关联的对象表。

通过这种方式,HyperAuto 能够从源中查询 object <-> enrichment 表关系,并生成从丰富表到对象表的相应左合并。这为每个对象提供了丰富、全面的去规范化数据集,无需与其他表合并即可进行广泛的审查。

这在搭建 Foundry Ontology 时特别有用,因为标准方法是使用语义导向的去规范化数据模型。

SAP 中的自动合并

在 SAP 的情况下,“TEXT”表在 HyperAuto 的处理中被分类为 Enrichment 表。例如,MAKT(物料描述)可以与 MARA(一般物料数据)合并。

流式处理

分类为 Enrichment 的表将作为批量输入而不是流式输入被消耗。这允许管道从这些表创建“查找”左合并到核心流中,在不尝试同时合并两个实时流的情况下增强流数据。

如果模式符合 Foundry 流式处理和使用的底层 Avro 文件格式,流式模式下的 Enrichment 表现有同步将仅在配置相关输入时提供。

提示:对于 SAP 同步,配置选项 cleanFieldNamesForAvro 设置为 true 确保模式符合 Avro(流式)标准。HyperAuto 创建的同步将默认启用此选项。

人类可读的列名称

人类可读的列名称

HyperAuto 可以使用源提供的列元数据将源定义的列名称重命名为不熟悉源模式的用户易于使用和自我解释的名称。

这通过将列的可读名称连接到原始列名称的形式 Human readable_|_original 来实现,在与数据交互时提供对这两种形式的访问,以实现最大可用性。

生成主键

生成主键

如果源没有单列主键,HyperAuto 可以动态生成主键。源的元数据包含哪些列组合在一起构成主键的信息,HyperAuto 使用这些信息构建连接逻辑以创建 primary_key 列。

这些值以 _|_ 分隔符连接。

拥有单列主键是将输出用作 Ontology 对象支持数据集所必需的。

生成外键

生成外键

HyperAuto 还可以访问源数据模型元数据中定义的对象到对象关系。使用这些元数据,可以在管道中创建逻辑,为每个关系生成外键列(通过连接相关列,类似于主键逻辑),可以用于合并或从中构建 Ontology 链接。

外键命名的形式为 column1_column2_|_foreign_key_tableA,其中:

  • 列值通过使用分隔符 _|_ 连接 column1column2 组合而成,且
  • 存在一个外部关系,使得用户可以通过此列合并此表与 tableAprimary_key

外键是为对象之间创建 Ontology 关系所必需的。

当启用自动合并配置选项时,不会为对象到丰富表的关系创建外键。

去重行

去重行

HyperAuto 提供逻辑以自动去除包含重复行的表。这在诸如变更数据捕获(CDC)系统等情况下特别有用,后者在每次发生更改时都会附加新行。HyperAuto 将去重,选择每个主键的最新行。

流式处理

在流式模式下,去重的处理方式有所不同。将创建两个流式输出。主要输出将解析为去重数据集,当由批处理或增量管道读取时。如果需要,变更日志输出将提供未去重的数据集。两个输出都可以正常地由另一个流消耗。

如果构成表主键的列不属于以下类型之一,它们将被强制转换为字符串以确保去重可以工作:

  • 字符串
  • 时间戳
  • 布尔
  • 二进制
  • 整数
  • 字节
  • 短整数
  • 浮点
  • 长整数
  • 双精度

数据清理

数据清理

数据清理配置选项从所有表中删除常见的数据清洁问题。有关解决的问题类型的更多信息,请参见下文。

  • 空字符串处理: "" 字符串被转换为 null(Foundry 数据的标准做法)。
  • DECIMAL 转换: DECIMAL 数据类型被转换为 DOUBLE,在整个平台上具有好处(包括启用对 Ontology 属性的支持)。