注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
此页面描述了 HyperAuto V2 的配置选项。以下步骤构成了 HyperAuto V2 的配置过程:
有关 HyperAuto V1 配置参考,请参阅旧版文档。
HyperAuto V2 配置向导的第一步是指定新管道的名称和 Foundry 文件系统中的所需文件夹位置。HyperAuto 管道资源和相关的输出数据集将在此文件夹中创建。
HyperAuto V2 源配置页面帮助您选择源系统和数据摄取方法。
此选项适用于用户必须在子系统之间选择的源(例如 SAP 中的“上下文”)。子系统被定义为源中的配置,导致其自身的可用表和元数据集。因此,在子系统之间切换将完全更改其他可用配置,例如支持的管道模式(批处理与流式处理)和在输入配置页面上可供选择的表和现有同步。
将 Foundry 连接到 SAP 系统有三种主要的架构模式:
HyperAuto 支持两种同步和数据变换模式。您可以在源配置页面上的初始 HyperAuto 管道设置中选择流式处理或批处理模式。
流式处理需要实时处理数据的持续计算,因此可能会增加源系统和 Foundry 内部的负载。
输入配置页面是用户选择要由特定 HyperAuto 管道处理的特定输入的地方。
为了便于使用,输入选择 UI 支持几种方法来浏览和发现相关的源表。对于 SAP,这些方法包括:
从输入配置页面也可以创建同步,允许用户为任何尚未同步的输入创建新同步。这使得用户可以仅通过几次点击就从全新的源开始到完全配置的 HyperAuto 管道,而无需弄清楚每个同步应该如何配置。
同步创建是一个 Beta 功能,可能在您的 Foundry 实例上不可用。如果您有兴趣使用此功能,请联系您的平台管理员。
您的 Foundry 注册可能在建议选项卡上启用了 AIP 功能;更多信息可以在AIP 文档中找到。
管道配置页面使您能够设置满足您需求的管道,选项包括:
对于包含多语言数据表的源,HyperAuto 提供语言筛选步骤,以避免在输出中为可能的每种语言填充多行。此处选择的语言将作为筛选应用于相关表,在应用其他变换(例如合并到其他表)之前。
您可以决定用户希望在所有源输入中自动应用多少处理。所有配置选项默认启用,但可以根据需要禁用(例如,在功能和管道性能之间取得平衡)。
HyperAuto 通过源的元数据接收表分类,将其分为对象表或丰富表。在此定义中,丰富表是那些本身没有内在价值的表,而是作为扩展或查找表(例如,文本描述表)用于关联的对象表。
通过这种方式,HyperAuto 能够从源中查询 object
<-> enrichment
表关系,并生成从丰富表到对象表的相应左合并。这为每个对象提供了丰富、全面的去规范化数据集,无需与其他表合并即可进行广泛的审查。
这在搭建 Foundry Ontology 时特别有用,因为标准方法是使用语义导向的去规范化数据模型。
在 SAP 的情况下,“TEXT”表在 HyperAuto 的处理中被分类为 Enrichment
表。例如,MAKT
(物料描述)可以与 MARA
(一般物料数据)合并。
分类为 Enrichment
的表将作为批量输入而不是流式输入被消耗。这允许管道从这些表创建“查找”左合并到核心流中,在不尝试同时合并两个实时流的情况下增强流数据。
如果模式符合 Foundry 流式处理和使用的底层 Avro 文件格式,流式模式下的 Enrichment
表现有同步将仅在配置相关输入时提供。
提示:对于 SAP 同步,配置选项 cleanFieldNamesForAvro
设置为 true
确保模式符合 Avro(流式)标准。HyperAuto 创建的同步将默认启用此选项。
HyperAuto 可以使用源提供的列元数据将源定义的列名称重命名为不熟悉源模式的用户易于使用和自我解释的名称。
这通过将列的可读名称连接到原始列名称的形式 Human readable_|_original
来实现,在与数据交互时提供对这两种形式的访问,以实现最大可用性。
如果源没有单列主键,HyperAuto 可以动态生成主键。源的元数据包含哪些列组合在一起构成主键的信息,HyperAuto 使用这些信息构建连接逻辑以创建 primary_key
列。
这些值以 _|_
分隔符连接。
拥有单列主键是将输出用作 Ontology 对象支持数据集所必需的。
HyperAuto 还可以访问源数据模型元数据中定义的对象到对象关系。使用这些元数据,可以在管道中创建逻辑,为每个关系生成外键列(通过连接相关列,类似于主键逻辑),可以用于合并或从中构建 Ontology 链接。
外键命名的形式为 column1_column2_|_foreign_key_tableA
,其中:
_|_
连接 column1
和 column2
组合而成,且tableA
的 primary_key
。外键是为对象之间创建 Ontology 关系所必需的。
当启用自动合并配置选项时,不会为对象到丰富表的关系创建外键。
HyperAuto 提供逻辑以自动去除包含重复行的表。这在诸如变更数据捕获(CDC)系统等情况下特别有用,后者在每次发生更改时都会附加新行。HyperAuto 将去重,选择每个主键的最新行。
在流式模式下,去重的处理方式有所不同。将创建两个流式输出。主要输出将解析为去重数据集,当由批处理或增量管道读取时。如果需要,变更日志输出将提供未去重的数据集。两个输出都可以正常地由另一个流消耗。
如果构成表主键的列不属于以下类型之一,它们将被强制转换为字符串以确保去重可以工作:
数据清理配置选项从所有表中删除常见的数据清洁问题。有关解决的问题类型的更多信息,请参见下文。
""
字符串被转换为 null
(Foundry 数据的标准做法)。DECIMAL
数据类型被转换为 DOUBLE
,在整个平台上具有好处(包括启用对 Ontology 属性的支持)。