注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
数据沿袭计划编辑器是您可以创建新计划和编辑现有计划的地方。您还可以查看现有计划的指标,并查看计划如何搭建您的数据集。
以下步骤将引导您进入数据沿袭计划编辑器,您可以在其中创建新计划:
这将带您进入一个数据沿袭图,右侧的计划面板列出了所有影响数据集的当前计划。
要创建计划,请点击创建计划按钮。
这将带您进入计划编辑器。
要定义计划,您需要完成以下部分。
在数据沿袭中创建计划时,计划适用于图中配置的分支(包括回退分支)。
目标数据集指定搭建结束的数据集。默认情况下,将只搭建这些数据集。在其他配置中,这些数据集可能是正在搭建的数据集链中的最后一个。
可以通过将目标数据集添加到图中并标记为目标来选择它们。
数据集将在数据沿袭窗口右上角设置的分支上搭建。图中的数据集将根据它们如何影响或受计划影响而着色。
排除的数据集指定在图遍历过程中将被忽略的数据集,以确定要搭建哪些数据集。所有被忽略的数据集上游的数据集将不会被搭建。
触发器指定搭建何时运行。搭建将在触发器中定义的条件满足时运行。
触发器有两种基本类型:
时间: 时间触发器在指定的时间点满足。
当数据集更新时: 一旦指定的数据集更新发生在平台中,就满足。
触发器可以组合起来创建更复杂的复合触发器。可以使用触发器编辑器中的菜单选择组合触发器的方法:
任何这些触发器: 当任何一个组件触发器满足时,触发器将满足。
所有这些触发器: 当所有组件触发器满足时,触发器将满足。
高级配置: 明确配置如何组合组件触发器。
当选择高级配置时,组件触发器通过在两个触发器之间插入关键字AND
和OR
进行组合。复合触发器可以通过将其放在括号(
和)
内进一步组合。
AND
表示当两个组件触发器都满足时,复合触发器将满足。
OR
表示当任一组件触发器满足时,复合触发器将满足。
搭建类型指定如何搭建所选数据集:
单次搭建: 搭建目标数据集(不会搭建其他数据集)。
全量搭建(包括上游): 搭建所有目标数据集和该目标的所有上游数据集,除排除的数据集外。如果上游依赖更改,搭建的数据集可能会更改。
连接搭建: 搭建输入数据集(排除)和目标数据集(包含)之间的所有数据集。如果数据集位于输入数据集和目标数据集之间,但被显式添加为输入,它仍将由计划搭建。如果选择了数据集作为目标数据集,但没有从输入数据集到目标数据集的搭建路径,则不会搭建目标数据集。
对于连接搭建,连接目标数据集和上游数据集的所有数据集必须通过计划设置的分支上的任务规范路径连接。
我们通过下面的示例沿袭进行说明,数据集D1, ..., D6
,其中数据集D2的两个不同分支被用作D3和D4的输入。主分支上输入为D1且目标为D5和D6的连接搭建计划将尝试仅搭建D2、D4和D6。
这种行为发生是因为在主分支上从输入D1到目标D6的连接搭建选择将选择数据集D2、D4和D6,因为在数据集D1和D6之间存在任务规范路径。然而,从输入D1到目标D5的连接搭建选择将不存在,因为沿主分支的任务规范路径已断开。
D1 (master) --> D2 (master) --> D4 (master) --> D6 (master)
|
| D2 (develop) # D2的开发分支
|
--> D3 (master) --> D5 (master)
为了在此示例中将数据集D3包含在预定搭建中,应将搭建更改为完整搭建,这将包括D3以及输入D1,因为它位于D5的上游。或者,为了保持连接搭建选择,可以编辑以D2(开发)作为输入和D3作为输出的变换,在主分支中包含一个额外的虚拟输入D7,如下所示。在主分支上以D1作为输入并以D5和D6为目标的连接预定搭建将现在搭建D2、D3、D4、D5和D6。
D1 (master) --> D2 (master) --> D4 (master) --> D6 (master)
|
| D2 (develop) # D2的开发分支
|
D7 (master) -------> D3 (master) --> D5 (master)
上述代码表示一个分支结构图,通常用于版本控制系统(如Git)中。master
表示主分支,而develop
表示开发分支。箭头表示分支从一个提交合并到另一个提交的关系。
对于连接搭建计划,如果您使用的数据集来自于与包含计划的分支不同的分支,那么必须在输入和目标搭建之间的同一分支上存在一个连接任务规范路径,以便将这些数据集包含在搭建中。
为了适应数据管道的动态特性,每次计划被触发时都会重新评估要包含在搭建中的数据集集合。搭建范围定义了计划搭建的边界,即使管道的内容更改,这些边界也将保持不变。有两种范围选择可用:
项目范围确保计划仅在所选项目中的数据集上运行。它允许计划运行不受用户权限更改的影响。当搭建内容不太可能更改到无法在所选项目内运行的程度时,此选项最可靠(如下所述)。
在以下情况下,搭建不能按项目范围进行:
通过用户范围,计划搭建将代表最后编辑(或创建)计划的用户触发。因此,搭建将仅包括用户有权限搭建的数据集。当计划的管道可能更改并导致项目范围不可能时(例如,数据集被移动到另一个项目,新数据集需要以用户账户运行等),此选项最可靠。
如果用户被停用或失去对搭建所需数据集的权限,计划搭建将无法启动。按用户账户范围时,请确保账户有可靠的权限,并在用户即将被停用时记得更改所有权。
高级设置指定了额外的搭建选项:
强制搭建: 运行搭建时忽略陈旧信息。所有数据集将被搭建,无论它们是否陈旧。此选项几乎从不需要。需要此选项的罕见情况是:
失败时中止搭建: 如果搭建中的任何任务不成功,立即通过取消所有其他任务来结束搭建。
为失败任务自定义尝试次数: 失败任务的运行尝试次数。重试任务作为同一搭建的一部分运行。只有在所有重试尝试过或发生错误指示无法执行重试时,任务才被视为失败。将此值设置为1将防止重试,因为任务只会尝试一次。请注意,并非所有类型的失败都可以重试。当计划运行时,重试次数将由管理员配置的最大值限制。
搭建完成时发送通知: 默认情况下,不会为计划的搭建发送通知。要启用它们,请选择此选项。
定义好您的计划后,点击保存计划按钮。
这将带您回到计划页面,您应该能看到已保存的计划。