分析代码工作簿Workbooks移动到生产环境

注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

移动到生产环境

我们建议使用 Code Workbook 或 Code Workspaces 进行基于代码的分析和管道原型。我们推荐使用 Pipeline Builder 和 Code Repositories 以搭建稳健的生产管道,并支持需要额外治理和审查层、高数据量或优化性能的工作流。

有关在哪里编写管道的更多信息,请查看我们的Code Workbook、Code Workspaces 和 Code Repositories 的比较

一旦您对在 Workbook 中得到的输出感到满意,您应该巩固您的逻辑和输出数据集,以使其可靠。在 Code Workbook 中执行此操作很简单。我们将介绍几个简单的步骤,可以帮助您使工作稳健并做好生产准备:

保护分支

要在 Workbook 中保护一个分支,您必须在该 Workbook 中具有所有者权限。

分支保护允许 Workbook 中的分支被锁定,防止任何人直接编辑该分支中的逻辑。相反,逻辑更改必须在另一个分支中创建,然后合并到受保护的分支中。通常,用户会保护 Workbook 中的master分支,但您也可以保护其他任何分支。

要保护分支,请单击分支菜单右上角的设置图标 (齿轮图标),如下面所示。

pipeline-branch-menu

打开保护此分支以启用分支保护,如下所示。默认情况下,受保护的分支不允许任何用户在该分支上使用运行按钮来计算输出数据集。这可以防止 Workbook 运行与计划的搭建冲突,后者将在下一节中描述。

pipeline-branch-protection

保存后,您的分支将被保护并设为只读。

pipeline-readonly

使用批量搭建

您可能希望定期刷新在 Code Workbook 中创建的输出数据集,无论是基于输入数据集的更新,还是基于时间的节奏。您可以通过为这些输出数据集安排定期的搭建来实现这一点。

  • 要为一个输出数据集安排定期的搭建,请打开数据集操作并单击管理计划
  • 要为多个输出数据集安排定期的搭建,请单击 Workbook 顶部的齿轮图标并选择探索数据沿袭。现在您应该能看到所有的输入数据集和从您的 Workbook 中保存的输出数据集。

这两项操作都会将您带到数据沿袭应用程序。在右侧窗格中单击日历图标以打开管理计划界面。按照提示设置定期计划。下图显示了一个每天搭建 dataset_1dataset_2 的计划。

Build schedules panel

了解更多关于在数据沿袭中创建计划的信息。

请注意,批量搭建不会更新未保存为数据集的变换(例如,未持久化的变换)。具体来说,考虑未持久化变换 A 是持久化变换 B 的父变换的情况。如果我使用批量搭建来构建变换 B,变换 B 将使用来自变换 A 的最新逻辑和来自上游输入数据集的最新数据。然而,在 Workbook 中显示的变换 A 的预览以及在变换 A 中创建的任何可视化将不会被此批量搭建更新。

数据健康检查

输出数据集的另一个最佳实践是添加数据健康检查。打开您的输出数据集并单击健康选项卡以访问数据健康页面。设置健康检查可以让您在数据集的搭建失败、过期或无法满足您指定的其他要求时收到通知。

了解更多关于 Foundry 中的数据健康的信息。

pipeline-data-health

组织输出

在将 Workbooks 用作项目的一部分时,我们建议在项目中创建以下文件夹结构:

  • /data
  • /workbooks
  • /templates

一旦设置好此文件夹结构,您可以轻松地从您的主文件夹中共享新的 Workbook:

  1. 将您的 Workbook 移动到/workbooks目录。
  2. 如果您在 Workbook 中创建了任何模板,请将它们移动到/templates目录。
  3. 要移动数据集,请单击 Workbook 左上角的输出下拉菜单,然后单击“更改文件夹…”以选择将添加新输出数据集的文件夹。选择项目中的/data文件夹。默认情况下,您在 Workbook 中生成的所有数据集都将移动到您选择的新文件夹中。
pipeline-folder-management pipeline-move-datasets

组织图表

您可能希望策划和组织您的图表,以便其他用户能够轻松理解变换的流程。在 Code Workbook 中提供的两个组织功能是节点着色和自动设计。

您可以使用节点着色在图表上直观地对节点进行分组。通过单击右上角的颜色按钮创建一个新的颜色组,并通过选择节点并使用颜色组上的**+**按钮将节点添加到颜色组。在 Workbook 内容助手中,您还可以按颜色组对数据集列表进行排序。

node-coloring

您还可以通过单击右上角的设计按钮自动设计图表的部分区域。默认情况下,自动设计会排列整个图表,但您也可以选择特定节点并单击自动设计来仅排列这些节点。

graph-autolayout

导出到代码库

如果您已在 Code Workbook 中完成了管道的原型设计,并希望将代码移动到 Code Repositories,您可以使用导出到代码库助手。了解更多关于导出到代码库的信息。

您可能希望将代码移动到 Code Repositories 出于多种原因:

  • Code Repositories 提供完整的 Git 支持,允许用户查看和恢复到之前的提交。
  • Code Repositories 支持增量变换和多输出变换。
  • Code Repositories 支持解除权限标记工作流并提供何时可以使用分支设置合并 PR 的控制。