注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
我们建议使用 Code Workbook 或 Code Workspaces 进行基于代码的分析和管道原型。我们推荐使用 Pipeline Builder 和 Code Repositories 以搭建稳健的生产管道,并支持需要额外治理和审查层、高数据量或优化性能的工作流。
有关在哪里编写管道的更多信息,请查看我们的Code Workbook、Code Workspaces 和 Code Repositories 的比较。
一旦您对在 Workbook 中得到的输出感到满意,您应该巩固您的逻辑和输出数据集,以使其可靠。在 Code Workbook 中执行此操作很简单。我们将介绍几个简单的步骤,可以帮助您使工作稳健并做好生产准备:
要在 Workbook 中保护一个分支,您必须在该 Workbook 中具有所有者权限。
分支保护允许 Workbook 中的分支被锁定,防止任何人直接编辑该分支中的逻辑。相反,逻辑更改必须在另一个分支中创建,然后合并到受保护的分支中。通常,用户会保护 Workbook 中的master
分支,但您也可以保护其他任何分支。
要保护分支,请单击分支菜单右上角的设置图标 (),如下面所示。
打开保护此分支以启用分支保护,如下所示。默认情况下,受保护的分支不允许任何用户在该分支上使用运行按钮来计算输出数据集。这可以防止 Workbook 运行与计划的搭建冲突,后者将在下一节中描述。
保存后,您的分支将被保护并设为只读。
您可能希望定期刷新在 Code Workbook 中创建的输出数据集,无论是基于输入数据集的更新,还是基于时间的节奏。您可以通过为这些输出数据集安排定期的搭建来实现这一点。
这两项操作都会将您带到数据沿袭应用程序。在右侧窗格中单击日历图标以打开管理计划界面。按照提示设置定期计划。下图显示了一个每天搭建 dataset_1
和 dataset_2
的计划。
请注意,批量搭建不会更新未保存为数据集的变换(例如,未持久化的变换)。具体来说,考虑未持久化变换 A 是持久化变换 B 的父变换的情况。如果我使用批量搭建来构建变换 B,变换 B 将使用来自变换 A 的最新逻辑和来自上游输入数据集的最新数据。然而,在 Workbook 中显示的变换 A 的预览以及在变换 A 中创建的任何可视化将不会被此批量搭建更新。
输出数据集的另一个最佳实践是添加数据健康检查。打开您的输出数据集并单击健康选项卡以访问数据健康页面。设置健康检查可以让您在数据集的搭建失败、过期或无法满足您指定的其他要求时收到通知。
在将 Workbooks 用作项目的一部分时,我们建议在项目中创建以下文件夹结构:
一旦设置好此文件夹结构,您可以轻松地从您的主文件夹中共享新的 Workbook:
/workbooks
目录。/templates
目录。/data
文件夹。默认情况下,您在 Workbook 中生成的所有数据集都将移动到您选择的新文件夹中。您可能希望策划和组织您的图表,以便其他用户能够轻松理解变换的流程。在 Code Workbook 中提供的两个组织功能是节点着色和自动设计。
您可以使用节点着色在图表上直观地对节点进行分组。通过单击右上角的颜色按钮创建一个新的颜色组,并通过选择节点并使用颜色组上的**+**按钮将节点添加到颜色组。在 Workbook 内容助手中,您还可以按颜色组对数据集列表进行排序。
您还可以通过单击右上角的设计按钮自动设计图表的部分区域。默认情况下,自动设计会排列整个图表,但您也可以选择特定节点并单击自动设计来仅排列这些节点。
如果您已在 Code Workbook 中完成了管道的原型设计,并希望将代码移动到 Code Repositories,您可以使用导出到代码库助手。了解更多关于导出到代码库的信息。
您可能希望将代码移动到 Code Repositories 出于多种原因: