注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

将数据集变换添加到Marketplace产品 [Beta]

使用Foundry DevOps将您的数据集变换包含在Marketplace产品中,以供其他用户安装和重用。了解如何创建您的第一个产品。

支持的功能

在打包数据集变换(以及其生成的代码仓库)时,所有必需的依赖项都将作为产品的一部分存储;这保证了变换是自包含的,并且可以在任何地方成功运行。仓库可以带来Maven、PyPI和Conda依赖项。

支持Python、Java和SQL变换。变换必须由具有最新模板的仓库生成,否则可能会出现打包出错。要调试,请在代码仓库应用程序中升级您的仓库。如果变换可以成功打包,它将不会导致任何安装或运行时出错。

所有来自源输入数据集的列(例如,用作数据集变换输入的airplane数据集,然后被包含在Marketplace产品中)在安装时将是必需的输入,无论这些列是否在数据集变换中被引用。

支持的功能包括:

  • 增量变换
  • 取消权限标记工作流程
  • Spark配置文件
  • 遥测
  • 外部变换
  • 无模式数据集

将数据集变换添加到产品中

要将数据集变换添加到产品中,首先创建一个产品。选择添加数据集变换后,通过选择生成变换的仓库,然后选择要包含的变换来添加。

添加数据集变换

在某些情况下,一个变换可能会生成多个输出数据集。如果是这种情况,所有生成的数据集都需要包含在产品中。

选择仓库打包

仓库打包选项

有三种打包仓库的方法。

  • 排除所有源代码: 仓库在没有任何源代码的情况下打包。仓库的唯一目的是保存运行变换时所需的依赖项。此方法包括已编译的用户代码和所有传递依赖项。
  • 包含最新的源代码,排除版本历史: 仓库包含源代码和必要的工件;但是,Git历史记录(包括标签)不会被保留。这是作为只读文档发布仓库的推荐方式。
  • 包含源代码和完整版本历史: 仓库在产品中按原样持久化。整个Git历史记录在打包时保存,并在安装时恢复。这是唯一允许您在安装后从代码仓库应用程序中运行检查并重建变换的模式。