注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

注意事项: Pipeline Builder 和代码库

Foundry 提供了两个用于编写和管理数据管道的产品:Pipeline Builder代码库。这些工具是互补的,并被设计为协同工作,以满足所有管道需求的解决方案。以下指南旨在帮助您确定哪个工具最适合您的应用案例,以及如何将它们结合使用。

Pipeline Builder

Pipeline Builder 是 Foundry 的主要应用程序,提供快速、灵活和可扩展的数据管道交付,同时确保稳健性和安全性。通过 Pipeline Builder,最终用户和数据工程师可以在图形和表单环境中协作,以集成数据、创建业务逻辑变换,并定义生产管道的严格发布流程。用户可以编写提供实时反馈的管道,无需使用代码。此外,Pipeline Builder 使用健康检查,以保证只有完全合规的数据才会被部署到生产环境中。了解有关 Pipeline Builder 的更多信息。

代码库

代码库为在 Foundry 中编写和协作生产就绪代码提供了一个基于 Web 的集成开发环境 (IDE)。该应用程序提供了一种与底层 Git 库交互的用户友好方式。了解有关代码库的更多信息。

最佳实践

我们建议在 Pipeline Builder 中搭建您的管道设计。这样做将:

  • 通过易于理解的点击界面,促进不同用户组之间的协作。
  • 通过利用 Pipeline Builder 的规范来确保数据变换和管道管理的安全性和高效性,从而保障管道的健康。

在用户需要 Pipeline Builder 中不可用的专用代码逻辑的情况下,应使用代码库创建这些阶段以添加到主管道中。这些专用案例的一些示例包括:

  • 发起 API 调用
  • 使用自定义库
  • 添加基于代码的逻辑概念

由于 Pipeline Builder 和代码库都使用 Foundry 数据集作为输入和输出,因此在代码库中构建的管道输入可以在 Pipeline Builder 中的管道之前、之后和中间添加。无论使用哪个应用程序创建管道,都可以在数据沿袭中为整个管道配置计划和健康检查。了解有关数据沿袭的更多信息。

功能摘要

下表描述了 Pipeline Builder 和代码库中可用的功能和支持。如上所述,结合使用这两种工具可以创建稳健的、类型安全的、可重用的管道,并具有专用的基于代码的逻辑。

Pipeline Builder代码库
推荐使用搭建和维护组织的生产管道以及跨组织协作的专用管道。创建专用的、基于代码的数据变换以添加到管道中。
搭建界面
管道界面基于图形和表单基于 Web 的集成开发环境 (IDE)
支持语言无需代码Python, SQL, Java, Mesa
可重用性复制和粘贴完整的管道或管道阶段。重用实用函数和库,并在文件之间复制代码。
类型安全函数强类型;出错会立即标记,而不是在搭建时。基于代码;出错在搭建时显示。
参数用户定义的持久参数,可在整个管道中使用。代码定义的常量可在库中使用。
支持的管道
批量管道
流式管道是(针对高级用户)
基于文件的变换
增量计算
文件系统和 API 访问
管道测试
数据预览范围基于完整数据集的预览。预览数据样本。
数据预览时间线实时预览更新。根据请求预览。
数据预览检查点预览每个变换步骤。在调试模式下预览选定检查点的中间数据框和变量。
调试类型安全;在创建管道时出错,无需检查或搭建即可调试。调试器和读取-求值-打印循环 (REPL) 支持。
单元测试(针对高级用户)
管道管理
数据期望
计划
发布自定义库
版本控制无代码/高代码用户协作的完整版本控制流程。完整的 Git 工作流程。
搭建内存管理用户可以设置批准的计算配置文件。基于代码的配置可用。
管理权限标记开发中