注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
Foundry 提供了两个用于编写和管理数据管道的产品:Pipeline Builder 和 代码库。这些工具是互补的,并被设计为协同工作,以满足所有管道需求的解决方案。以下指南旨在帮助您确定哪个工具最适合您的应用案例,以及如何将它们结合使用。
Pipeline Builder 是 Foundry 的主要应用程序,提供快速、灵活和可扩展的数据管道交付,同时确保稳健性和安全性。通过 Pipeline Builder,最终用户和数据工程师可以在图形和表单环境中协作,以集成数据、创建业务逻辑变换,并定义生产管道的严格发布流程。用户可以编写提供实时反馈的管道,无需使用代码。此外,Pipeline Builder 使用健康检查,以保证只有完全合规的数据才会被部署到生产环境中。了解有关 Pipeline Builder 的更多信息。
代码库为在 Foundry 中编写和协作生产就绪代码提供了一个基于 Web 的集成开发环境 (IDE)。该应用程序提供了一种与底层 Git 库交互的用户友好方式。了解有关代码库的更多信息。
我们建议在 Pipeline Builder 中搭建您的管道设计。这样做将:
在用户需要 Pipeline Builder 中不可用的专用代码逻辑的情况下,应使用代码库创建这些阶段以添加到主管道中。这些专用案例的一些示例包括:
由于 Pipeline Builder 和代码库都使用 Foundry 数据集作为输入和输出,因此在代码库中构建的管道输入可以在 Pipeline Builder 中的管道之前、之后和中间添加。无论使用哪个应用程序创建管道,都可以在数据沿袭中为整个管道配置计划和健康检查。了解有关数据沿袭的更多信息。
下表描述了 Pipeline Builder 和代码库中可用的功能和支持。如上所述,结合使用这两种工具可以创建稳健的、类型安全的、可重用的管道,并具有专用的基于代码的逻辑。
Pipeline Builder | 代码库 | |
---|---|---|
推荐使用 | 搭建和维护组织的生产管道以及跨组织协作的专用管道。 | 创建专用的、基于代码的数据变换以添加到管道中。 |
搭建界面 | ||
管道界面 | 基于图形和表单 | 基于 Web 的集成开发环境 (IDE) |
支持语言 | 无需代码 | Python, SQL, Java, Mesa |
可重用性 | 复制和粘贴完整的管道或管道阶段。 | 重用实用函数和库,并在文件之间复制代码。 |
类型安全函数 | 强类型;出错会立即标记,而不是在搭建时。 | 基于代码;出错在搭建时显示。 |
参数 | 用户定义的持久参数,可在整个管道中使用。 | 代码定义的常量可在库中使用。 |
支持的管道 | ||
批量管道 | 是 | 是 |
流式管道 | 是 | 是(针对高级用户) |
基于文件的变换 | 是 | 是 |
增量计算 | 是 | 是 |
文件系统和 API 访问 | 否 | 是 |
管道测试 | ||
数据预览范围 | 基于完整数据集的预览。 | 预览数据样本。 |
数据预览时间线 | 实时预览更新。 | 根据请求预览。 |
数据预览检查点 | 预览每个变换步骤。 | 在调试模式下预览选定检查点的中间数据框和变量。 |
调试 | 类型安全;在创建管道时出错,无需检查或搭建即可调试。 | 调试器和读取-求值-打印循环 (REPL) 支持。 |
单元测试 | 否 | 是(针对高级用户) |
管道管理 | ||
数据期望 | 是 | 是 |
计划 | 是 | 是 |
发布自定义库 | 否 | 是 |
版本控制 | 无代码/高代码用户协作的完整版本控制流程。 | 完整的 Git 工作流程。 |
搭建内存管理 | 用户可以设置批准的计算配置文件。 | 基于代码的配置可用。 |
管理权限标记 | 开发中 | 是 |