注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

应用参考

此页面提供了您在执行数据集成工作流时可能遇到的 Foundry 应用的参考。

Pipeline Builder

Pipeline Builder 是 Foundry 的主要数据集成应用。使用 Pipeline Builder,您可以创建从数据源到最终输出的端到端流水线工作流。Pipeline Builder 的用户可以在一个易于使用的应用中描述他们的工作流、变换数据、编辑架构,并构建输出。

Pipeline Builder 具有直观的点击式界面和强大的后端模型,使技术和非技术用户能够比代码密集型应用更快地定义和部署流水线。简化的构建界面允许用户在架构检查的同时应用数据变换,节省通常在构建时用于计算和检查的时间和成本。诸如完整版本控制和可扩展性等附加功能使 Pipeline Builder 成为安全协作的理想应用。

Pipeline Builder的截图

Code Repositories

Code Repositories 是 Foundry 的主要代码编写界面,最常用于用 Python、Java 和 SQL 创建数据流水线。Code Repositories 提供了一个集成开发环境 (IDE) ,在 git 服务器之上,实现流水线逻辑的协作和治理,并原生支持编写、测试和预览数据变换逻辑。Code Repositories 也可用于编写机器学习模型和 Ontology 函数

Code Repositories变换的截图

如果您对数据科学和基于代码的分析感兴趣,Code Workbook 可能更适合您的应用案例。了解 Code Workbook、Code Workspaces 和 Code Repositories 之间的区别。

数据沿袭

数据沿袭 是一个显示数据如何在 Foundry 中流动的应用。您可以使用它来探索 Foundry 中的任何资源如何跨越各个项目或应用案例的边界与其他资源相连。包括对数据源、数据集、分析、Ontology object 和链接类型以及面向用户的应用的支持。除了探索连接之外,您还可以使用数据沿袭查看数据预览、查看用于推导任何数据片段的逻辑,以及管理计划的流水线。

数据沿袭流动动画

数据连接

数据连接 是用于将数据同步到 Foundry 并管理关联资源(包括源凭证)的应用。经过初始设置后,数据连接使您可以轻松地探索数据源并同步新数据以进行应用案例开发,同时遵守管理源系统和大规模应用案例所需的全部治理控制。

数据集预览

数据集预览 是用于查看和理解数据集的应用。从任何其他应用打开数据集时,会显示数据集的内容以及一系列上下文信息。这包括数据集所有权的信息、数据集如何随时间变化、任何适用的健康检查以及更多详细信息。

数据集预览

数据健康

数据健康 用于管理跨所有数据流水线的健康检查。数据健康允许流水线维护者快速了解其流水线的性能和可靠性,并订阅健康检查或检查组的警报,以启用广泛的数据流水线维护工作流。

数据健康

构建

构建应用——原名任务跟踪器——允许您查看 Foundry 中发生的所有构建,并探索有关每个构建的详细信息,包括执行进度、调度以及过去的成功和失败率。构建应用还允许您访问底层执行的 Spark 执行引擎的详细信息,从而启用调试和优化工作流。

构建应用