注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
创建数据管道的第一步是将组织的数据源连接到Foundry,并让数据流动通过系统。最初,重点应放在验证数据是否具有高质量,并能作为应用案例开发、模型开发和分析的可靠基础。
本节文档侧重于创建管道的初始阶段,此时业务需求可能仍在变化,管道逻辑的更改频繁发生。在这个阶段,重点是打下坚实的基础——既支持目标应用案例,也能够在未来进行管道维护。
在大多数情况下,您在管道开发中应遵循以下初始步骤:
除了这些步骤外,还有许多步骤可以使您的管道更稳健和可扩展,包括添加单元测试、设置分支和发布流程、定义健康检查。了解管道开发的最佳实践。
如果流入管道的输入数据更改规模较大,最好创建一个增量管道以高效处理更改的数据。在大多数情况下,您可以从批处理管道开始,然后设置增量管道以提高性能和减少延迟。
在某些情况下,最好从一开始就设计您的管道为增量,特别是当您知道流入管道的新数据规模会很大时。然而,编写和维护增量管道比批处理管道复杂得多。了解Foundry中不同类型管道的更多信息。
如果对数据延迟的要求很低,最好创建一个流式管道以高效处理输入数据。由于流式管道的速度取决于其最慢的组件,因此管道应从一开始就设计,以确保管道达到目标延迟和吞吐量。查看我们关于流式与批处理过程的比较,以获得更细致的分析。