数据连接与集成管道构建器Pipeline management搭建设置

注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

搭建设置

本页面描述了Pipeline Builder中的搭建设置,这些设置可用于调整批处理和流处理管道的性能。

您可以通过选择屏幕右上角部署旁边的设置图标来编辑管道的搭建设置

“搭建设置”下拉菜单的截图

批处理管道

批处理计算配置文件

以下批处理计算配置文件可在搭建设置中选择:

配置文件Driver核心Driver内存动态最小执行器动态最大执行器执行器核心执行器内存执行器堆外内存
超小14GBN/AN/AN/AN/AN/A
12GB1213GBN/A
16GB21626GBN/A
113GB23226GBN/A
超大127GB212826GBN/A
本地加速小12GB121600MB2400MB
本地加速中16GB21621200MB4800MB
本地加速大113GB23221200MB4800MB
本地加速超大127GB212821200MB4800MB

本地加速

您可以通过使用Velox ↗在Pipeline Builder中启用批处理管道的本地加速来提高性能。

阅读更多关于Foundry中的本地加速

启用本地加速

您可以通过选择部署旁边的设置图标来编辑管道的搭建设置。本地加速的设置包含预配置的小型、中型和大型计算配置文件。这些配置文件与默认的小型、中型和大型配置文件在总内存占用方面一致(没有本地模式)。如果您是第一次尝试运行本地加速的管道,建议使用这些预配置的配置文件。

搭建设置下拉菜单的截图

还有一个具有高级配置的本地加速配置文件,允许您完全指定堆内和堆外内存比例以及所有其他资源和计算影响配置。

搭建设置下拉菜单的截图

大多数情况下,选择预配置的本地加速配置文件应该足以加速您的管道。如果您遇到OOM或性能回退,而这些问题在非本地加速的搭建中没有发生,则可能是内存配置不理想。通常,采用高级配置文件并减少分配给堆外内存的百分比可以解决问题。如果问题仍然存在,则可能该管道不适合本地加速,您应继续使用默认的运行配置文件。

本地加速的内存配置注意事项

在Foundry中运行使用本地加速的Spark需要与普通批处理管道略有不同的配置。Spark支持使用堆外内存 ↗执行某些操作。堆外内存是不由JVM管理的内存,减少了GC的开销,从而提高了性能。在Foundry中默认不启用堆外内存,因为这样做会为管道引入额外的维护成本。由于Velox修改的DataFrames必须是堆外的才能被本地进程访问,因此启用堆外内存对于本地加速是必要的。除了Velox数据变换外,Foundry仍需要足够的堆内内存(例如,编排、调度和搭建管理代码仍在JVM中运行),但理想情况下大部分工作现在将在堆外执行。配置管道以使用本地加速会在平衡堆内和堆外内存方面引入额外的维护成本。Pipeline Builder将提供托管配置文件来协助此操作,但可能仍需要自定义配置。

流处理管道

流处理计算配置文件

以下计算配置文件可在搭建设置中选择:

配置文件任务管理器内存并行度任务管理器内存
超超小1GB11GB
超小1GB11GB
1GB24GB
1GB36GB
2GB48GB
超大2GB812GB