注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
本页面描述了Pipeline Builder中的搭建设置,这些设置可用于调整批处理和流处理管道的性能。
您可以通过选择屏幕右上角部署旁边的设置图标来编辑管道的搭建设置。
以下批处理计算配置文件可在搭建设置中选择:
配置文件 | Driver核心 | Driver内存 | 动态最小执行器 | 动态最大执行器 | 执行器核心 | 执行器内存 | 执行器堆外内存 |
---|---|---|---|---|---|---|---|
超小 | 1 | 4GB | N/A | N/A | N/A | N/A | N/A |
小 | 1 | 2GB | 1 | 2 | 1 | 3GB | N/A |
中 | 1 | 6GB | 2 | 16 | 2 | 6GB | N/A |
大 | 1 | 13GB | 2 | 32 | 2 | 6GB | N/A |
超大 | 1 | 27GB | 2 | 128 | 2 | 6GB | N/A |
本地加速小 | 1 | 2GB | 1 | 2 | 1 | 600MB | 2400MB |
本地加速中 | 1 | 6GB | 2 | 16 | 2 | 1200MB | 4800MB |
本地加速大 | 1 | 13GB | 2 | 32 | 2 | 1200MB | 4800MB |
本地加速超大 | 1 | 27GB | 2 | 128 | 2 | 1200MB | 4800MB |
您可以通过使用Velox ↗在Pipeline Builder中启用批处理管道的本地加速来提高性能。
您可以通过选择部署旁边的设置图标来编辑管道的搭建设置。本地加速的设置包含预配置的小型、中型和大型计算配置文件。这些配置文件与默认的小型、中型和大型配置文件在总内存占用方面一致(没有本地模式)。如果您是第一次尝试运行本地加速的管道,建议使用这些预配置的配置文件。
还有一个具有高级配置的本地加速配置文件,允许您完全指定堆内和堆外内存比例以及所有其他资源和计算影响配置。
大多数情况下,选择预配置的本地加速配置文件应该足以加速您的管道。如果您遇到OOM或性能回退,而这些问题在非本地加速的搭建中没有发生,则可能是内存配置不理想。通常,采用高级配置文件并减少分配给堆外内存的百分比可以解决问题。如果问题仍然存在,则可能该管道不适合本地加速,您应继续使用默认的运行配置文件。
在Foundry中运行使用本地加速的Spark需要与普通批处理管道略有不同的配置。Spark支持使用堆外内存 ↗执行某些操作。堆外内存是不由JVM管理的内存,减少了GC的开销,从而提高了性能。在Foundry中默认不启用堆外内存,因为这样做会为管道引入额外的维护成本。由于Velox修改的DataFrames必须是堆外的才能被本地进程访问,因此启用堆外内存对于本地加速是必要的。除了Velox数据变换外,Foundry仍需要足够的堆内内存(例如,编排、调度和搭建管理代码仍在JVM中运行),但理想情况下大部分工作现在将在堆外执行。配置管道以使用本地加速会在平衡堆内和堆外内存方面引入额外的维护成本。Pipeline Builder将提供托管配置文件来协助此操作,但可能仍需要自定义配置。
以下计算配置文件可在搭建设置中选择:
配置文件 | 任务管理器内存 | 并行度 | 任务管理器内存 |
---|---|---|---|
超超小 | 1GB | 1 | 1GB |
超小 | 1GB | 1 | 1GB |
小 | 1GB | 2 | 4GB |
中 | 1GB | 3 | 6GB |
大 | 2GB | 4 | 8GB |
超大 | 2GB | 8 | 12GB |