注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
什么是 Spark?
Spark 是一种分布式计算系统,在 Foundry 中用于大规模运行数据变换。它最初由加州大学伯克利分校的研究团队创建,随后在2000年代末被捐赠给 Apache 基金会。Foundry 允许您使用 Spark 作为基础计算层在大量数据上运行 SQL、Python、Java 和 Mesa 变换(Mesa 是一种专有的基于 Java 的 DSL)。
Spark 如何工作?
Spark 依赖于同时在多台计算机上分配任务以处理数据。这种过程允许同时跨用户和项目快速运行任务,使用的方法称为 MapReduce。这些计算机分为 drivers 和 executors。
EXECUTOR_MEMORY_SMALL
提升到 EXECUTOR_MEMORY_MEDIUM
,然后在调整其他任何内容之前再次运行任务。这确保您不会通过过度分配资源给任务而产生不必要的成本。EXECUTOR_CORES_SMALL
, EXECUTOR_MEMORY_SMALL, DRIVER_CORES_SMALL, DRIVER_MEMORY_SMALL, NUM_EXECUTORS_2NUM_EXECUTORS_32
和 EXECUTOR_MEMORY_LARGE
(及以上)应仅在请求和批准该请求后可用。EXECUTOR_CORES_SMALL
之外的所有 executor 核心值都应严格控制(因为这是增加计算能力的隐蔽方式,我们更倾向于在几乎所有情况下引导用户到 NUM_EXECUTORS 配置)。EXECUTOR_CORES_SMALL
和 EXECUTOR_MEMORY_MEDIUM
的组合指示)的请求应得到管理员的批准。阻止 EXECUTOR_CORES_EXTRA_SMALL
和 EXECUTOR_MEMORY_LARGE
。如果用户请求这些,通常是优化不佳的迹象或关键工作流。