注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
当使用 Code Workbook 以交互方式通过工作簿界面运行任务时,所有任务将使用与该工作簿关联的 Spark 模块。如下面的图像所示,您可以在任何会话的会话历史记录对话框中查看 Spark 模块 ID。
由于每个用户被指派一个在相同项目和相同环境中的工作簿中使用的 Spark 模块,您的交互式任务可能会在来自不同工作簿的其他任务完成时排队。例如,在同一模块上可以同时运行多达五个 Python 任务。第六个任务将显示为“在 Code Workbook 中排队”。
在批量搭建中(例如,计划搭建或来自数据集预览的搭建),一个搭建将在搭建的每个环境中使用一个 Spark 模块。例如,如果一个计划搭建包含在多个 Code Workbook 中创建的数据集,并且这些 Code Workbook 都使用相同的环境,则搭建将为所有任务使用相同的 Spark 模块。没有交互式任务会被路由到该 Spark 模块。
我们建议在希望将输出保存为数据集时使用批量搭建,而不是逐个运行变换以迭代代码。这可能包括以下情况:
从工作簿中,使用 打开数据集 来在数据集预览中查看数据集,并使用屏幕右上角的 搭建 按钮来搭建。要搭建多个数据集,请导航到页面顶部的齿轮图标,然后选择 探索数据沿袭。然后,选择您要搭建的数据集并选择在右侧栏中搭建它们。
或者,使用相同的侧边栏并点击日历图标来设置一个定期计划来搭建数据集。了解更多关于设置计划的信息。
要判断任务是在批量搭建还是交互模式下搭建,请导航到搭建应用程序并点击“详细信息”按钮。
详细信息将列出 Spark 模块的 ID,以及 isInteractive
是否为 true。如果为 true,任务正在交互模式下运行。如果为 false,任务正在批量搭建模式下运行,并且不与任何交互式任务共享 Spark 模块。