注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
以下信息将指导您完成启用、配置和搭建数据集投影的过程。
Noho 是一个管理数据集投影的服务。
通过配置noho: true
在数据集的模式中启用投影。
您可以在从变换中写入数据集时配置数据集的模式,或者在详情标签中手动修改模式。
Copied!1 2 3 4 5 6 7 8 9 10 11
from transforms.api import transform, Input, Output @transform( output_dataset=Output('/examples/example_output'), input_dataset=Input('/examples/example_input'), ) def compute(output_dataset, input_dataset): # 将输入数据集转换为DataFrame input_dataset = input_dataset.dataframe() # 将DataFrame写入输出数据集,带有选项参数 output_dataset.write_dataframe(input_dataset, options={"noho": "true"})
当查看一个数据集时,如果其在模式中配置了 noho: true
且您有权限编辑该数据集,您将看到一个 投影 选项卡。
选择 添加新投影
。
选择要包含在投影中的列。
在大多数情况下,所有列
是合适的。然而,如果您知道查询只会选择部分列,您可以进行调整。
选择投影的类型。
选择 创建投影
按钮。
投影现在已存在但不包含数据。这由投影旁的红色警告图标表示。要在查询中使用投影,必须按照接下来的步骤进行构建。
为使您更好地控制资源使用,维护投影的内部搭建不会自动安排;您需要明确设置一个。
首先,切换开关 在当前分支上启用投影搭建
。这允许搭建在当前分支上运行。
然后,配置搭建的计划。如果您想在不同的分支上安排搭建,您需要导航到该分支并重复此过程。
如果您不想等待搭建,选择 搭建 按钮来明确搭建投影。
现在,等待搭建完成。在投影更新之前,可能会运行多个搭建。投影搭建状态
行旁的绿色勾号表示投影现已完全更新。
投影现在是最新的,并将用于数据集的读取。