注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

创建一个简单的准备

准备已被Pipeline Builder替代,因此不再是清理和准备数据的推荐方法。Pipeline Builder使您能够轻松地清理和准备数据以用于管道,同时还提供Marketplace支持。

以下教程将指导您如何使用准备以将原始数据的电子表格变换为已清理和准备好的数据集,以便进行分析。

本教程使用来自陨石学会的数据,通过NASA 数据门户 ↗。您可以在自己的准备实例中使用此示例数据集进行操作:

下载 meteorite_landings_raw

此数据集包含在地球上发现的陨石的原始数据。

数据集包括每个陨石的名称、质量、分类及其他识别信息,以及其被发现的年份和发现位置的坐标。

我们建议在上传到 Foundry之前打开 CSV 文件以查看数据。

1. 创建一个准备

我们将起始通过创建一个新的准备。

  1. 首先,将 meteorite_landings_raw.csv 文件上传到 Foundry。

  2. 然后,导航到 meteorite_landings_raw 数据集,右键单击并选择在准备中清理

这将创建一个新的准备。您应该以有意义的名称保存您的准备,以便在您的文件中更容易找到。

  1. 最后,点击保存并选择准备的名称和保存位置。

您创建但未明确保存的准备默认存储在文件 > .auto-save中。

2. 清理数据

现在,检查数据集并识别并修复您发现的任何数据质量问题。

修剪空白

  1. 首先,点击表格中的名称列:

下方的面板将显示有关列中数据的一些信息:统计数据、图表等:

您可以从统计面板中看到一些值已被标记为需要修剪,这意味着在值的开头或结尾有多余的空白。

  1. 将鼠标悬停在粉色灯泡上,然后点击修剪空白按钮以解决此问题。

在列统计刷新后,您现在应该会看到需要修剪的计数已变为零,并且列已成功清理。您还将在屏幕右侧的数据集更改列表中看到添加的修剪空白更改:

year 列变换为日期

现在,让我们移至 year 列。您可以在表格中看到该列的数据类型为时间戳。然而,我们只希望它是一个日期

  1. 首先,点击更改类型按钮并从下拉列表中选择日期(整天)

  2. 点击更改类型按钮。

将地理位置值设置为 null

最后,让我们看看 GeoLocation 列。您将在直方图中看到大量行的值为**(0.000000,0.000000)**,这不是一个有效的地理位置。

让我们通过将这些值设置为 null 来修复这些值。

  1. 首先,在直方图中选择 (0.000000, 0.000000) 值。
  2. 接下来,点击更改数据(针对所选行)下的新值操作。
  3. 最后,在文本框中输入 /NULL,然后点击应用以将这些值设置为 null

3. 保存数据集的已清理版本

现在我们已经清理了数据质量问题,我们可以保存一个新的、已清理版本的数据集。

  1. 首先,点击屏幕顶部的另存为数据集按钮。
  2. 然后,为新的已清理数据集选择一个名称和位置。将出现一个弹出窗口,指示新数据集正在搭建中。

将有一个指示输出:的新数据集的链接。随着您对准备进行更改,可以使用更新按钮更新输出数据集。

要在不必保存新数据集的情况下在 Contour 中试用您的清理结果,请点击屏幕顶部的分析按钮。