注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
准备已被Pipeline Builder替代,因此不再是清理和准备数据的推荐方法。Pipeline Builder使您能够轻松地清理和准备数据以用于管道,同时还提供Marketplace支持。
以下教程将指导您如何使用准备以将原始数据的电子表格变换为已清理和准备好的数据集,以便进行分析。
本教程使用来自陨石学会的数据,通过NASA 数据门户 ↗。您可以在自己的准备实例中使用此示例数据集进行操作:
此数据集包含在地球上发现的陨石的原始数据。
数据集包括每个陨石的名称、质量、分类及其他识别信息,以及其被发现的年份和发现位置的坐标。
我们建议在上传到 Foundry之前打开 CSV 文件以查看数据。
我们将起始通过创建一个新的准备。
首先,将 meteorite_landings_raw.csv
文件上传到 Foundry。
然后,导航到 meteorite_landings_raw
数据集,右键单击并选择在准备中清理。
这将创建一个新的准备。您应该以有意义的名称保存您的准备,以便在您的文件中更容易找到。
您创建但未明确保存的准备默认存储在文件 > .auto-save中。
现在,检查数据集并识别并修复您发现的任何数据质量问题。
下方的面板将显示有关列中数据的一些信息:统计数据、图表等:
您可以从统计面板中看到一些值已被标记为需要修剪,这意味着在值的开头或结尾有多余的空白。
在列统计刷新后,您现在应该会看到需要修剪的计数已变为零,并且列已成功清理。您还将在屏幕右侧的数据集更改列表中看到添加的修剪空白更改:
year
列变换为日期现在,让我们移至 year 列。您可以在表格中看到该列的数据类型为时间戳。然而,我们只希望它是一个日期。
首先,点击更改类型按钮并从下拉列表中选择日期(整天)。
点击更改类型按钮。
null
最后,让我们看看 GeoLocation 列。您将在直方图中看到大量行的值为**(0.000000,0.000000)**,这不是一个有效的地理位置。
让我们通过将这些值设置为 null
来修复这些值。
/NULL
,然后点击应用以将这些值设置为 null
。现在我们已经清理了数据质量问题,我们可以保存一个新的、已清理版本的数据集。
将有一个指示输出:的新数据集的链接。随着您对准备进行更改,可以使用更新按钮更新输出数据集。
要在不必保存新数据集的情况下在 Contour 中试用您的清理结果,请点击屏幕顶部的分析按钮。