注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

数据集预览

数据集视图由以下主要组件组成:

  1. 数据集头部
  2. 信息面板
  3. 附加数据集视图
  4. 数据预览
  5. 数据集操作

数据集应用程序UI

数据集头部

页面头部标识所选数据集并提供基本信息,如:名称、显示名称(如果存在)、位置和所选分支。它还允许一些与文件相关的操作,如共享、移动、重命名等。

信息面板

信息面板提供有关数据集(元数据)的信息,并提供一些基本的管理操作。它分为三个部分:

  • 关于 - 提供有关数据集的信息,包括:创建和更新的时间;创建和最后更新数据集的用户;表的大小;用于创建数据的工具和输入数据集;标签等。在由...最后更新于部分下还有一个编辑模式视图,将为CSV和JSON文件推断模式。在这里,用户还可以应用附加的解析选项以删除不规则行、更改编码,或添加额外的列,如文件路径、行的字节偏移、导入时间戳或行号。对于其他文件类型,可以在详情标签下的模式部分进行模式编辑。
  • - 提供有关数据集中不同列的信息,包括:数据类型;描述;数据统计(空值百分比、分布和样本)。
  • 计划 - 显示影响数据集的计划(请参阅计划文档以获取更多信息)。

附加数据集视图

历史标签

历史视图提供历史任务(搭建)信息。页面右侧的摘要视图显示任务状态随时间的汇总信息。

在左侧面板中,显示任务列表及其状态和持续时间。选择后,右侧会显示详细的任务视图,显示详细的任务信息,包括:任务进度、任务规格、搭建日志、文件和生成的模式。

流数据集的历史

在流数据集中,只有当视图设置为存档时,历史标签才会出现。历史标签将显示存档事务以及流任务。

数据集历史页面

详情

详情视图提供有关数据集的附加技术信息以及一些管理操作:

  • 模式 - 提供表模式(列规范)的完整信息,并允许编辑模式(如果适用)。
  • 文件 - 显示构成数据集的文件列表并允许下载它们。
  • 任务规格 - 显示包含数据集搭建所需基本信息的任务规格。
  • 同步 - 显示数据同步到不同数据库的状态和细节。对于某些同步类型,可以应用附加设置。
  • 自定义元数据 - 允许向数据集添加自定义信息字段。在此部分中添加的字段将在主预览页面的信息面板中显示。
  • 资源使用指标 - 提供数据集随时间变化的磁盘和Spark使用情况的图表和信息。
  • 最近运行详情(仅适用于流) - 显示最新流运行的详细信息。

流(仅适用于流数据集)

当数据集是流数据集时,流标签将显示当前和历史流任务的信息。通过更改时间段,可以查看在该时间段内流式传输数据集的任务日志和详情。

健康标签

健康标签提供监控数据健康的工具。

流数据集

在流数据集中,只有当视图设置为存档时,健康标签才会出现。检查将指向存档数据集而非流。

比较

使用比较标签来比较两个不同的数据集。点击标签并选择一个数据集进行比较。比较标签可以用于多种方式:

  • 比较两个独立的数据集以了解它们的差异
  • 比较数据集与同一数据集的较早事务以查看其随时间的更改
  • 比较数据集的主版本与不同分支以查看合并该分支将如何影响数据集
流数据集

在流数据集中,只有当视图设置为存档时,比较标签才会出现。然后您可以将存档数据集与其他非流数据集进行比较。

数据预览

数据集预览表显示数据样本,并允许对完整数据集进行轻量交互。使用预览表来了解数据结构并快速浏览数据集中的值。

默认情况下,预览表将显示有限的数据样本;确切的行数显示在预览表头部。然而,任何对数据采取的操作,如筛选或排序,都将应用于完整数据集并增加预览样本大小。根据行数,您可能无法在预览中看到整个数据集。

预览表提供多种有用的功能:

  • 点击列的菜单可以对列数据进行排序、筛选和生成图表
  • 点击单个单元格可以在预览中排除或仅包含所选值
  • 报告并查看个别列的问题
  • 搜索特定的列名
流数据预览

流数据预览提供最近流数据行的小样本。当设置为实时更新时,将自动更新。排序、筛选和图表生成仅在页面设置为存档时可用,并且仅表示存档数据集的状态。

数据集预览筛选

手动上传文件

在数据集预览中,您可以将以下类型的文件直接上传到数据集中:.csv.tsv.xls.xlsm.xlsx

对于.csv.tsv文件,Foundry将尝试推断新文件的模式。如果新文件的文件名和模式与之前上传的文件相同,您可以在现有数据集中更新数据。如果文件名与之前上传的文件不同,您可以将数据追加到现有数据集中。

以下步骤适用于上传所有文件类型:

  1. 导航到您偏好的文件夹并创建一个数据集。

显示在点击+New按钮后搜索"dataset"时的选项的菜单。

  1. 将文件拖放到数据集预览窗口中。

数据集操作

操作菜单提供对Foundry工具和操作的快速访问,使您能够分析、探索、变换和管理数据。某些操作,如分析(在Contour中)和搭建,在操作菜单外部显示以便于快速访问。