注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
连接 Foundry 到 Hadoop 分布式文件系统 (HDFS),以从 HDFS 读取和同步数据到 Foundry 数据集。
功能 | 状态 |
---|---|
探索 | 🟢 普遍可用 |
批量导入 | 🟢 普遍可用 |
连接器可以将任何类型的文件传输到 Foundry 数据集。文件格式将被保留,传输过程中或之后不会应用任何架构。对输出数据集应用任何必要的架构,或编写下游变换以访问数据。
可传输文件的大小没有限制。然而,网络问题可能导致大规模传输的失败。特别是,运行超过两天的直接云同步将被中断。为避免网络问题,我们建议使用较小的文件大小,并限制每次同步执行中摄取的文件数量。可以安排频繁运行同步。
通常,基于代理的运行时需要连接到 HDFS 源,除非集群可以通过互联网访问。
了解更多关于在 Foundry 中设置连接器的信息。
如果可用,我们建议使用 HDFS 方案 ↗,因为其具有更快的 RPC 性能。或者,WebHDFS ↗ 是一个支持 HDFS 完整文件系统接口的 HTTP REST API。一些示例包括:
所需的网络端口将因选择的方案而异。对于 HDFS 方案,这些端口通常是 NameNode 服务器上的 8020/9000 和 DataNode 上的 1019、50010 和 50020。对于 WebHDFS 方案,所需端口通常是 9820。
SSL 连接验证服务器证书。通常,SSL 验证通过证书链发生;默认情况下,代理和直接连接运行时都信任大多数行业标准证书链。如果您正在连接的服务器有自签名证书,或者在验证期间有 TLS 拦截,则连接器必须信任证书。了解更多关于在数据连接中使用证书的信息。
以下配置选项可用于 HDFS 连接器:
选项 | 必需? | 描述 |
---|---|---|
URL | 是 | 到根数据目录的 HDFS URL |
额外属性 | 否 | 添加传递给 Hadoop 配置 ↗ 的属性映射。每个条目是对应单个属性的名称和值对,避免需要通过 configurationResources 在磁盘上指定配置。 |
以下高级选项可用于 HDFS 连接器:
选项 | 必需? | 描述 |
---|---|---|
用户 | 否 | HDFS 用户(默认为代理运行时当前登录的用户)。user 参数会覆盖数据连接的全局 Kerberos 设置。如果您正在使用 Kerberos,请留空 user 参数。 |
文件更改超时 | 否 | 在被视为上传之前文件必须保持不变的时间量(以 ISO-8601 ↗ 表示)。 如果可能,使用更高效的 lastModifiedBefore 处理器。 |
访问 探索
选项卡以交互式地探索配置的 HDFS 实例中的数据。选择 新建同步
以定期将数据从 HDFS 拉到 Foundry 中的指定数据集。