注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

初始设置概述

本指南将引导您完成将组织的数据连接到Foundry的过程。

在开始之前,重要的是要认识到,将组织数据连接到Foundry的第一步本质上是一个网络概念。初始设置最好由熟悉网络工程且了解组织网络拓扑和配置(如防火墙规则)的人来完成。

概念概述

将数据连接到Foundry需要按以下顺序安装或配置以下三个组件:

  1. 连接: 用于访问数据源。
    • 代理: 连接到您系统上运行的软件;需要访问私有网络和本地数据源。
    • 直接连接: 通过互联网连接到数据源;在通过公共网络连接时首选。
  2. 源 / 连接器: 用于访问Foundry外部的数据。
  3. 同步: 将数据导入或导出到Foundry。

代理是运行在您组织网络内的Palantir软件。代理作为您组织的数据源和Foundry实例之间的安全中介。需要代理连接以访问运行在私有网络或本地系统上的源。一个正在运行的代理可以支持多个源和同步。

了解有关代理架构的更多信息。

直接连接是到可通过互联网访问的数据源的连接,例如REST API、SFTP服务器或Azure存储帐户。您可以配置直接连接以避免设置代理,同时仍能获得出色的正常运行时间和性能。直接连接需要为您的注册和连接凭据配置网络出口策略。

,或连接器,是您连接到Foundry的任何外部数据系统。例如,源可以是Postgres数据库、S3存储桶、Linux服务器上的文件系统、SAP实例或互联网上的REST API。配置的源是建立任何同步到Foundry的必要条件,数据必须从源同步到数据集后才能在Foundry中使用。

同步从源中读取特定数据并将其导入到Foundry。例如,如果您有一个包含多个表的PostgreSQL数据库源,您可能会配置一个同步以将其中一个特定表导入到Foundry。一旦同步成功运行,Foundry中的结果将是一个数据集,可用于Foundry的所有数据管道、模型开发和分析工具。

角色和工作流程

大多数Foundry用户永远不需要自己设置新的代理。代理设置需要以IT为重点的技能,尽管同一个代理可以重复用于支持多个源和同步。一些组织可以在Foundry部署的第一周内设置代理并长期运行。只有当现有代理无法访问的数据(由于网络分割或数据规模等原因)或为了设置额外的代理以实现高可用性时,才需要新代理。

下表总结了维护连接数据所需资源的配置频率和技能集:

资源配置频率典型用户角色所需知识
代理很少IT / 网络工程师网络和防火墙策略;Linux虚拟机;SSH
偶尔IT / 网络工程师;数据工程师调试网络访问;凭证管理
同步频繁数据工程师;数据科学家编写SQL查询;管理文件

高可用性

我们建议设置冗余硬件以建立高可用性(HA)架构。高可用性提高了弹性,并允许在工作时间内进行无停机维护。

Foundry在源级别提供HA,这意味着如果一个源被指派给多个代理,Foundry将向一个健康的代理分派数据摄取。我们强烈建议在源创建之初就配置高可用性代理;为已创建的源添加额外代理需要重新输入该源的凭证。

以下最佳实践在设置高可用性时推荐:

  • 始终成对安装代理,使用相似的硬件。
  • 给一对代理起相似的名字,如agent-1agent-2
  • 系统化地将一对代理都指派给每个源。
  • 在一对代理上配置不重叠的升级窗口。升级窗口应在工作日内,并提供足够的测试时间。这样做可以确保任何更新中的意外问题将被限制在单个代理,并且可以由操作员或管理员检测到。

下一步

要使用直接连接通过互联网访问数据源,如公共REST API或S3存储桶,请从直接连接设置开始。

要连接到存在于您组织网络内的数据源,请从代理设置开始。