注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
本指南将引导您完成将组织的数据连接到Foundry的过程。
在开始之前,重要的是要认识到,将组织数据连接到Foundry的第一步本质上是一个网络概念。初始设置最好由熟悉网络工程且了解组织网络拓扑和配置(如防火墙规则)的人来完成。
将数据连接到Foundry需要按以下顺序安装或配置以下三个组件:
代理是运行在您组织网络内的Palantir软件。代理作为您组织的数据源和Foundry实例之间的安全中介。需要代理连接以访问运行在私有网络或本地系统上的源。一个正在运行的代理可以支持多个源和同步。
了解有关代理架构的更多信息。
直接连接是到可通过互联网访问的数据源的连接,例如REST API、SFTP服务器或Azure存储帐户。您可以配置直接连接以避免设置代理,同时仍能获得出色的正常运行时间和性能。直接连接需要为您的注册和连接凭据配置网络出口策略。
源,或连接器,是您连接到Foundry的任何外部数据系统。例如,源可以是Postgres数据库、S3存储桶、Linux服务器上的文件系统、SAP实例或互联网上的REST API。配置的源是建立任何同步到Foundry的必要条件,数据必须从源同步到数据集后才能在Foundry中使用。
同步从源中读取特定数据并将其导入到Foundry。例如,如果您有一个包含多个表的PostgreSQL数据库源,您可能会配置一个同步以将其中一个特定表导入到Foundry。一旦同步成功运行,Foundry中的结果将是一个数据集,可用于Foundry的所有数据管道、模型开发和分析工具。
大多数Foundry用户永远不需要自己设置新的代理。代理设置需要以IT为重点的技能,尽管同一个代理可以重复用于支持多个源和同步。一些组织可以在Foundry部署的第一周内设置代理并长期运行。只有当现有代理无法访问的数据(由于网络分割或数据规模等原因)或为了设置额外的代理以实现高可用性时,才需要新代理。
下表总结了维护连接数据所需资源的配置频率和技能集:
资源 | 配置频率 | 典型用户角色 | 所需知识 |
---|---|---|---|
代理 | 很少 | IT / 网络工程师 | 网络和防火墙策略;Linux虚拟机;SSH |
源 | 偶尔 | IT / 网络工程师;数据工程师 | 调试网络访问;凭证管理 |
同步 | 频繁 | 数据工程师;数据科学家 | 编写SQL查询;管理文件 |
我们建议设置冗余硬件以建立高可用性(HA)架构。高可用性提高了弹性,并允许在工作时间内进行无停机维护。
Foundry在源级别提供HA,这意味着如果一个源被指派给多个代理,Foundry将向一个健康的代理分派数据摄取。我们强烈建议在源创建之初就配置高可用性代理;为已创建的源添加额外代理需要重新输入该源的凭证。
以下最佳实践在设置高可用性时推荐:
agent-1
和agent-2
。要使用直接连接通过互联网访问数据源,如公共REST API或S3存储桶,请从直接连接设置开始。
要连接到存在于您组织网络内的数据源,请从代理设置开始。