注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
在本教程中,我们将使用Pipeline Builder创建一个简单的管道,通过媒体集从PDF中提取文本。
在这个示例中,我们使用Palantir发布的公开可用文档的PDF。
在本教程结束时,您将拥有如下所示的管道:
该管道将生成一个新的Object输出,其中包含提取的PDF文本,可用于进一步的探索。
首先,我们需要创建一个新的管道。
登录到Foundry后,从左侧导航栏访问Pipeline Builder。如果Pipeline Builder不在应用列表中,选择查看全部,在构建和监控管道部分下找到Pipeline Builder。
接下来,在Pipeline Builder主页的右上角,通过选择新建管道来创建新管道。然后选择批处理管道。
创建流式管道的功能并不是在所有Foundry环境中都可用。如果您的应用案例需要它,请联系您的Palantir代表以获取更多信息。
选择一个位置保存您的管道。请注意,管道不能保存在个人文件夹中。
选择创建管道。
现在我们可以将数据集添加到我们的管道工作流中。在本教程中,我们将使用来自Palantir的公开可用文档的PDF。
从Pipeline Builder页面,在主页上选择添加Foundry数据。
您还可以选择顶部面板上的添加数据操作。
或者,您可以拖放计算机上的文件以用作您的媒体集。
如果您选择了添加数据或添加Foundry数据,您将可以选择您想要的媒体集。
选择所有媒体集后,选择添加数据。
导入媒体集后,您将能够看到带有缩略图预览的媒体集。
添加原始媒体集后,我们可以进行一些基本的变换。在此工作流中,我们将从这些PDF文件中提取文本。
首先,我们将变换年度信件媒体集
媒体集。选择媒体集中媒体项的媒体引用。
在您的图中选择年度信件媒体集
节点。
选择变换。
搜索并选择将媒体集转换为表行变换以打开面板。
选择是否包含时间戳
和按路径去重
。
选择应用以将变换添加到您的管道中。
您的输出应如下所示:
示例媒体引用:
{"mimeType":"application/pdf","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.main.media-set.xxx","mediaItemRid":"ri.mio.main.media-item.xxx"}}}
示例媒体项RID:
ri.mio.main.media-item.xxx-xxx-xxx-xxx-xxxx
使用媒体引用后,您现在可以选择一个新的面板,该面板利用媒体引用。搜索并选择文本提取变换。
选择提取方法(原始文本
(PDF解析)或OCR
),媒体引用
列,OCR输出格式
(如果选择了OCR),以及语言/脚本
。
选择应用以将变换添加到您的管道中。
当您将鼠标悬停在提取的文本上时,您的输出应如下所示:
您现在可以在提取的文本列上运行可用的字符串变换。
选择右上角的返回图表以返回到您的管道图表。
如果需要,您可以继续使用提取的文本进行语义搜索工作流。
现在我们已完成从PDF中提取文本并可能运行额外的字符串变换,我们可以添加一个输出。在本教程中,我们将添加一个Object输出。
在完成变换的Transforms
节点中,选择添加输出。
选择新对象类型。
命名您的对象类型并通过选择请选择一个Ontology来设置Ontology。
选择编辑并编辑任何列映射。确保为主键选择有效的列。
要搭建您的管道,请确保选择保存,然后选择部署 > 部署管道。
您应该在部署管道
侧边栏选项下看到初始化部署
。
选择查看部署历史以跟踪您的部署进度。您应该被引导到管道中的历史
选项卡,在那里您可以查看部署的状态和历史:
一旦部署完成并且您的对象已初始化,您应该能够直接在您的对象输出上进行操作。选择创建Workshop模块以生成一个带有管道输出的Workshop模块。
通过这最后一步,我们生成了管道输出并生成了一个Workshop模块。