注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
このチュートリアルでは、Pipeline Builder を使用して、フライトアラート情報の単一のデータセットを出力するシンプルなパイプラインを作成します。その後、この出力データセットを Contour や Code Workbook などのツールで分析して、最も混乱のリスクが高いフライト経路を特定することができます。
以下で使用されるデータセットは、データセットのインポート手順で名前で検索でき、ユーザーの Foundry ファイルシステム内の Foundry Reference Project にあります。
Foundry Training and Resources/Foundry Reference Project/Tutorial Reference Examples/Track: Data Engineering/Datasource Project: Flight Alerts/datasets。
このチュートリアルを終えると、以下のようなパイプラインができます。

パイプラインは、Flight Alerts Dataという新しいデータセット出力を生成し、さらなる探索に使用できます。
まず、新しいパイプラインを作成する必要があります。
Foundry にログインしたら、左側のナビゲーションバーの Apps の下にある Pipeline Builder にアクセスします。もし見つからなければ、View all をクリックして Build & Monitor Pipelines セクションの Pipeline Builder を探します。

次に、Pipeline Builder のランディングページの右上で、New pipeline をクリックして新しいパイプラインを作成します。Batch pipeline を選択します。

ストリーミングパイプラインの作成機能は、すべての Foundry 環境で利用できるわけではありません。ユースケースにそれが必要な場合は、Palantir の担当者にお問い合わせください。

これで、パイプラインワークフローにデータセットを追加することができます。このチュートリアルでは、概念的またはオープンソースのデータのサンプルデータセットを使用し、すべてのデータセットはユーザーの Foundry ファイルシステム内の Foundry Reference Project の一部として利用できるはずです。
Pipeline Builder ページから、Foundry から Add datasets をクリックします。

または、コンピュータからファイルをドラッグアンドドロップしてデータセットとして使用することもできます。
このウォークスルーの例では、passengers_preprocessed、flight_alerts_raw、および status_mapping_raw データセットを追加します。データセットの選択範囲を追加するには、データセットを選択してインラインの + アイコンをクリックするか、Add to Selection をクリックします。

必要なすべてのデータセットが選択されたら、Add datasets をクリックします。

生データセットを追加した後、パイプラインの定義を続けるために基本的なクリーニング変換をいくつか実行できます。生データセットのうち 3 つを変換します。
まず、passengers_preprocessed データセットをクリーニングしましょう。dob 列名を dob_date に変更し、値を MM/dd/yy 形式に変換するキャスト変換の設定を開始します。
グラフ内の passengers_preprocessed ノードをクリックします。
Transform をクリックします。

ドロップダウンから cast 変換を検索して選択し、キャスト設定ボードを開きます。

Expression フィールドから dob を選択し、Type では Date を選択します。
Format タイプに MM/dd/yy を入力します。キャスト変換が成功することを確認するために、大文字の MM を使用してください。出力列名を dob_date に変更します。
キャストボードは以下のようになります:

変換をパイプラインに追加するには、Apply をクリックします。
次に、flyer_status 列の値を大文字で始めるようにフォーマットします。
変換検索フィールドで、Title case 変換を検索して選択し、タイトルケース設定ボードを開きます。
Expression フィールドで、ドロップダウンから flyer_status 列を選択します。
タイトルケースボードは以下のようになります:

変換をパイプラインに追加するには、Apply をクリックします。
変換設定ウィンドウの左上隅で、変換の名前を Passengers_Clean に変更します。

パイプライングラフに戻るには、右上の Back to graph をクリックします。

次に、flight_alerts_raw データセットをクリーニングしましょう。まず、flight_date 列の値を MM/dd/yy 形式に変換するための別のキャスト変換を設定します。
グラフ内の flight_alerts_raw データセットノードをクリックします。
Transform をクリックします。

ドロップダウンから cast 変換を検索して選択し、キャスト設定ボードを開きます。選択ボックスの右側にリストされている関数定義を読むことで、関数について詳しく知ることができます。

Expression フィールドで、ドロップダウンから flight_date 列を選択します。
Type フィールドのドロップダウンから Date を選択します。
Format タイプに MM/dd/yy を入力します。キャスト変換が成功することを確認するために、大文字の MM を使用してください。
キャストボードは以下のようになります:

変換をパイプラインに追加するには、Apply をクリックします。
次に、category 列の値から空白を削除する Clean string 変換を追加します。例えば、変換では delay··· 文字列の値を delay に変換します。
ドロップダウンから clean string 変換を検索して選択し、clean string 設定ボードを開きます。
Expression フィールドで、ドロップダウンから category 列を選択します。
Clean actions オプションのすべての 3 つのチェックボックスを選択します:
clean string ボードは以下のようになります:

変換をパイプラインに追加するには、Apply をクリックします。
変換設定ウィンドウの左上隅で、変換の名前を Flight Alerts - Clean に変更します。
パイプライングラフに戻るには、右上の Back to graph をクリックします。

最後に、status_mapping_raw データセットをクリーニングしましょう。
このデータセットには Clean string 変換のみを適用します。
グラフ内の status_mapping_raw データセットノードをクリックします。
Transform をクリックします。

Search transforms and columns... フィールドで、ドロップダウンから mapped_value 列を選択します。

同じフィールドで、ドロップダウンから clean string 変換を検索して選択します。
Clean actions オプションのすべての 3 つのチェックボックスを選択します:
空の文字列を null に変換
複数の空白文字のシーケンスを単一の空白に削減
文字列の先頭と末尾の空白を削除
clean string ボードは以下のようになります:

変換をパイプラインに追加するには、Apply をクリックします。
変換設定ウィンドウの左上隅で、変換の名前を Status Mapping - Clean に変更します。
パイプライングラフに戻るには、右上の Back to graph をクリックします。
これで、追加した変換と適用したデータセットとの間の接続が表示されます。

これで、joins を使ってクリーニングしたデータセットを組み合わせることができます。結合では、少なくとも 1 つの一致する列を持つデータセットを組み合わせることができます。パイプラインワークフローに 2 つの結合を追加します。
最初の結合では、クリーニング済みのデータセットを 2 つ組み合わせます。
Flight Alerts - Clean 変換ノードをクリックします。これが結合の左側になります。
Join を選択します。

Status Mapping - Clean ノードをクリックして、結合の右側に追加します。
Start をクリックして、結合設定ボードを開きます。

Join type が Left join に設定されていることを確認します。
Match condition 列を status と value が等しいように設定します。
追加の設定オプションを表示するには、Show advanced をクリックします。
右側の Status Mapping - Clean データセットの Prefix を status に設定します。
結合設定ボードは以下のようになります:

結合をパイプラインに追加するには、Apply をクリックします。
結合出力テーブルのプレビューを設定ウィンドウの下部にある Preview ペインで表示します。

結合設定ウィンドウの左上隅で、結合の名前を Join Status に変更します。
パイプライングラフに戻るには、右上の Back to graph をクリックします。

グラフを読みやすくするために、Layout アイコンをクリックしてデータセットを自動的に整列させるか、手動で 2 つの接続されたデータセットを隣同士に配置します。

2 番目の結合では、最初の結合出力テーブルを別の生データセットと組み合わせます。
Add datasets をクリックして、グラフに priority_mapping_raw データセットを追加します。
先ほどグラフに追加した Join Status ノードをクリックします。これが結合の左側になります。
Join を選択します。
priority_mapping_raw データセットノードをクリックして、結合の右側に追加します。
Start をクリックして、設定ボードを開きます。

Join type が Left join に設定されていることを確認します。
Match condition 列を priority と value が等しいように設定します。
追加の設定オプションを表示するには、Show advanced をクリックします。
右側の priority_mapping_raw データセットの Prefix を priority に設定します。
結合設定ボードは以下のようになります:

結合をパイプラインに追加するには、Apply をクリックします。
結合出力テーブルのプレビューを設定ウィンドウの下部にある Preview ペインで表示します。

結合設定ウィンドウの左上隅で、結合の名前を Join (2) に変更します。
パイプライングラフに戻るには、右上の Back to graph をクリックします。
これで、追加した結合と適用したデータセットとの間の接続が表示されます。

データの変換と構造化が完了したので、出力を追加しましょう。このチュートリアルでは、データセット出力を追加します。
Pipeline Builder グラフの右側にある Pipeline outputs サイドバーで、出力の名前を Flight Alerts data に設定します。次に、Add dataset output をクリックします。
Join (2) から出力にリンクするために、結合ノードの右側にある白い円をクリックし、Flight Alerts data データセットに接続します。
既存のスキーマを使用するには、Use input schema をクリックします。
ここから、保持するデータの列を選択します。今回の場合、すべてのデータを一緒に保持します。

パイプラインを構築するには、Save をクリックし、次に Deploy > Deploy pipeline をクリックしてください。

デプロイが成功したことを示す小さなアラートが表示されるはずです。アラートボックス内の View をクリックして、Build progress ページを開きます。

このページから、データセット出力が準備できるまでビルドの進行状況を監視できます。

データセットにアクセスするには、Actions > Open をクリックします。

この最後のステップで、パイプライン出力が生成されました。この出力は、Foundry 内の他のアプリ Contour や Code Workbook などでさらに探索するためのデータセットです。