注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
TransformInput オブジェクトFoundry データセット上での低レベル操作のインターフェース。
spark.df()
data.frame()
fileSystem()
TransformOutput オブジェクトFoundry データセットへの低レベル書き込み操作のインターフェース。
write.spark.df(df, partition_cols=NULL, bucket_cols=NULL, bucket_count=NULL, sort_by=NULL)
与えられた DataFrame ↗ を出力データセットに書き込みます。
| パラメーター |
|
write.data.frame(rdf)
fileSystem()
FileSystem オブジェクトls(glob=NULL, regex='.*', show_hidden=FALSE)
データセットのルートディレクトリに対する、指定されたパターン(glob または regex)に一致するすべてのファイルをリストします。
| パラメーター |
|
| 戻り値 | R の FileStatus 名前付きタプルの配列(path, size, modified) - 論理パス、ファイルサイズ(バイト)、変更されたタイムスタンプ(1970 年 1 月 1 日 UTC からのミリ秒) |
open(path, open='r', disk_optimal=FALSE, encoding=default)
与えられたモードで FoundryFS ファイルを開きます。
| パラメーター |
|
| 戻り値 | R のコネクションオブジェクト |
get_path(path, open='r', disk_optimal=FALSE, encoding=default)
与えられた FoundryFS(リモート)パスに対して、ローカルの一時パスを返します。
| パラメーター |
|
| 戻り値 | str |
upload(local_path, remote_path)
ローカルパスからリモートパスにファイルをアップロードします。書き込みのみです。
| パラメーター |
|
| 戻り値 | None |
disk_optimal 設定FileSystem のメソッド open() と get_path() で、disk_optimal 引数はファイル入出力(i/o)の処理方法を制御します。
デフォルトでは、open() と get_path() の両方で disk_optimal は FALSE に設定されています。このモードでは、ファイルがアクセスされる前にダウンロードされることが保証されます。
disk_optimal を TRUE に設定すると、ファイルはコードの実行と同時にダウンロードされます。一時的なローカルパスは、正しく読み取るために fifo() を介して開かれる必要があります。ただし、すべてのライブラリがこのタイプのファイルを読み取ることをサポートしているわけではありません。
ファイルが非常に大きい場合は、disk_optimal を TRUE に設定することを選択できます。
例えば、非常に大きな txt ファイルがあり、最初の10行だけを読み取りたい場合を想像してみてください。以下のコードを使用して、ファイル全体を読み取らずに最初の10行だけを表示します。