注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
array(*cols)array_contains(col, value)size(col)sort_array(col, asc=True)struct(*cols)asc(col)desc(col)bitwiseNOT(col)shiftLeft(col, numBits)shiftRight(col, numBits)shiftRightUnsigned(col, numBits)coalesce(*cols)isnan(col)isnull(col)col(col) or column(col)create_map(*cols)explode(col)expr(str)hash(*cols)input_file_name()posexplode(col)sha1(col)sha2(col, numBits)soundex(col)spark_partition_id()from_json(col, schema, options={})get_json_object(col, path)json_tuple(col, *fields)to_json(col, options={})checkpoint(eager=True)
setCheckpointDir(dir) 関数を使用して、カスタムチェックポイントディレクトリを設定できます。これは ctx.spark_session.sparkContext を通じてアクセス可能です。ctx をユーザーのトランスフォームの compute() 関数の入力パラメーターとして含めることを確認してください。localCheckpoint(eager=True)checkpoint() 関数は、一時的に DataFrame をディスクに保存するために使用されますが、localCheckpoint() はそれらを executor メモリに保存します。localCheckpoint() を使用する際にはディレクトリを設定する必要はありません。eager パラメーター値を使用して、DataFrame がすぐにチェックポイントを設定するかどうかを設定します(デフォルト値は True)。