注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

コンセプト: クエリ

ディスティンクト、重複の削除

`DataFrame.distinct()`

元の DataFrame の中で異なる行を含む新しい DataFrame を返します。

Copied!1
2
# 重複する行を削除します
df = df.distinct()

`DataFrame.drop_duplicates(subset=None)`

重複した行を削除した新しいDataFrameを返します。オプションで特定の行だけを考慮することができます。

Copied!1
2
3
4
# 重複する行を削除します
df = df.drop_duplicates()
# "firstname" と "lastname" の組み合わせが重複する行を削除します
df = df.drop_duplicates(["firstname", "lastname"])

null 値を削除する

`DataFrame.dropna(how='any', thresh=None, subset=None)`

エイリアス: DataFrame.na.dropna(how='any', thresh=None, subset=None)

null 値を含む行を省いた新しい DataFrame を返します。DataFrame.dropna() と DataFrameNaFunctions.drop() は互いのエイリアスです。

パラメーター:

how – 'any' または 'all'。
- 'any' の場合、null を含む行を削除します。
- 'all' の場合、すべての値が null の行のみを削除します。
thresh – 整数、デフォルトは None。指定された場合、thresh よりも少ない非 null 値を持つ行を削除します。（これにより how パラメーターが上書きされます）。
subset – オプションの行名のリストを考慮します。

行数を制限する

`DataFrame.limit(number)`

並び替え

`DataFrame.sort(*cols, **kwargs)`

エイリアス: DataFrame.orderBy(*cols, **kwargs)

Column.asc() または F.asc(col)
Column.desc() または F.desc(col)