注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
DataFrame.distinct()元の DataFrame の中で異なる行を含む新しい DataFrame を返します。
Copied!1 2# 重複する行を削除します df = df.distinct()
DataFrame.drop_duplicates(subset=None)重複した行を削除した新しいDataFrameを返します。オプションで特定の行だけを考慮することができます。
Copied!1 2 3 4# 重複する行を削除します df = df.drop_duplicates() # "firstname" と "lastname" の組み合わせが重複する行を削除します df = df.drop_duplicates(["firstname", "lastname"])
DataFrame.dropna(how='any', thresh=None, subset=None)エイリアス: DataFrame.na.dropna(how='any', thresh=None, subset=None)
null 値を含む行を省いた新しい DataFrame を返します。DataFrame.dropna() と DataFrameNaFunctions.drop() は互いのエイリアスです。
パラメーター:
'any' または 'all'。
'any' の場合、null を含む行を削除します。'all' の場合、すべての値が null の行のみを削除します。None。指定された場合、thresh よりも少ない非 null 値を持つ行を削除します。(これにより how パラメーターが上書きされます)。DataFrame.limit(number)DataFrame.sort(*cols, **kwargs)エイリアス: DataFrame.orderBy(*cols, **kwargs)
Column.asc() または F.asc(col)Column.desc() または F.desc(col)