注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
DataFrame.distinct()返回一个新的DataFrame,其中包含源DataFrame中的不同行。
Copied!1 2df = df.distinct() # 删除 DataFrame 中的重复行
DataFrame.drop_duplicates(subset=None)返回一个新的DataFrame,其中重复行已被删除,非必填时仅考虑某些列。
Copied!1 2 3 4 5# 删除DataFrame中的重复行 df = df.drop_duplicates() # 删除DataFrame中基于"firstname"和"lastname"列的重复行 df = df.drop_duplicates(["firstname", "lastname"])
DataFrame.dropna(how='any', thresh=None, subset=None)别名: DataFrame.na.dropna(how='any', thresh=None, subset=None)
返回一个新的 DataFrame,省略包含空值的行。DataFrame.dropna() 和 DataFrameNaFunctions.drop() 是彼此的别名。
参数:
'any' 或 'all'。
'any',则如果行中包含任何空值,则删除该行。'all',则仅当行中所有值都为空时才删除该行。None。如果指定,则删除非空值少于thresh的行。(这将覆盖how参数)。DataFrame.limit(number)DataFrame.sort(*cols, **kwargs)别名: DataFrame.orderBy(*cols, **kwargs)
Column.asc() 或 F.asc(col)Column.desc() 或 F.desc(col)